使用 ES 和 DHT 协议爬虫快速打造热门资源下载搜索引擎
ES 即 Elasticsearch,是基于 Apache Lucence 的全文搜索引擎。ES 是纯 Java 开发的,并在 Apache 许可条款下自由发布,是当前流行的企业级搜索引擎。ES 的可靠性高,搜索性能好,易于分布式扩展,它提供了 HTTP RestFull 接口方便访问和管理数据。ES 与 Kibana、LogStash 、filebeat 等软件构成 ELK 技术栈,提供了更加丰富的解决方案。
在本 Chat 中,笔者以构建一个 BT 资源下载数据库为例子,详细介绍 ES 打造企业搜索引擎的基本思路和步骤。本内容全部基于开源代码,只要有一个具有公网 IP 的 VPS,使用很少的代码和设置,就可以打造自己的资源下载引擎。如果你是一个前端工程师,则很容易将它封装成一个非常 Fancy 的资源搜索引擎。
主要内容包括:
- ES 主要概念介绍
- ES 的安装和配置
- ES 索引建立修改和删除
- ES 查询语法应用
- Kibana 和 ES 的配合
- 如何将日志数据持续写入 ES
- DHT 协议简介
- DHT 爬虫的实现应用
- DHT 爬取文件 info 日志
- 文件 info 的入库
- 文件搜索
- ES 系统数据的压缩和备份
适合人群: 无需太多基础,对爬虫、日志、搜索应用有兴趣的技术人员。
阅读全文: http://gitbook.cn/gitchat/activity/5e0c96df83ce5b667f840da3
您还可以下载 **** 旗下精品原创内容社区 GitChat App ,阅读更多 GitChat 专享技术内容哦。