2020最新 使用阿里云开放搜索服务快速搭建资源搜索网站

一晃这么多年过去,嘿嘿嘿的东西依然喜欢,但世间却变化万千

资源种类已不仅仅是X片,高清电影、纪录片、无损音乐、美剧、大型软件等等,似乎更加吸引

资源呈现方式也百花齐放,从最早的BT文件、电驴地址,到现在的磁链地址、各种云盘等等

而传统的P2P下载方式也变得格格不入,因为硬盘容量已经大到但凡大一点云存储服务商都把所有资源缓存在自己的服务器上,进行哈希匹配后直接提供离线下载资源(这也直接导致快播王欣被抓)

因此,作为资源的入口,电驴地址和磁链地址依然有着强大的生命力,受益于各商家庞大的离线存储,电驴、磁链地址已经近乎等同于直接的HTTP地址,并且有着比HTTP地址更友好的通用性。

随手百度一下BT搜索、磁链搜索关键词,就会出来很多类似的搜索网站,比如以下这些

2020最新 使用阿里云开放搜索服务快速搭建资源搜索网站

2020最新 使用阿里云开放搜索服务快速搭建资源搜索网站

而今天,我们也来搭建一个类似的网站,只不过

借助新技术,不仅搭建过程更加简化建设思路也能有所革新,所以今天文章的主题就是:

使用阿里云开放搜索服务快速搭建资源搜索网站

先看一下最终的建设效果(访问地址:https://sodemo.alphams.cn/

2020最新 使用阿里云开放搜索服务快速搭建资源搜索网站

那么下面我们就一步一步来搭建这个简单的资源搜索网站

一、搭建前的一些准备和分析

资源搜索网站有如下几个关键点:

1、原始数据

没有个几百万条初始搜索数据,都不好意思和别人说是做资源站的,在这个案例里面,我们采用了simplecd官方制作的电驴地址打包,虽然年代比较久远,但也有百万条左右,下载地址为:

https://www.douban.com/group/topic/17230136/

请注意保护版权!

2、数据存储与检索

十多年前资源的数量以百万计算,现在一个饱满的资源站的资源数量应该早已过亿,数据库大小也应该在50G以上,这样的数据,使用阿里云RDS MySQL数据库具有较高的性价比,数据量再大一些还可以结合DRDS分布式数据库一同使用

对于具体的检索技术,不同的数据库的全文索引、分词等技术各不相同,甚至连MySQL的各种版本之间的处理都有区别,而由于数据库我是确实不会。。要是会的话就不至于一直用Linq ORM了。。我想象中的100万条数据全文检索的速度应该在0.01秒左右,但自己操作MySQL进行配置和优化,始终达不到这样的查询效率

因此今天这里选择了阿里云的开放搜索服务,让阿里云来处理这些难点。

这也是今天的一个主要讲解重点,实测证明,确实检索效率很高!

阿里云2000元优惠礼包领取

3、数据爬虫与更新

初始数据载入后,后续的数据更新也非常重要,主要靠爬虫程序进行每日更新,重点在于爬虫程序的效率的所爬目标的资源质量,这里有两个难点

1)所爬目标资源。电影站、软件站、BT搜索站等等,都可以是爬虫目标资源,而如果掌握了搜索引擎的高级用法,并引入无限数量的代理IP,则可以对搜索引擎直接进行定向爬取,效果更加。如能做到每日新增10万左右新资源,则是一个比较完美的效果。

2)爬虫程序。如果仅仅是对HTML进行查询和分析,则需要很高的正则使用技巧,而如果涉及到语义分析的话,更需要很强的语言分析相关技术。爬虫程序的逻辑编写,我想.NET Framework 4.5是再适合不过了,拥有先进的多线程并行库和丰富而全面的HTTP访问手段,完胜其他各种新型语言

经过以上的分析,设计出如下的系统架构图:

2020最新 使用阿里云开放搜索服务快速搭建资源搜索网站

二、具体的搭建步骤

1、购买一个阿里云RDS数据库并进行相关配置

因为本项目纯属测试,所以买个便宜点的按时计费的MySQL RDS

2020最新 使用阿里云开放搜索服务快速搭建资源搜索网站

每天7块多钱,还算可以接受的范围内。

购买完成后,申请一个外网地址(用于初始数据迁移)

2020最新 使用阿里云开放搜索服务快速搭建资源搜索网站

2020最新 使用阿里云开放搜索服务快速搭建资源搜索网站

最后获得了内外网的地址:

2020最新 使用阿里云开放搜索服务快速搭建资源搜索网站

2、使用Navicat Premium(请支持正版,)打开下载好的SQLite格式的电驴初始数据

2020最新 使用阿里云开放搜索服务快速搭建资源搜索网站

2020最新 使用阿里云开放搜索服务快速搭建资源搜索网站

根据表结构可以看出相关数据存储方式,由于今天的案例比较简单,我们仅需要title、updatetime、ed2k这3个字段

3、根据需要的字段,在购买的RDS数据库中,建立数据库和表

2020最新 使用阿里云开放搜索服务快速搭建资源搜索网站

2020最新 使用阿里云开放搜索服务快速搭建资源搜索网站

通过Navicat Premium连接到阿里云

2020最新 使用阿里云开放搜索服务快速搭建资源搜索网站

建立一个电驴资源表

2020最新 使用阿里云开放搜索服务快速搭建资源搜索网站

4、通过Navicat Premium的数据迁移工具,将初始化数据导入RDS

由于没有直接的导入方式,我们先将SQlite数据导出为文本文件

2020最新 使用阿里云开放搜索服务快速搭建资源搜索网站

 

再将文本文件导入到最终表中

2020最新 使用阿里云开放搜索服务快速搭建资源搜索网站

2020最新 使用阿里云开放搜索服务快速搭建资源搜索网站

2020最新 使用阿里云开放搜索服务快速搭建资源搜索网站

2020最新 使用阿里云开放搜索服务快速搭建资源搜索网站

2020最新 使用阿里云开放搜索服务快速搭建资源搜索网站

5、通过阿里云开放搜索服务,与RDS连接并建立索引

2020最新 使用阿里云开放搜索服务快速搭建资源搜索网站

2020最新 使用阿里云开放搜索服务快速搭建资源搜索网站

选择通过数据源创建应用

2020最新 使用阿里云开放搜索服务快速搭建资源搜索网站

2020最新 使用阿里云开放搜索服务快速搭建资源搜索网站

设置ID为主键

2020最新 使用阿里云开放搜索服务快速搭建资源搜索网站

默认定义了如下索引结构

2020最新 使用阿里云开放搜索服务快速搭建资源搜索网站

我们只需要用到Title的检索,需要展示的内容则是title,ed2k,因此修改为如下:

2020最新 使用阿里云开放搜索服务快速搭建资源搜索网站

创建完成后进行**,选择了3G容量,每秒6次的配置(好像价格不便宜哦~)

2020最新 使用阿里云开放搜索服务快速搭建资源搜索网站

**完成后,会进行大约半个小时左右的索引,索引建立好之后,我们测试一下搜索效果

2020最新 使用阿里云开放搜索服务快速搭建资源搜索网站d

注意用时:用时0.008791秒

这比自己处理数据库,真是要高不少效率!看来使用阿里云开放搜索服务确实是一个值得尝试的新思路!

6、基本配置完成后,就是如何使用开放搜索服务了

先看一下官方文档的结构

2020最新 使用阿里云开放搜索服务快速搭建资源搜索网站

标红的地方可以重点了解,在今天的案例里面,我们只需要用到API接口里面的Search接口,这是最简单的调用方式

2020最新 使用阿里云开放搜索服务快速搭建资源搜索网站

文档还是比较简单,很容易就看懂了,签名这块阿里做的有些混乱,不过用官方提供的SDK,也能快速的使用服务

7、下面就在.NET中测试一下效果

先到官网下载一下.NET的SDK

2020最新 使用阿里云开放搜索服务快速搭建资源搜索网站

然后建一个控制台测试程序,代码如下:

2020最新 使用阿里云开放搜索服务快速搭建资源搜索网站

模拟进行搜索美食

返回成功

2020最新 使用阿里云开放搜索服务快速搭建资源搜索网站

8、继续新建一个简单的asp.net Web Application,做一下前端访问首页

服务输出使用一个一般处理程序RS.ashx,代码如下:

2020最新 使用阿里云开放搜索服务快速搭建资源搜索网站

页面就一个单页面

2020最新 使用阿里云开放搜索服务快速搭建资源搜索网站

JS逻辑也很简单

2020最新 使用阿里云开放搜索服务快速搭建资源搜索网站

访问效果如下:

2020最新 使用阿里云开放搜索服务快速搭建资源搜索网站

好了,今天这个资源搜索网站就搭建好了

麻雀虽小五脏俱全,这个案例还是具备很强的实践性和延展性的,后续可以做的事情有如下:

1)完善爬虫程序

2)实现一个独立的管理后台,管理爬虫数据和开放搜索服务数据同步

3)增加用户管理

4)增加广告等营收

那么对今天这个案例的总结是:

今天的案例,可以说是一种全新的数据检索思路,成功的把部分面向数据库、面向技术的业务场景,转变为了面向服务、面向用户,以我自己为例,非常精通数据爬虫,精通资源,但对数据库技术并不在行,在不需要学习很深的数据库知识和技巧的情况下,阿里云开放搜索服务成功的帮助我将百万条数据的全文检索时间降低到了0.01秒,这不是传统的通过升级数据库配置、增加集群能解决的(花费上也不合理)。而我也坚信,这种思路,绝对不是阿里云官方Demo里面所说,可以用于论坛搜索这么简单,一定有更广阔的应用。所以,写了这么一个小案例,希望能够抛砖引玉,激发大家的灵感,做出更多创新。

本项目源码下载:https://github.com/chumakeji/resourcesearch

阿里云2000元优惠礼包领取​​​​​​​