您的位置: 首页 > 文章 > 大数据技术_ 基础理论之互联网大数据处理方法

大数据技术_ 基础理论之互联网大数据处理方法

分类: 文章 • 2023-04-01 00:04:34

1 互联网信息抓取

1.1概述

互联网信息自动抓取，最常见且有效的方式是使用网络爬虫。

爬虫可以被分为两类：一类叫作“通用爬虫”；另一类叫作“聚焦爬虫”。
目前成熟的网络爬虫有很多，其中不乏Googlebot、百度蜘蛛这样的广分布式多服务器多线程的商业爬虫和GNU Wget、Apache Nutch这样的灵活方便的开源爬虫搜索引擎。

1.2Nutch爬虫
大数据技术_ 基础理论之互联网大数据处理方法

1.3案例：招聘网站信息抓取

大数据技术_ 基础理论之互联网大数据处理方法
1.4案例：舆情信息汇聚

大数据技术_ 基础理论之互联网大数据处理方法

2 文本分词

2.1文本分词
大数据技术_ 基础理论之互联网大数据处理方法

2.2MMSEG分词工具

2.3斯坦福NLTK分词工具

3 倒排索引

3.1倒排索引原理
大数据技术_ 基础理论之互联网大数据处理方法

大数据技术_ 基础理论之互联网大数据处理方法
3.2倒排索引实现

大数据技术_ 基础理论之互联网大数据处理方法

4 网页排序算法

大数据技术_ 基础理论之互联网大数据处理方法
4.2 TD-IDF算法

4.3 BM25算法

4.4PageRank算法

5 历史信息检索

5.1系统架构
大数据技术_ 基础理论之互联网大数据处理方法
5.2数据抓取与整合

5.3查询引擎

5.4运行效果

以上是目前互联网大数据处理常用方法