大数据技术_ 基础理论 之 互联网大数据处理方法

1 互联网信息抓取

1.1概述

互联网信息自动抓取,最常见且有效的方式是使用网络爬虫。

爬虫可以被分为两类: 一类叫作“通用爬虫”; 另一类叫作“聚焦爬虫”。
目前成熟的网络爬虫有很多,其中不乏Googlebot、百度蜘蛛这样的广分布式多服务器多线程的商业爬虫和GNU Wget、Apache Nutch这样的灵活方便的开源爬虫搜索引擎。

1.2Nutch爬虫
大数据技术_ 基础理论 之 互联网大数据处理方法
大数据技术_ 基础理论 之 互联网大数据处理方法
大数据技术_ 基础理论 之 互联网大数据处理方法
大数据技术_ 基础理论 之 互联网大数据处理方法
大数据技术_ 基础理论 之 互联网大数据处理方法
1.3案例:招聘网站信息抓取
大数据技术_ 基础理论 之 互联网大数据处理方法

大数据技术_ 基础理论 之 互联网大数据处理方法
1.4案例:舆情信息汇聚

大数据技术_ 基础理论 之 互联网大数据处理方法
大数据技术_ 基础理论 之 互联网大数据处理方法

2 文本分词

2.1文本分词
大数据技术_ 基础理论 之 互联网大数据处理方法
大数据技术_ 基础理论 之 互联网大数据处理方法
大数据技术_ 基础理论 之 互联网大数据处理方法
2.2MMSEG分词工具
大数据技术_ 基础理论 之 互联网大数据处理方法
大数据技术_ 基础理论 之 互联网大数据处理方法
2.3斯坦福NLTK分词工具
大数据技术_ 基础理论 之 互联网大数据处理方法

3 倒排索引

3.1倒排索引原理
大数据技术_ 基础理论 之 互联网大数据处理方法
大数据技术_ 基础理论 之 互联网大数据处理方法
大数据技术_ 基础理论 之 互联网大数据处理方法

大数据技术_ 基础理论 之 互联网大数据处理方法
3.2倒排索引实现

大数据技术_ 基础理论 之 互联网大数据处理方法

4 网页排序算法

大数据技术_ 基础理论 之 互联网大数据处理方法
4.2 TD-IDF算法
大数据技术_ 基础理论 之 互联网大数据处理方法
4.3 BM25算法
大数据技术_ 基础理论 之 互联网大数据处理方法
大数据技术_ 基础理论 之 互联网大数据处理方法
4.4PageRank算法
大数据技术_ 基础理论 之 互联网大数据处理方法

5 历史信息检索

5.1系统架构
大数据技术_ 基础理论 之 互联网大数据处理方法
5.2数据抓取与整合
大数据技术_ 基础理论 之 互联网大数据处理方法
5.3查询引擎
大数据技术_ 基础理论 之 互联网大数据处理方法
5.4运行效果
大数据技术_ 基础理论 之 互联网大数据处理方法
大数据技术_ 基础理论 之 互联网大数据处理方法
以上是目前互联网大数据处理常用方法