大数据技术_ 基础理论 之 互联网大数据处理方法
1 互联网信息抓取
1.1概述
互联网信息自动抓取,最常见且有效的方式是使用网络爬虫。
爬虫可以被分为两类: 一类叫作“通用爬虫”; 另一类叫作“聚焦爬虫”。
目前成熟的网络爬虫有很多,其中不乏Googlebot、百度蜘蛛这样的广分布式多服务器多线程的商业爬虫和GNU Wget、Apache Nutch这样的灵活方便的开源爬虫搜索引擎。
1.2Nutch爬虫
1.3案例:招聘网站信息抓取
1.4案例:舆情信息汇聚
2 文本分词
2.1文本分词
2.2MMSEG分词工具
2.3斯坦福NLTK分词工具
3 倒排索引
3.1倒排索引原理
3.2倒排索引实现
4 网页排序算法
4.2 TD-IDF算法
4.3 BM25算法
4.4PageRank算法
5 历史信息检索
5.1系统架构
5.2数据抓取与整合
5.3查询引擎
5.4运行效果
以上是目前互联网大数据处理常用方法