4、简单的网络爬虫例子
1、 在百度输入JavaScript,点击搜索,把搜索出来的标题,通过正则表达式找到这些标题。
提取效果图:
具体实现方法:
1、 搜索口,在浏览器的空白地方右键,查看页面源码,并把源码拷贝到RegexBuddy 工具中,注:完整页面源码放在文末
2、 分析规律:(黄色区域是随便找的一个小结构,里面是我们要找的标题百度百科)
<div class="result-op c-container xpath-log" srcid="1547" id="1" tpl="bk_polysemy" mu="https://baike.baidu.com/item/javascript/321142" data-op="{'y':'FFC8DDFB'}" data-click="{'p1':'1','rsv_bdr':'0','fm':'albk',rsv_stl:''}">
<h3 class="t