【python爬虫】抓取链接网页内的文本 (第一步 定位超链接文本)
第一步:
导入模块
- >>> import re
- >>> from bs4 import BeautifulSoup
- >>> import urllib.request
-------------------------------------
第二步:
导入网址
url = "http://zsb.szu.edu.cn/zbs.html"
-------------------------------------------------------------------------
第三步:
调动模块解析网址
>>> page = urllib.request.urlopen(url) #通过链接获取整个网页
>>> soup = BeautifulSoup(page,'lxml') #格式化排列
print(soup.prettify()) #打印出结构化的数据
第四步:
--------------------------------------------------------
-----------------------------------------------------------
下一步写,模拟浏览器的规格
headers = {'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 Safari/537.36'}
下一步,复制Xpath路径
/html/body/div[5]/table/tbody/tr/td[2]/div[3]/div[1]/div[2]/a
-----------------------------------------------------------