python爬虫之html界面的信息表达形式(内容丰富,包含信息标记的组织形式,绝对是你听得懂的)
python爬虫之网页信息表达形式
爬到的html页面中信息那么多,你又不是那么专业,怎么获取到你想要的信息?
- 先普及一些关于html页面中信息的组成,下面是我截取的百度的网页源码组成部分,除了url是蓝色的,明显的有三种颜色不同,形式各异的标签语言,分别是XML,JSON,YAML
- XML
- 看单词就知道跟HTML很像,确实是从HTML语言发展过来的
- XML成为扩展标签语言,主要以标签为主,组织信息
- 标签是啥?
- 标签是:< 标签名 标签属性(标签的大小,颜色等)>…(内部的具体信息)…< /标签名 >,形如< p > … < /p >
- 注释< !-- 我是注释 – >
- 单括号标签 < name / >,a标签就是单边
- JSON(就是红色那块)
- 用有类型的键值对构造的信息表达方式,key :value,其中key和value都是指定类型的
- 本质:JavaScript语言中对象的字符串表示法,就是js这个语言中的一种数据类型,可以将json语言转成js语言的编程部分
- 形式:
-
注意key和value都是有类型的
-
嵌套使用,用花括号连接
-
一个key,对应多个value,用方括号连接
-
一共就三种信息表达形式,两种都讲了,还有一种就提一下
- YAML(不好意思,这里面没有)
- 特征:无类型的键值对,来作为信息的表达形式
- 应用:各类系统的配置文件,有注释易读
- 形式
- 无类型
- 缩进表达所属关系
- 无类型
- “-”表达并列关系
- | 表达数据块 # 表示注释
对比一下上述三种信息表达方式
- 分别用三中信息表达形式表示同样的一段信息
- XML形式
- JSON形式
- YAML形式
- 通过对比发现,用三种形式表达相同数据,发现:
- YAML利用率比较高,不是吗?废话比较少,无用的符号与有用的数据占比较高。所以YAML可读性好,用于书写各类系统的配置文件
- JSON由于和JS语言的关系,可以用于移动应用云端和节点的信息通信
- XML从HTML发展来的,所以作为HTML网页的框架