python爬虫之html界面的信息表达形式(内容丰富,包含信息标记的组织形式,绝对是你听得懂的)

python爬虫之网页信息表达形式

爬到的html页面中信息那么多,你又不是那么专业,怎么获取到你想要的信息?
  • 先普及一些关于html页面中信息的组成,下面是我截取的百度的网页源码组成部分,除了url是蓝色的,明显的有三种颜色不同,形式各异的标签语言,分别是XML,JSON,YAML
    python爬虫之html界面的信息表达形式(内容丰富,包含信息标记的组织形式,绝对是你听得懂的)
  • XML
    • 看单词就知道跟HTML很像,确实是从HTML语言发展过来的
    • XML成为扩展标签语言,主要以标签为主,组织信息
    • 标签是啥?
      • 标签是:< 标签名 标签属性(标签的大小,颜色等)>…(内部的具体信息)…< /标签名 >,形如< p > … < /p >
      • 注释< !-- 我是注释 – >
      • 单括号标签 < name / >,a标签就是单边
        python爬虫之html界面的信息表达形式(内容丰富,包含信息标记的组织形式,绝对是你听得懂的)python爬虫之html界面的信息表达形式(内容丰富,包含信息标记的组织形式,绝对是你听得懂的)
  • JSON(就是红色那块)
    • 用有类型的键值对构造的信息表达方式,key :value,其中key和value都是指定类型的
    • 本质:JavaScript语言中对象的字符串表示法,就是js这个语言中的一种数据类型,可以将json语言转成js语言的编程部分
    • 形式:
      • 注意key和value都是有类型的
        python爬虫之html界面的信息表达形式(内容丰富,包含信息标记的组织形式,绝对是你听得懂的)

      • 嵌套使用,用花括号连接
        python爬虫之html界面的信息表达形式(内容丰富,包含信息标记的组织形式,绝对是你听得懂的)

      • 一个key,对应多个value,用方括号连接
        python爬虫之html界面的信息表达形式(内容丰富,包含信息标记的组织形式,绝对是你听得懂的)

一共就三种信息表达形式,两种都讲了,还有一种就提一下
  • YAML(不好意思,这里面没有)
  • 特征:无类型的键值对,来作为信息的表达形式
  • 应用:各类系统的配置文件,有注释易读
  • 形式
    • 无类型
      python爬虫之html界面的信息表达形式(内容丰富,包含信息标记的组织形式,绝对是你听得懂的)
    • 缩进表达所属关系

python爬虫之html界面的信息表达形式(内容丰富,包含信息标记的组织形式,绝对是你听得懂的)

  • “-”表达并列关系

python爬虫之html界面的信息表达形式(内容丰富,包含信息标记的组织形式,绝对是你听得懂的)

  • | 表达数据块 # 表示注释
    python爬虫之html界面的信息表达形式(内容丰富,包含信息标记的组织形式,绝对是你听得懂的)
对比一下上述三种信息表达方式
  • 分别用三中信息表达形式表示同样的一段信息
  • XML形式
    python爬虫之html界面的信息表达形式(内容丰富,包含信息标记的组织形式,绝对是你听得懂的)
  • JSON形式

python爬虫之html界面的信息表达形式(内容丰富,包含信息标记的组织形式,绝对是你听得懂的)

  • YAML形式
    python爬虫之html界面的信息表达形式(内容丰富,包含信息标记的组织形式,绝对是你听得懂的)
  • 通过对比发现,用三种形式表达相同数据,发现:
    • YAML利用率比较高,不是吗?废话比较少,无用的符号与有用的数据占比较高。所以YAML可读性好,用于书写各类系统的配置文件
    • JSON由于和JS语言的关系,可以用于移动应用云端和节点的信息通信
    • XML从HTML发展来的,所以作为HTML网页的框架