Python网络爬虫与信息提取第三周测验答案

测验3: Python网络爬虫之实战 (第3周)

1. 以下不是正则表达式优势的选项是:‪‬‪‬‪‬‪‬‪‬‮‬‫‬‪‬‪‬‪‬‪‬‪‬‪‬‮‬‪‬‫‬‪‬‪‬‪‬‪‬‪‬‮‬‫‬‪‬‪‬‪‬‪‬‪‬‪‬‮‬‪‬‮‬‪‬‪‬‪‬‪‬‪‬‮‬‫‬‮‬‪‬‪‬‪‬‪‬‪‬‮‬‪‬‭‬

  • A 一行胜千言
  • B 特征表达
  • C 实现自动化脚本
  • D 简洁

正确答案 C
尽管正则表达式可用于自动化脚本,但不直接体现自动脚本的作用。

2. 正则表达式:^[A-Za-z\d]+$的含义是什么?‪‬‪‬‪‬‪‬‪‬‮‬‫‬‪‬‪‬‪‬‪‬‪‬‪‬‮‬‪‬‫‬‪‬‪‬‪‬‪‬‪‬‮‬‫‬‪‬‪‬‪‬‪‬‪‬‪‬‮‬‪‬‮‬‪‬‪‬‪‬‪‬‪‬‮‬‫‬‮‬‪‬‪‬‪‬‪‬‪‬‮‬‪‬‭‬

  • A 由26个字母和数字组成的字符串
  • B 由26个字母组成的字符串
  • C 一个26个字母构成的字符串
  • D 由26个字母和特殊字符d组成的字符串

正确答案 A
以下这些操作符是正则表达式中最常用的:
Python网络爬虫与信息提取第三周测验答案
Python网络爬虫与信息提取第三周测验答案

3. 正则表达式:\d{3}-\d{8}|\d{4}-\d{7}能匹配哪个?‪‬‪‬‪‬‪‬‪‬‮‬‫‬‪‬‪‬‪‬‪‬‪‬‪‬‮‬‪‬‫‬‪‬‪‬‪‬‪‬‪‬‮‬‫‬‪‬‪‬‪‬‪‬‪‬‪‬‮‬‪‬‮‬‪‬‪‬‪‬‪‬‪‬‮‬‫‬‮‬‪‬‪‬‪‬‪‬‪‬‮‬‪‬‭‬

  • A 010-1234567
  • B 0521-12345678
  • C 01012345678
  • D 010-12345678

正确答案 D
\d{3}-\d{8}|\d{4}-\d{7}
表示:3个数字-8个数字 或者 4个数字-7个数字

4. re库可以使用如下方式表示正则表达式:r’[1-9]\d{5}’,其中r是什么意思?‪‬‪‬‪‬‪‬‪‬‮‬‫‬‪‬‪‬‪‬‪‬‪‬‪‬‮‬‪‬‫‬‪‬‪‬‪‬‪‬‪‬‮‬‫‬‪‬‪‬‪‬‪‬‪‬‪‬‮‬‪‬‮‬‪‬‪‬‪‬‪‬‪‬‮‬‫‬‮‬‪‬‪‬‪‬‪‬‪‬‮‬‪‬‭‬

  • A 强制标记
  • B 开始位置标记
  • C 原生字符串标记
  • D 正则表达式标记

正确答案 C
字符串包括:普通字符串和原生字符串,原生字符串中没有转义符(\)。

5. 正则表达式:^[A-Za-z]+$的含义是什么?‪‬‪‬‪‬‪‬‪‬‮‬‫‬‪‬‪‬‪‬‪‬‪‬‪‬‮‬‪‬‫‬‪‬‪‬‪‬‪‬‪‬‮‬‫‬‪‬‪‬‪‬‪‬‪‬‪‬‮‬‪‬‮‬‪‬‪‬‪‬‪‬‪‬‮‬‫‬‮‬‪‬‪‬‪‬‪‬‪‬‮‬‪‬‭‬

  • A 由26个字母和数字组成的字符串
  • B 由26个字母组成的字符串
  • C 由26个字母和特殊字符d组成的字符串
  • D 由字母a和z、A和Z组成的字符串

正确答案 B
同第二题

6. 正则表达式:^-?\d+$的含义是什么?‪‬‪‬‪‬‪‬‪‬‮‬‫‬‪‬‪‬‪‬‪‬‪‬‪‬‮‬‪‬‫‬‪‬‪‬‪‬‪‬‪‬‮‬‫‬‪‬‪‬‪‬‪‬‪‬‪‬‮‬‪‬‮‬‪‬‪‬‪‬‪‬‪‬‮‬‫‬‮‬‪‬‪‬‪‬‪‬‪‬‮‬‪‬‭‬

  • A 一个带有负号的数字字符串
  • B 由26个字母和数字组成的字符串
  • C 由26个字母组成的字符串
  • D 一个整数形式的字符串

正确答案 D
同第二题

7. 正则表达式:^[0-9]*[1-9][0-9]*$的含义是什么?‪‬‪‬‪‬‪‬‪‬‮‬‫‬‪‬‪‬‪‬‪‬‪‬‪‬‮‬‪‬‫‬‪‬‪‬‪‬‪‬‪‬‮‬‫‬‪‬‪‬‪‬‪‬‪‬‪‬‮‬‪‬‮‬‪‬‪‬‪‬‪‬‪‬‮‬‫‬‮‬‪‬‪‬‪‬‪‬‪‬‮‬‪‬‭‬

  • A 数字和*组成的字符串
  • B 由0到9数字组成的字符串
  • C 整数形式的字符串
  • D 正整数形式的字符串

正确答案 D
同第二题

8. 正则表达式:[1-9]\d{5}的含义是什么?‪‬‪‬‪‬‪‬‪‬‮‬‫‬‪‬‪‬‪‬‪‬‪‬‪‬‮‬‪‬‫‬‪‬‪‬‪‬‪‬‪‬‮‬‫‬‪‬‪‬‪‬‪‬‪‬‪‬‮‬‪‬‮‬‪‬‪‬‪‬‪‬‪‬‮‬‫‬‮‬‪‬‪‬‪‬‪‬‪‬‮‬‪‬‭‬

  • A 整数形式的字符串
  • B 首位不为0的6长度数字形式字符串
  • C 由0到9数字组成的字符串
  • D 长度为5的正整数形式字符串

正确答案 B
同第二题

9. 正则表达式:[\u4e00-\u9fa5]的含义是什么?‪‬‪‬‪‬‪‬‪‬‮‬‫‬‪‬‪‬‪‬‪‬‪‬‪‬‮‬‪‬‫‬‪‬‪‬‪‬‪‬‪‬‮‬‫‬‪‬‪‬‪‬‪‬‪‬‪‬‮‬‪‬‮‬‪‬‪‬‪‬‪‬‪‬‮‬‫‬‮‬‪‬‪‬‪‬‪‬‪‬‮‬‪‬‭‬

  • A 由\u4e00到\u9fa5中一个或多个字符组成的字符串
  • B \u4e00或\u9fa5
  • C 一个在\u4e00到\u9fa5之间的字符
  • D 由\u4e00到\u9fa5字符组成的字符串

正确答案 C
同第二题

10. Beautiful Soup库与re库之间关系,描述正确的是:‪‬‪‬‪‬‪‬‪‬‮‬‫‬‪‬‪‬‪‬‪‬‪‬‪‬‮‬‪‬‫‬‪‬‪‬‪‬‪‬‪‬‮‬‫‬‪‬‪‬‪‬‪‬‪‬‪‬‮‬‪‬‮‬‪‬‪‬‪‬‪‬‪‬‮‬‫‬‮‬‪‬‪‬‪‬‪‬‪‬‮‬‪‬‭‬

  • A re库能实现HTML解析,功能上与Beautiful Soup库类似
  • B Beautiful Soup库中可以加载re库
  • C re库中可以加载Beautiful Soup库
  • D 这两个库没有关系

正确答案 D
两者没关系,re库以字符串模式匹配与检索方式提取信息,与Beautiful Soup库不同。