Python爬虫课--第一节
1 通讯协议
1.1 端⼝
我们想要进⾏数据通讯分⼏步?
- 1 找到对⽅ip
- 2 数据要发送到对⽅指定的应⽤程序上。为了标识这些应⽤程序,所以给这些⽹络应⽤程序都⽤数字进⾏了标识。为了⽅便称呼这个数字,叫做 端⼝。这⾥的端⼝ 我们⼀般都叫做 ‘逻辑端⼝’
- 3 定义通讯规则。这个通讯规则我们⼀般称之为协议
1.2 通讯协议
- 国际组织定义了通⽤的通信协议 TCP/IP协议
- 所谓协议就是指计算机通信⽹络中两台计算机之间进⾏通信所必须共同遵守
的规定或规则 - HTTP⼜叫做超⽂本传输协议(是⼀种通信协议) HTTP 它的端⼝是 80
2 ⽹络模型
后期更新了新的参考模型 TCP/IP参考模型
2.1 HTTPS是什么呢?
- https=http+ssl,顾名思义,https是在http的基础上加上了SSL保护壳,信息的加密过程就是在SSL中完成的
- https,是以安全为⽬标的HTTP通道,简单讲是HTTP的安全版。即HTTP下加⼊SSL层,HTTPS的安全基础是SSL
2.2 SSL怎么理解?
- SSL也是⼀个协议主要⽤于web的安全传输协议
3 爬⾍介绍
3.1 什么是爬⾍?
简单⼀句话就是代替⼈去模拟浏览器进⾏⽹⻚操作
3.2 为什么需要爬⾍?
为其他程序提供数据源 如搜索引擎(百度、Google等)、数据分析、⼤数据等
3.3 企业获取数据的⽅式?
1.公司⾃有的数据
2.第三⽅平台购买的数据 (百度指数、数据堂)
3.爬⾍爬取的数据