一些有趣的Robots协议
已经许久不在****上活跃了,对markdown语法也生疏了许多,不管怎样,自己学习编程语言有了一些新的进展,近期可以考虑分享上来
C语言做了一个窗口式的《炉石战棋整活器》,原理其实简单易懂,就是利用win10的防火墙来实现的短暂断网,详情我们以后再说。
Python做了一个五子棋的记牌器,原理就是在某方棋子三连时发出提示,很简陋,但还蛮好玩的,具体我会专门发帖来描述。
回归正题,在被高数虐了好久,利用Python爬虫中的小知识来看看一些网站robots协议内容,
1.京东的Robots协议
网址:https://jd.com/robots.txt
内容:
可以看到京东主要禁止掉了一些【我查查】,【易淘】等比价类软件网站的爬虫。
2.百度的Robots协议
网址:
https://www.baidu.com/robots.txt
内容:
百度ban掉的就比较多,主要是一些google,sugou同类软件的爬虫
3.Nike的Robots协议【也是我见到的第一个有彩蛋的】
网址:https://www.nike.com/robots.txt
内容:
第一句,just crawl it来爬啊,可以说有点东西
也ban掉一些搜索引擎的爬虫
还放一个Nike的logo可以说秀的一匹
文章最后希望各位伙伴有什么网站的robots协议也很有趣,内含彩蛋,可以分享评论哦。