Python网络爬虫与信息提取

总体方法

Python网络爬虫与信息提取
首先利用Requests库获得网页信息,然后通过Beautiful Soup库解析其中的内容,并且对局部内容中的关键信息用正则表达式提取出来。通过这些第三方库就可以实现对网页信息的爬取能力。

常用的Python IDE工具

文本工具类:

  • IDLE:Python自带常用的、默认的入门级IDE,适用于Python入门、功能简单直接、代码不超过300行。
  • Sublime Text:专门为程序员开发的第三方专用编程工具、专业编程体验、多种编程风格。

集成工具类:

  • Wing:调试功能丰富,版本控制与版本同步,但是由于公司维护需要收费。适合多人开发。
  • Visual Studio & PTVS:微软公司维护,Win环境为主,调试功能丰富。
  • PyCharm:社区版免费,简单集成度高,适合较复杂工程。

科学计算与数据分析:

  • Canopy:公司维护,工具收费,支持近500个第三方库,适合科学计算领域应用开发。
  • Anaconda:开源免费,支持800个第三方库。