通过curl工具写的一个C语言版网页爬虫工具,主要在vim里方便使用!
这一篇,讲述了通过 curl工具进行网页内容爬取的工具,需要安装gcc,可以直接编译运行。
附源码:
讨论QQ群: 296538273
1. 前期准备工作
-
1.1 安装windows 版gcc。如下图所示:
https://chocolatey.org/packages/mingw
这里介绍一下 chocolatey 是windows上面的命令行软件安装工具,类似ubuntu的apt-get或者yum。1.2 编译源代码
安装好gcc之后,即可进行编译,直接make可以在源码根;目录生成spider.exe的可执行程序,或者直接使用我编译好的可执行程序,如下图所示:1.3 工具的使用:
直接在cmd种运行 spider.exe可以查看帮助,不过建议直接使用即可命令参数:
spider.exe https://www..com/* 如下图所示:最终会在spider.exe 路径下生成一个文件夹,里面对爬到的图片等资源进行了重定向,有兴趣的同学可以修改源码自己设定更合理路径以及更好的爬取相关网站的内容。
附源码:源码