Java爬虫框架WebMagic学习

一、认识WebMagic

1.总体架构

1.1.四大组件
1.2.数据流转的对象

二、WebMagic爬虫项目简单Demo

1.网页分析
2.代码实现

2.1.添加依赖
2.2.实现PageProcessor
2.3.编写ConsolePipeline
2.4.爬虫的配置、启动和终止
2.5.运行结果

三、总结

一、认识WebMagic

简介：一款简单灵活的爬虫框架
官方中文文档: http://webmagic.io/docs/zh

1.总体架构

WebMagic的结构分为Downloader、PageProcessor、Scheduler、Pipeline四大组件。
Java爬虫框架WebMagic学习

1.1.四大组件

Downloader：负责从互联网上下载页面，以便后续处理。
PageProcessor：负责解析页面，抽取有用信息，以及发现新的链接。对于每个站点每个页面都不一样，是需要使用者定制的部分。
Scheduler：负责管理待抓取的URL，以及一些去重的工作。WebMagic默认提供了JDK的内存队列来管理URL，并用集合来进行去重。也支持使用Redis进行分布式管理。
Pipeline：负责抽取结果的处理，包括计算、持久化到文件、数据库等。WebMagic默认提供了“输出到控制台”和“保存到文件”两种结果处理方案。

1.2.数据流转的对象

Page：从Downloader下载到的一个页面——可能是HTML，也可能是JSON或者其他文本格式的内容。
ResultItems：相当于一个Map，它保存PageProcessor处理的结果，供Pipeline使用。它的API与Map很类似，值得注意的是它有一个字段skip，若设置为true，则不应被Pipeline处理。

二、WebMagic爬虫项目简单Demo

介绍：以爬取起点中文网为例[https://www.qidian.com/all]

1.网页分析

1).具体某一个作品的链接 Java爬虫框架WebMagic学习
2.具体某一个作品的详情，书名，作者和章节等等

2.代码实现

2.1.添加依赖

注：由于我的代码中有打印日志，故排除了WebMagic包自带的slf4j-log4j12日志包。

 <!--导入WebMagic相关依赖-->
       <dependency>
           <groupId>us.codecraft</groupId>
           <artifactId>webmagic-core</artifactId>
           <version>0.7.2</version>
           <exclusions>
               <exclusion>
                   <artifactId>slf4j-log4j12</artifactId>
                   <groupId>org.slf4j</groupId>
               </exclusion>
           </exclusions>
       </dependency>
       <dependency>
           <groupId>us.codecraft</groupId>
           <artifactId>webmagic-extension</artifactId>
           <version>0.7.2</version>
       </dependency>

2.2.实现PageProcessor

PageProcessor的定制分为三个部分，分别是爬虫的配置、页面元素的抽取和链接的发现。
site：抓取网站的相关配置，包括编码、抓取间隔、重试次数等；
process：定制爬虫逻辑的核心接口，在这里编写抽取逻辑；根据正则表达式和XPath¹语法抽取页面元素，以及深度挖掘url加入队列进行再次爬取。

package com.novelread.webmagic.processor;

import com.novelread.webmagic.pipeline.ConsolePipeline;
import org.slf4j.Logger;
import org.slf4j.LoggerFactory;
import us.codecraft.webmagic.Page;
import us.codecraft.webmagic.Site;
import us.codecraft.webmagic.Spider;
import us.codecraft.webmagic.pipeline.JsonFilePipeline;
import us.codecraft.webmagic.processor.PageProcessor;
import us.codecraft.webmagic.selector.Selectable;

/**
 * @author Administrator
 * @since 2018/11/28 14:20
 */
public class NovelRepoPageProcessor implements PageProcessor {

    final static Logger logger = LoggerFactory.getLogger(NovelRepoPageProcessor.class);

    /**
     * 主域名
     */
    public static final String BASE_URL = "http://www.qidian.com/";

    /**
     * 正则表达式\\. \\转义java中的\ \.转义正则中的.
     * 匹配作品URL 如：https://book.qidian.com/info/1010468795#Catalog
     * //book.qidian.com/info/1004608738
     */
    public static final String NOVEL_URL = "//book\\.qidian\\.com/info/\\d+";

    /**
     * 初始地址, 起点地址：中文网所有作品
     */
    public static final String START_URL = "https://www.qidian.com/all";

    /***
     * 部分一：抓取网站的相关配置，包括编码、抓取间隔、重试次数等
     */
    private Site site = Site.me().setRetryTimes(3).setSleepTime(1000)
            .addHeader("Accept-Encoding", "/")
            .setUserAgent("Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/54.0.2840.59 Safari/537.36");

    /**
     *  process 是定制爬虫的逻辑的核心接口，在这里编写抽取逻辑
     *
     * @param page
     */
    @Override
    public void process(Page page) {
        // 部分二：定义如何抽取页面信息，并保存下来

        // 根据url判断页面类型
        if (page.getUrl().regex(START_URL).match()) {
            logger.info("作品总数XPath------>" + page.getHtml().xpath("//div[@id='sort-count']/div/span/text()").toString());

            // 爬取作品url加入队列
            Selectable links = page.getHtml().xpath("//div[@class=\"book-img-box\"]").links().regex(NOVEL_URL);
            page.addTargetRequests(page.getHtml().xpath("//div[@class=\"book-img-box\"]").links().regex(NOVEL_URL).all());

        } else {
            page.putField("name", page.getHtml().xpath("//div[@class=\"book-info\"]/h1/em/text()").toString());
            page.putField("author", page.getHtml().xpath("//div[@class=\"book-info\"]/h1/span/a/text()").toString());

        }
    }

    @Override
    public Site getSite() {
        return site;
    }
}

2.3.编写ConsolePipeline

Pileline是抽取结束后，进行处理的部分，它主要用于抽取结果的保存，也可以定制Pileline可以实现一些通用的功能。

package com.novelread.webmagic.pipeline;

import us.codecraft.webmagic.ResultItems;
import us.codecraft.webmagic.Task;
import us.codecraft.webmagic.pipeline.Pipeline;

import java.util.Map;

/**
* @author Administrator
* @since 2018/11/28 15:21
*/
public class ConsolePipeline implements Pipeline {

   /**
    * 将结果保存到控制台
    * @param resultItems
    * @param task
    */
   @Override
   public void process(ResultItems resultItems, Task task) {
       System.out.println("get page: " + resultItems.getRequest().getUrl());
       // 遍历所有结果，输出到控制台
       for (Map.Entry<String, Object> entry : resultItems.getAll().entrySet()) {
           System.out.println("爬取结果" + entry.getKey() + " :\t " + entry.getValue());
       }
   }
}

2.4.爬虫的配置、启动和终止

Spider:是爬虫启动的入口,使用一个PageProcessor创建一个Spider对象，然后使用run()进行启动。同时Spider的其他组件（Downloader、Scheduler、Pipeline）都可以通过set方法来进行设置。

/**
   * 使用Pipeline保存结果
   */
  public static void main(String[] args) {
      Spider.create(new NovelRepoPageProcessor())
              //从"https://www.qidian.com/all"开始抓
              .addUrl("https://www.qidian.com/all")
//                .addPipeline(new JsonFilePipeline("D:\\webmagic\\"))
              .addPipeline(new ConsolePipeline())
              //开启5个线程抓取
              .thread(5)
              //启动爬虫
              .run();
  }

2.5.运行结果

Java爬虫框架WebMagic学习

三、总结

本文只是根据文档写的一个简单的Demo实现简单爬虫，要想真正爬取自己想要的内容，还有一段很长的落要走。例如：对页面更详细分析，抽取内容；以及增量式抓取内容等等。
更多的参考：
1.https://blog.****.net/weixin_39650971/article/details/79570038
2.https://blog.****.net/jibaole/article/details/52212886

http://www.w3school.com.cn/xpath/xpath_syntax.asp ↩︎

Java爬虫框架WebMagic学习

Java爬虫框架WebMagic学习

一、认识WebMagic

1.总体架构

1.1.四大组件

1.2.数据流转的对象

二、WebMagic爬虫项目简单Demo

1.网页分析

2.代码实现

2.1.添加依赖

2.2.实现PageProcessor

2.3.编写ConsolePipeline

2.4.爬虫的配置、启动和终止

2.5.运行结果

三、总结

相关推荐