Scrapy高CPU使用率

问题描述：

我有一个非常简单的测试蜘蛛，它不会解析。不过，我在start_requests方法中将大量网址（500k）传递给蜘蛛，并看到非常高（99/100％）的CPU使用率。这是预期的行为？如果是的话我怎么能优化这个（也许配料和使用spider_idle？）Scrapy高CPU使用率

class TestSpider(Spider): 

    name = 'test_spider' 
    allowed_domains = 'mydomain.com' 

    def __init__(self, **kw): 
     super(Spider, self).__init__(**kw) 
     urls_list = kw.get('urls') 
     if urls_list: 
      self.urls_list = urls_list 

    def parse(self, response): 
     pass 

    def start_requests(self): 
     with open(self.urls_list, 'rb') as urls: 
      for url in urls: 
       yield Request(url, self.parse)

答

我认为这里的主要问题是，你刮太多的联系，尝试添加一个规则避免didnt刮链接包含你想要的。

Scrapy提供了真正有用的Docs，请查看它们！： http://doc.scrapy.org/en/latest/topics/spiders.html

Scrapy高CPU使用率

相关推荐