Connection refused Scrapy的Meta、异常处理 - 友儿屋

Scrapy的Meta、异常处理

Author：友儿
发布时间：September 21, 2022
1909 views
No comments
2443 words
Categories： Python

Meta

信息传递
- 在创建REQEUSTS对象时设置meta
```
yield scrapy.FormRequest(meta={"keyword": keyword, "sta_date": sta_date})
```
- 在REQUESTS对象流转中修改meta
  - download_slot
  - download_latency
- 在RESPONSE对象中获取meta
```
#等同于response.request.meta
response.meta
```
自定义单个请求的配置
```
https://docs.scrapy.org/en/latest/topics/request-response.html?highlight=meta#topics-request-meta
```
- dont_redirect
  如果设置为True, 当前请求则不会重定向.
- dont_retry
  如果设置为True, 当前请求则不会重试.
- max_retry_times
  设置最大重试次数.
- dont_merge_cookies 和 cookiejar
  操作cookie的meta参数, 但是不建议这么使用, 一般来说我们直接设置
```
request.headers["cookie"] = "......."
```
- proxy
  设置请求代理
```
request.meta['proxy'] = '127.0.0.1:8989'
```
- 设置优先级
  如果你设置了优先级队列, 那么可以只是priority参数决定请求的顺序
```
# 数字越小, 优先级越高
request.meta['priority'] = 10
```

异常处理

异常处理时scrapy最大的痛点, 因为你一定要熟悉事件的流向.

Spiders组件
在异常处理中, Spider组件其实是处理RESPONSE对象或者请求之后产生的异常, 一般作为一次请求异常处理的终点, 也就是指定的回调函数errorback.
- errorback
  处理不可控的异常
```
    def start_request(self):
        yield scrapy.FormRequest(errorback=self.process_error)
    
    def process_error(self, failure):
        print(failure)
        # 记录异常
        # 发送通知
        # 重做任务
        ...
```
  - failure.request
    当前异常请求对象
  - failure.value
    当前的异常对象
- CloseSpider
  遇到像cookie过期, 账号警告, 代理池空了这样严重的错, 需要关闭实例, 可抛出CloseSpider异常, 该异常最终会流向ENGINE后关闭爬虫实例.
```
from scrapy.exceptions import CloseSpider
```

中间件

处理可控的异常

def process_exception(self, request, exception, spider):
    pass

返回None
由下一层中间件继续处理, 如果你指定了errback, 最终会到达errback
返回REPONSE对象
中断异常链, 返回的RESPONSE对象会到达Spiders组件

返回Request

中断异常链, 返回的Request对象将到达ENGINE由SCHEDULER重新调度.

    def process_exception(self, request, exception, spider):
        # 如果异常是cookie池空了, 可以在这里完成cookie池的补充
        # 补充cookie池
        if isinstance(exception, IndexError):
            # 我已经知道异常产生原因, 所以免除当前重试次数的计数
            retry_times = request.meta.get('retry_times', 1)
            request.meta['retry_times'] = retry_times - 1
            return request

Last modification：September 21, 2022

© Allow specification reprint

如果觉得我的文章对你有用，请随意赞赏

Comment here is closed

Scrapy的Meta、异常处理

友儿 • 2022 年 09 月 21 日

<h2>Meta</h2><ul><li><p>信息传递</p><ul><li><p>在创建<code>REQEUSTS</code>对象时设置meta</p><pre><code>yield scrapy.FormRequest(meta={&quot;keyword&quot;: keyword, &quot;sta_date&quot;: sta_date})</code></pre></li><li><p>在<code>REQUESTS</code>对象流转中修改meta</p><ul><li>download_slot</li><li>download_latency</li></ul></li><li><p>在<code>RESPONSE</code>对象中获取meta</p><pre><code>#等同于response.request.meta
response.meta</code></pre></li></ul></li><li><p>自定义单个请求的配置</p><pre><code>https://docs.scrapy.org/en/latest/topics/request-response.html?highlight=meta#topics-request-meta</code></pre><ul><li><p><code>dont_redirect</code></p><p>如果设置为<code>True</code>, 当前请求则不会重定向.</p></li><li><p><code>dont_retry</code></p><p>如果设置为<code>True</code>, 当前请求则不会重试.</p></li><li><p><code>max_retry_times</code></p><p>设置最大重试次数.</p></li><li><p><code>dont_merge_cookies</code> 和 <code>cookiejar</code></p><p>操作cookie的meta参数, 但是不建议这么使用, 一般来说我们直接设置</p><pre><code>request.headers[&quot;cookie&quot;] = &quot;.......&quot;</code></pre></li><li><p><code>proxy</code></p><p>设置请求代理</p><pre><code>request.meta['proxy'] = '127.0.0.1:8989'</code></pre></li><li><p>设置优先级</p><p>如果你设置了优先级队列, 那么可以只是<code>priority</code>参数决定请求的顺序</p><pre><code># 数字越小, 优先级越高
request.meta['priority'] = 10</code></pre></li></ul></li></ul><h2>异常处理</h2><blockquote>异常处理时scrapy最大的痛点, 因为你一定要熟悉事件的流向.</blockquote><ul><li><p>Spiders组件</p><p>在异常处理中, Spider组件其实是处理<code>RESPONSE</code>对象或者请求之后产生的异常, <strong>一般</strong>作为一次请求异常处理的终点, 也就是指定的回调函数<code>errorback</code>.</p><ul><li><p>errorback</p><p>处理不可控的异常</p><pre><code>    def start_request(self):
        yield scrapy.FormRequest(errorback=self.process_error)
    
    def process_error(self, failure):
        print(failure)
        # 记录异常
        # 发送通知
        # 重做任务
        ...</code></pre><ul><li><p>failure.request</p><p>当前异常请求对象</p></li><li><p>failure.value</p><p>当前的异常对象</p></li></ul></li><li><p>CloseSpider</p><p>遇到像cookie过期, 账号警告, 代理池空了这样严重的错, 需要关闭实例, 可抛出CloseSpider异常, 该异常最终会流向<code>ENGINE</code>后关闭爬虫实例.</p><pre><code>from scrapy.exceptions import CloseSpider</code></pre></li></ul></li><li><p>中间件</p><p>处理可控的异常</p><pre><code>def process_exception(self, request, exception, spider):
    pass</code></pre><ul><li><p>返回None</p><p>由下一层中间件继续处理, 如果你指定了<code>errback</code>, 最终会到达<code>errback</code></p></li><li><p>返回<code>REPONSE</code>对象</p><p>中断异常链, 返回的<code>RESPONSE</code>对象会到达<code>Spiders</code>组件</p></li><li><p>返回<code>Request</code></p><p>中断异常链, 返回的<code>Request</code>对象将到达<code>ENGINE</code>由<code>SCHEDULER</code>重新调度.</p><pre><code>    def process_exception(self, request, exception, spider):
        # 如果异常是cookie池空了, 可以在这里完成cookie池的补充
        # 补充cookie池
        if isinstance(exception, IndexError):
            # 我已经知道异常产生原因, 所以免除当前重试次数的计数
            retry_times = request.meta.get('retry_times', 1)
            request.meta['retry_times'] = retry_times - 1
            return request</code></pre></li></ul></li></ul>