最近项目在做新闻爬虫,想实现这个功能:爬虫某个页面失败后,把这个页面的 url 发到笔者的邮箱。开发人员可以根据邮件里的 url 和堆栈信息,分析爬虫失败的原因。

  • 是不是服务器 down 了?
  • 还是爬虫的 Dom 解析没有解析到内容?
  • 还是正则表达式对于这个页面不适用?

阅读原文 »

4 1 收藏


直接登录

推荐关注