问题:如何提取任意(尤其是新闻、资讯类)网页的正文内容,提取与文章内容相关的图片,源码可见:extractor.py。

抓取单个网站网页内容时通常采用正则匹配的方式,但不同网站之间结构千奇百怪,很难用统一的正则表达式进行匹配。《基于行块分布函数的通用网页正文抽取算法》的作者总结了一般从网页中提取文章正文的方法,提出基于行块分布的正文抽取算法,并给出了 PHP 、Java 等实现。这一算法的主要原理基于两点:

  • 正文区密度:在去除HTML中所有tag之后,正文区字符密度更高,较少出现多行空白;
  • 行块长度:非正文区域的内容一般单独标签(行块)中较短。

阅读原文 »

5 收藏


直接登录

推荐关注