Apache Nutch:获取outlink URL的文本上下文

任何人都知道提取包装outlink URL的文本上下文的有效方法。 例如,给定包含outlink的示例文本:

Nutch可以在单台机器上运行,但是可以在Hadoop集群中运行,从而获得很多优势。 你可以在这里下载Nutch。 有关Apache Nutch的更多信息,请参阅Nutch wiki。

在这个例子中,我想得到包含链接的句子以及该句之前和之后的句子。 任何方式有效地做到这一点? 我可以调用任何方法来获取类似获取内容中链接位置的内容? 甚至是我可以修改的nutch代码的一部分来做到这一点? 谢谢!


你想要做的是网络刮擦。 Python和Hadoop为此提供了工具。 要实现它,你可以使用选择器。

在这里你可以找到一些使用Python Scrapy的例子:

  • 选择
  • Scrapy教程
  • 在Hadoop上,最好的方法是使用选择器来实现抓取:

  • 使用Hadoop进行Web爬网
  • 在此处输入链接描述
  • HiveQL
  • 级联可用于解决您指定的URL:

  • Hadoop和级联
  • 获得数据后,您还可以使用R来优化分析:

  • R和Hadoop
  • 在Hadoop上启用R.
  • 如果你还没有对Hadoop做过什么,那么这里是一个很好的起点。 您可能还想看看HUE Beeswax作为交互式工具,它对于数据分析非常有用。

    链接地址: http://www.djcxy.com/p/78039.html

    上一篇: Apache Nutch: Get outlink URL's text context

    下一篇: Full text search on encrypted data