Apache Nutch：获取outlink URL的文本上下文

2018-06-27 22:19:18

任何人都知道提取包装outlink URL的文本上下文的有效方法。例如，给定包含outlink的示例文本：

Nutch可以在单台机器上运行，但是可以在Hadoop集群中运行，从而获得很多优势。你可以在这里下载Nutch。有关Apache Nutch的更多信息，请参阅Nutch wiki。

在这个例子中，我想得到包含链接的句子以及该句之前和之后的句子。任何方式有效地做到这一点？我可以调用任何方法来获取类似获取内容中链接位置的内容？甚至是我可以修改的nutch代码的一部分来做到这一点？谢谢！

你想要做的是网络刮擦。 Python和Hadoop为此提供了工具。要实现它，你可以使用选择器。

在这里你可以找到一些使用Python Scrapy的例子：

选择

Scrapy教程

在Hadoop上，最好的方法是使用选择器来实现抓取：

使用Hadoop进行Web爬网

在此处输入链接描述

HiveQL

级联可用于解决您指定的URL：

Hadoop和级联

获得数据后，您还可以使用R来优化分析：

R和Hadoop

在Hadoop上启用R.

如果你还没有对Hadoop做过什么，那么这里是一个很好的起点。您可能还想看看HUE Beeswax作为交互式工具，它对于数据分析非常有用。

链接地址: http://www.djcxy.com/p/78039.html