Apache Nutch:获取outlink URL的文本上下文
任何人都知道提取包装outlink URL的文本上下文的有效方法。 例如,给定包含outlink的示例文本:
Nutch可以在单台机器上运行,但是可以在Hadoop集群中运行,从而获得很多优势。 你可以在这里下载Nutch。 有关Apache Nutch的更多信息,请参阅Nutch wiki。
在这个例子中,我想得到包含链接的句子以及该句之前和之后的句子。 任何方式有效地做到这一点? 我可以调用任何方法来获取类似获取内容中链接位置的内容? 甚至是我可以修改的nutch代码的一部分来做到这一点? 谢谢!
你想要做的是网络刮擦。 Python和Hadoop为此提供了工具。 要实现它,你可以使用选择器。
在这里你可以找到一些使用Python Scrapy的例子:
在Hadoop上,最好的方法是使用选择器来实现抓取:
级联可用于解决您指定的URL:
获得数据后,您还可以使用R来优化分析:
如果你还没有对Hadoop做过什么,那么这里是一个很好的起点。 您可能还想看看HUE Beeswax作为交互式工具,它对于数据分析非常有用。
链接地址: http://www.djcxy.com/p/78039.html