如何从Haskell中的文本块中提取关键字

2018-06-02 18:42:17

所以我知道这是一个很大的话题，但我需要接受大量的文本，并从中提取最有趣的关键字。文字来自电视字幕，所以主题可以从新闻到体育到流行文化参考。可以提供文本来自的显示类型。

我有一个想法，将文本与我知道有趣的术语字典进行匹配。

Haskell的哪些库可以帮助我？

假设我确实有一个有趣词汇的词典和一个数据库来存储它们，有没有一种特别的方法可以推荐在文本中匹配关键词？

有没有一种明显的方法我没有想到？

我会干掉这些块中的单词，然后在dict中只搜索两个随机库：

干http://hackage.haskell.org/packages/archive/stemmer/0.2/doc/html/NLP-Stemmer-C.html

搜索http://hackage.haskell.org/packages/archive/sphinx/0.2.1/doc/html/Text-Search-Sphinx.html

为了扩展bpgergo答案（但我没有任何haskell特定的信息），将文档输入到关系数据库并使用SOLR / lucene或sphinx索引它们非常简单，其中任何一个都应该在其默认/建议配置。然后，您可以搜索哪些文档具有“有趣词汇”列表中的配对，三元组等等，

您可能会看到命名实体识别，统计学上不同寻常的短语检测，自动标记生成，类似的主题。 Lingpipe是一个很好的起点，这些书也是：

http://alias-i.com/lingpipe/demos/tutorial/read-me.html

http://www.manning.com/marmanis/excerpt_contents.html

http://www.manning.com/alag/excerpt_contents.html

链接地址: http://www.djcxy.com/p/9909.html