朴素贝叶斯，数据集选择（句子与字典）

2018-06-14 02:34:48

我试图用基于朴素贝叶斯的文本来分类情感。我有ISEAR数据集和NRC数据集。与NRC相比，我觉得ISEAR的结果较低。对于那些不了解ISEAR和NRC之间的区别的小解释，ISEAR是由句子组成的数据集，而NRC是词作为词典。当使用ISEAR输入手动句子时，结果与我的预期相去甚远。

我对机器学习有点新，所以如果我错了，请纠正我。

那么朴素的贝叶斯如何使用每个词的概率显示正确？例如，我有一个词“我很高兴”，它在“惊喜”功能上出现在“喜悦”功能上5次和6次。这是否会导致错误预测？比较单词作为字典，例如，快乐标记为喜悦和惊喜，并且仅在每个数据集中出现一次？

如果使用简单的朴素贝叶斯方法作为我的数据集使用单词作为字典，我还好吗？

链接地址: http://www.djcxy.com/p/40167.html