Bigram分析和术语文档矩阵

我正在对我的文本语料库进行bigram分析。我的特征向量是一组预定义的bigram和unigram令牌。Bigram分析和术语文档矩阵

特征向量 =（地理位置好，坏的经验，干净，友善，整洁，优良的，美丽的地方）

我的文字：位置好，但不友好的工作人员。

清理文字：位置好不友好的工作人员。

我使用上面的字典和清理文本创建了一个tdf，但“位置好”的bigram没有给出“1”。但是，当我将清理后的文本更改为“位置不友好的员工”时。在双语分析中，单词的顺序很重要，为什么？或者我搞砸了代码？请澄清

“糟糕的经历”，“整洁”，“清洁”“好位置”，“优秀”，“美丽”，“地方”“不友好”

0 0 0 0 0 0 1 - 位置不错，但工作人员不友好。

0 0 0 1 0 0 1 - 地理位置好，但工作人员不友好。

2017-04-17 Vinds

它应该依赖于你使用的是什么模型，但通常，这些单词的顺序很重要。 – Aramis7d

谢谢阿拉米斯..我用朴素的贝叶斯bernoulli文件模型 – Vinds

就我的经验而言，n-gram中的单词顺序至关重要。你不会想把“普京袭击”的n-gram和“攻击普京”的n-grams看成是一样的，因为它们有着非常不同的语境意义。

所以，不，你没有搞乱代码。你可能想对n-gram模型做更多的研究。一个好的开始可能与Chapter 4 in Speech and Language Processing by Jurafsky and Martin

2017-04-17 05:38:59 Grr

是的，我们正确的Grr，感谢您的澄清 – Vinds

回答