2017-04-17 99 views
0

我正在对我的文本语料库进行bigram分析。我的特征向量是一组预定义的bigram和unigram令牌。Bigram分析和术语文档矩阵

特征向量 =(地理位置好,坏的经验,干净,友善,整洁,优良的,美丽的地方)

我的文字:位置好,但不友好的工作人员。

清理文字:位置好不友好的工作人员。

我使用上面的字典和清理文本创建了一个tdf,但“位置好”的bigram没有给出“1”。 但是,当我将清理后的文本更改为“位置不友好的员工”时。 在双语分析中,单词的顺序很重要,为什么?或者我搞砸了代码?请澄清

“糟糕的经历”,“整洁”,“清洁”“好位置”,“优秀”,“美丽”,“地方”“不友好”

0 0 0 0 0 0 1 - 位置不错,但工作人员不友好。

0 0 0 1 0 0 1 - 地理位置好,但工作人员不友好。

+0

它应该依赖于你使用的是什么模型,但通常,这些单词的顺序很重要。 – Aramis7d

+0

谢谢阿拉米斯..我用朴素的贝叶斯bernoulli文件模型 – Vinds

回答

0

就我的经验而言,n-gram中的单词顺序至关重要。你不会想把“普京袭击”的n-gram和“攻击普京”的n-grams看成是一样的,因为它们有着非常不同的语境意义。

所以,不,你没有搞乱代码。你可能想对n-gram模型做更多的研究。一个好的开始可能与Chapter 4 in Speech and Language Processing by Jurafsky and Martin

+0

是的,我们正确的Grr,感谢您的澄清 – Vinds