我正在对我的文本语料库进行bigram分析。我的特征向量是一组预定义的bigram和unigram令牌。Bigram分析和术语文档矩阵
特征向量 =(地理位置好,坏的经验,干净,友善,整洁,优良的,美丽的地方)
我的文字:位置好,但不友好的工作人员。
清理文字:位置好不友好的工作人员。
我使用上面的字典和清理文本创建了一个tdf,但“位置好”的bigram没有给出“1”。 但是,当我将清理后的文本更改为“位置不友好的员工”时。 在双语分析中,单词的顺序很重要,为什么?或者我搞砸了代码?请澄清
“糟糕的经历”,“整洁”,“清洁”“好位置”,“优秀”,“美丽”,“地方”“不友好”
0 0 0 0 0 0 1 - 位置不错,但工作人员不友好。
0 0 0 1 0 0 1 - 地理位置好,但工作人员不友好。
它应该依赖于你使用的是什么模型,但通常,这些单词的顺序很重要。 – Aramis7d
谢谢阿拉米斯..我用朴素的贝叶斯bernoulli文件模型 – Vinds