2017-04-18 247 views
0

我在网上搜索做双字格和单字符文字特征的提取,但是还是没有找到有用的信息,有人能告诉我它们有什么区别吗?bigram和unigram文字特征提取有什么区别

例如,如果我有一个文本“我有一条可爱的狗” 如果我使用二叉树方法进行特征提取并执行单元提取,会发生什么?

回答

1

我们试图教机器如何做自然语言处理。我们人类可以很容易地理解语言,但机器不能,所以我们试图教他们特定的语言模式。由于具体的词语具有意义,但是当我们将词语(即词组)组合在一起时,它比理解其含义更有帮助。

n-gram中基本上被设置的给定窗口内出现的单词,所以当

  • n = 1时它是单字组

  • n = 2时它是两字组

  • n = 3的它是卦等

现在假设机器试图了解句子“我有一只可爱的狗”的含义比它将句子分成特定的块。

  1. 它会逐字考虑单词,因此每个单词都是一个单词。

    “我”,“有”,“一”,“可爱”,“狗”

  2. 我将在同一时间,因此会因此biagram考虑两个单词每两个djacent话会biagram

    “我有”,“有”,“可爱”,“可爱的小狗”

所以喜欢这款机器将句子分成小的组词的理解它的意义

+0

哦,大!谢谢,现在我明白了! – user144600