0
我在网上搜索做双字格和单字符文字特征的提取,但是还是没有找到有用的信息,有人能告诉我它们有什么区别吗?bigram和unigram文字特征提取有什么区别
例如,如果我有一个文本“我有一条可爱的狗” 如果我使用二叉树方法进行特征提取并执行单元提取,会发生什么?
我在网上搜索做双字格和单字符文字特征的提取,但是还是没有找到有用的信息,有人能告诉我它们有什么区别吗?bigram和unigram文字特征提取有什么区别
例如,如果我有一个文本“我有一条可爱的狗” 如果我使用二叉树方法进行特征提取并执行单元提取,会发生什么?
我们试图教机器如何做自然语言处理。我们人类可以很容易地理解语言,但机器不能,所以我们试图教他们特定的语言模式。由于具体的词语具有意义,但是当我们将词语(即词组)组合在一起时,它比理解其含义更有帮助。
n-gram中基本上被设置的给定窗口内出现的单词,所以当
n = 1时它是单字组
n = 2时它是两字组
n = 3的它是卦等
现在假设机器试图了解句子“我有一只可爱的狗”的含义比它将句子分成特定的块。
它会逐字考虑单词,因此每个单词都是一个单词。
“我”,“有”,“一”,“可爱”,“狗”
我将在同一时间,因此会因此biagram考虑两个单词每两个djacent话会biagram
“我有”,“有”,“可爱”,“可爱的小狗”
所以喜欢这款机器将句子分成小的组词的理解它的意义
哦,大!谢谢,现在我明白了! – user144600