统计不可能的词组是如何工作的?亚马逊的统计不可能的短语是如何工作的?
据亚马逊:
Amazon.com的统计学上不可能的 短语,或“投资方案”,是在 图书搜索里面™程序文本中最鲜明的 短语! 为了识别SIP,我们的电脑扫描 查找所有书籍的文字 Inside!程序。如果他们发现一个短语 发生在 一个特定的书相对于所有 大量次 Search Inside!这本书中的短语是该书中的一个 SIP。
的SIP不是在特定图书内必然不可能 ,但他们 相对于 搜索中的所有书籍不可能的!例如,关于税收账簿的大多数SIP 都与税务相关。 但是因为我们显示的是他们的不可能性得分 的SIPs,所以 第一个SIP将在税收主题上,这本书 比 更经常提到的其他税收书籍。对于小说作品, SIP往往是与众不同的词 组合,通常暗示 重要的情节元素。
例如,对于乔尔的第一本书,在投资方案是:漏抽象,抗锯齿文字,自己的狗食,错误次数,每日构建,bug数据库,软件调度
一个有趣的并发症,这些都是2或3个词的短语。这使事情变得有趣一些,因为这些短语可以重叠或包含对方。
虽然这比它稍微复杂一些,因为词组的长度可以是2或3个单词,它们可以重叠或包含对方。 tf-idf通常只用一个词来描述。 – 2010-01-05 22:30:02
我不太确定这件事,特别是如果它限制在3或更少的短语。对于N个令牌的文本流,您有N-1个bigrams和N-1个trigrams。当然,两个bigram只会等于另一个bigram,对于trigram也是如此,因此您可以尽可能快地计算出bigrams和trigrams的IDF度量。 – danben 2010-01-05 22:36:45
@ʞɔıu:通常用单一术语来描述,但不需要这样应用。这就是为什么我在我的回答中提到'变化'的原因。但本的解释涵盖了它。 – 2010-01-05 22:46:36