2016-08-01 53 views
0

我最近遇到了由word2vec创建的单词中的单词/字符</s>作为单独的单词。来自word2vec的txt文件中的未知单词/字符

虽然我确实试图在网络上搜索该字符,但我实际上无法在搜索引擎中指定该字符。

那么,有没有人知道这个角色是什么?

回答

1

如果你看的word2vecsource code线82,

if (ch == '\n') { 
    strcpy(word, (char *)"</s>"); 
    return; 
} 

</s>仅仅是由Mikolov等人使用的字符。以表示行结束(或更准确地说是\n)。 我不认为它有任何特殊的HTML /乳胶引用。它也不出现在ASCII chart上。

+0

它可能只是用来避免与正在训练'word2vec'的文本中的单词发生冲突。 – kampta

相关问题