doc2vec

    1热度

    1回答

    我用MySentences类从目录中的所有文件中提取句子,并使用这个句子进行训练a word2vec模型。 我的数据集没有标签。 class MySentences(object): def __init__(self, dirname): self.dirname = dirname def __iter__(self): for fname in

    14热度

    1回答

    我正在使用Gensim Doc2Vec模型,尝试对客户支持对话的部分进行分组。我的目标是给支持团队一个自动回复的建议。 图1:示出了用户的问题是在下一会话行回答样本的谈话,使得容易提取数据:在对话期间 “你好”和“我们的办事处设在纽约”应建议 图2:描述了谈话,其中的问题和答案谈话“你好”和“我们的办事处设在纽约”应在不同步 被建议 图3:描述了一个会话,其中回答的上下文是随时间建立的,而为了分类

    4热度

    1回答

    在gensim 0.11.1版本中有没有办法从doc2Vec中获取看不见的文档向量? 例如,假设我训练上1000千模型 - 我能得到 DOC的载体为那些1000个文档? 有没有办法从相同的词汇中获取看不见文档的文档向量 ?

    3热度

    1回答

    我已经训练了约2300段(每个2000-12000字之间)的向量,每个向量大小为300.现在,我需要推断大约10万个句子的段落向量,我认为它们是段落(每个句子大约10 -30个单词对应于早期的2300段已经被训练过)。 所以,现在用 model.infer_vector(sentence) 但是,问题是,它花费的时间太长,它不带任何参数,如“workers”!有没有办法通过线程或其他方式加速进程?

    0热度

    2回答

    我准备好去我已经训练过的word2vec模型。我已经连载它作为一个CSV文件: word, v0, v1, ..., vN house, 0.1234, 0.4567, ..., 0.3461 car, 0.456, 0.677, ..., 0.3461 我想知道什么是我可以加载这个词向量模型gensim并用它来训练一个段落或doc2vec模型。 这Doc2Vec tutorial说我

    4热度

    1回答

    在gensim,当我给一个字符串作为培训doc2vec模型输入,我得到这个错误: 类型错误(“不\”知道如何处理URI%s'的再版%(URI)) 我提到这个问题Doc2vec : TaggedLineDocument() 但仍然有一个关于输入格式怀疑。 documents = TaggedLineDocument('myfile.txt') 如若MYFILE.TXT拥有令牌的名单列表或单独的列表中

    2热度

    1回答

    我想将genism doc2vec模型用于分类任务。 但是,似乎doc2vec的gensim实现需要在训练模型之前查看所有文档(训练和测试)以构建词汇表。否则,如果您想要获取构建词汇表时不存在的文档的文档向量,就会得到keyerror。我想知道我的理解是否正确!实际上,在培训时没有人获得测试数据。 有什么方法可以在测试时更新词汇表以便能够获取测试文档的文档表示?

    0热度

    1回答

    我想在doc2vec中使用短语,并使用gensim.phrases。在doc2vec中,我们需要标记文档来训练模型,并且我不能标记这些短语。我怎么能做到这一点? 这里是我的代码 text = phrases.Phrases(text) for i in range(len(text)): string1 = "SENT_" + str(i) sentence = doc2v