使用文本情感作为机器学习模型中的功能？

我正在研究我的机器学习模型和我拥有的数据的功能。我的数据包含很多文本数据，所以我想知道如何从中提取有价值的功能。相反，我以前的信仰，这往往是由表示与袋的字，或像word2vec：（http://scikit-learn.org/stable/modules/feature_extraction.html#text-feature-extraction）使用文本情感作为机器学习模型中的功能？

因为我对这个问题的理解是有限的，我不明白为什么我不能对文本进行分析首先要获取数值。（例如：textBlob.sentiment = https://textblob.readthedocs.io/en/dev/，谷歌云自然语言= https://cloud.google.com/natural-language/）

是否有这个问题，我也可以使用这些值作为拥有我的机器学习模型？

在此先感谢您的帮助！

2017-09-16 Lourens

当然，您可以将文本输入单数转换为情感分析，然后将此数字用作机器学习模型中的一个功能。这种方法没有错。

问题是你想从文本数据中提取什么样的信息。因为情感分析将文本输入转换为-1到1之间的数字，数字表示文本的正面或负面。例如，您可能需要客户对餐厅的评论的情绪信息来衡量他们的满意度。在这种情况下，可以使用情感分析来预处理文本数据。

但是，情感分析只能给出一个关于正面或负面文本的概念。您可能想要对文本数据进行聚类，并且在这种情况下情感信息无用，因为它不提供有关文本相似性的任何信息。因此，其他方法（如word2vec或bag-of-words）将用于表示这些任务中的文本数据。因为这些算法提供了单个数字文本实例的矢量表示。

总之，这种方法取决于您需要从您的特定任务的数据中提取什么样的信息。

2017-09-16 11:38:48

感谢您的回复！这很有道理，谢谢。我正在根据youtube，twitter和facebook的用户数据制作预测电影票房成功的模型。我会说，情绪是一个有价值的功能。此外，对我而言，集群文本是否也适用？ – Lourens

不，您的问题不是聚类，而是回归或分类任务基于您如何衡量成功。我认为情绪分析可以解决你的问题。因为，如果用户评论对电影的肯定而不是票房真的很成功，反之亦然。 –

回答