2

我正在研究我的机器学习模型和我拥有的数据的功能。我的数据包含很多文本数据,所以我想知道如何从中提取有价值的功能。相反,我以前的信仰,这往往是由表示与袋的字,或像word2vec:(http://scikit-learn.org/stable/modules/feature_extraction.html#text-feature-extraction使用文本情感作为机器学习模型中的功能?

因为我对这个问题的理解是有限的,我不明白为什么我不能对文本进行分析首先要获取数值。 (例如:textBlob.sentiment = https://textblob.readthedocs.io/en/dev/,谷歌云自然语言= https://cloud.google.com/natural-language/

是否有这个问题,我也可以使用这些值作为拥有我的机器学习模型?

在此先感谢您的帮助!

回答

0

当然,您可以将文本输入单数转换为情感分析,然后将此数字用作机器学习模型中的一个功能。这种方法没有错。

问题是你想从文本数据中提取什么样的信息。因为情感分析将文本输入转换为-1到1之间的数字,数字表示文本的正面或负面。例如,您可能需要客户对餐厅的评论的情绪信息来衡量他们的满意度。在这种情况下,可以使用情感分析来预处理文本数据。

但是,情感分析只能给出一个关于正面或负面文本的概念。您可能想要对文本数据进行聚类,并且在这种情况下情感信息无用,因为它不提供有关文本相似性的任何信息。因此,其他方法(如word2vec或bag-of-words)将用于表示这些任务中的文本数据。因为这些算法提供了单个数字文本实例的矢量表示。

总之,这种方法取决于您需要从您的特定任务的数据中提取什么样的信息。

+0

感谢您的回复!这很有道理,谢谢。我正在根据youtube,twitter和facebook的用户数据制作预测电影票房成功的模型。我会说,情绪是一个有价值的功能。此外,对我而言,集群文本是否也适用? – Lourens

+0

不,您的问题不是聚类,而是回归或分类任务基于您如何衡量成功。我认为情绪分析可以解决你的问题。因为,如果用户评论对电影的肯定而不是票房真的很成功,反之亦然。 –