2014-09-25 146 views

回答

1

我不是数据专家,但我有一些数据挖掘经验。我会尝试按以下步骤进行初学者:

  1. Excel对于这样的分析不是一件好事。寻找一些专用于数据挖掘的工具RStudio。 R有许多用于数据挖掘的有用的现成算法。

  2. 清理数据,例如将所有文本转换为小写,删除停用词,删除标点符号,删除其他空格。

  3. 令牌数据例如1个词语标记 - “财务”,“学士”

  4. 决定如何确定某个配置文件是否处于需求状态?如果按照配置文件,则表示您需要更频繁地出现在数据中的特定令牌的频率信息,然后其他人“金融”,“学士”等,然后简单地创建一个频率矩阵。 R可以让你创建一个可视化 - 词云。

这是让你开始:)。我相信在这个问题上还有很多需要提出的建议。

+0

谢谢你的回复汤姆。 – Saurabh 2014-09-25 11:23:56