2016-05-14 113 views
-1

我想,以确定其所属网站的业务类别/ business_domain。分类网站业务领域

例如,超人的网站。该公司制作的电子邮件客户端由流行语功能& UI提供支持。

所以在网站的短类可以专业电邮服务

因此,要完成这件事,我的一些缩写的心思都放在网站&公司的Facebook信息页面的About_us文本,应用LDA算法(Python模块)因为我们有这些都。但这种方法在许多情况下仍然不起作用。任何见解?

LDA细节:使用20000个通行证和1个话题 ,我对http://aakritiartgallery.com/网站结果是

[(0, u'0.050*art + 0.020*aakriti + 0.019*contemporary + 0.017*gallery + 0.015*new')] 

我怎样才能缩小到我的生意与LDA给这些长期概率问题?

回答

1

@ Anony-Mousse说得很好,这将有助于制定一个路线图,而不是固定在一个算法上。鉴于你的情况,这是我会做的。

预处理/特征提取

NMF,LSA,LDA大多在预处理用于提取特征的意思无监督技术。在NLP中,这通常对应于在大量文本中提取有意义的单词。通过使用这些技术,您将能够处理原始数据以获取有意义的功能。这些算法本身不提供预测,而且它们通常不足以创建一个好的模型。

培训

在你的情况,你需要结构化数据来训练你的模型,并作出预测。例如,你可以使用你的LDA的结果(你居然会使用这些关键字的索引)映射到业务领域(或标签)。

IE) (标签)IT:(功能)使用Java,Python,服务器 (标签)动物园:(功能)的猴子,斑马,长颈鹿 (标签)IT:(功能)NLP,机器学习

你收集了一些数据后(至少是(#features * #label)),你可以训练你的选择的监督模式。 (登录注册,SVM,神经网络等)

测试

评估你的预测评分并实现算法。

话虽如此,这将是不容易的任务。你将不得不处理识别类别/子类别,提取有意义的功能,等于是我就放了很长的时间内对这个项目的其他手段。祝你好运!

+0

这是非常好的,但我也能进行分类,如果假设有两家公司,一家只有关药物的给定的信息,另外还出售它们,所以它们之间的区别是艰难的,因为这两个国家都 – x0v

+0

你可以认为LDA作为一个“关键词产生”完全相同的功能是粗糙的,所以我会用它来预测一个公司的一般领域。如果你想“医学信息”和“医药流通”来区分,你首先需要比关键字其他功能 - 即链接数,使用频率最高的词,等等。实际使用中,这将是很好不超过1000功能 - 否则你会开始需要担心速度/内存性能。 – jrhee17

+0

试着收集大多数信息就可以了,并在必要时使用的功能,减少技术。此外,在生成数据之前,您需要创建单独的“标签”(“药品信息”,“药品分销”,“药品生产”...)。 – jrhee17

0
  1. 获取训练数据
  2. 训练分类
  3. 分类!