-1

我想，以确定其所属网站的业务类别/ business_domain。分类网站业务领域

例如，超人的网站。该公司制作的电子邮件客户端由流行语功能& UI提供支持。

所以在网站的短类可以专业电邮服务。

因此，要完成这件事，我的一些缩写的心思都放在网站&公司的Facebook信息页面的About_us文本，应用LDA算法（Python模块）因为我们有这些都。但这种方法在许多情况下仍然不起作用。任何见解？

LDA细节：使用20000个通行证和1个话题，我对http://aakritiartgallery.com/网站结果是

[(0, u'0.050*art + 0.020*aakriti + 0.019*contemporary + 0.017*gallery + 0.015*new')]

我怎样才能缩小到我的生意与LDA给这些长期概率问题？

来源

2016-05-14 x0v

@ Anony-Mousse说得很好，这将有助于制定一个路线图，而不是固定在一个算法上。鉴于你的情况，这是我会做的。

预处理/特征提取

NMF，LSA，LDA大多在预处理用于提取特征的意思无监督技术。在NLP中，这通常对应于在大量文本中提取有意义的单词。通过使用这些技术，您将能够处理原始数据以获取有意义的功能。这些算法本身不提供预测，而且它们通常不足以创建一个好的模型。

培训

在你的情况，你需要结构化数据来训练你的模型，并作出预测。例如，你可以使用你的LDA的结果（你居然会使用这些关键字的索引）映射到业务领域（或标签）。

IE）（标签）IT：（功能）使用Java，Python，服务器（标签）动物园：（功能）的猴子，斑马，长颈鹿（标签）IT：（功能）NLP，机器学习

你收集了一些数据后（至少是（#features * #label）），你可以训练你的选择的监督模式。（登录注册，SVM，神经网络等）

测试

评估你的预测评分并实现算法。

话虽如此，这将是不容易的任务。你将不得不处理识别类别/子类别，提取有意义的功能，等于是我就放了很长的时间内对这个项目的其他手段。祝你好运！

来源

2016-05-15 12:18:21 jrhee17

这是非常好的，但我也能进行分类，如果假设有两家公司，一家只有关药物的给定的信息，另外还出售它们，所以它们之间的区别是艰难的，因为这两个国家都 – x0v

你可以认为LDA作为一个“关键词产生”完全相同的功能是粗糙的，所以我会用它来预测一个公司的一般领域。如果你想“医学信息”和“医药流通”来区分，你首先需要比关键字其他功能 - 即链接数，使用频率最高的词，等等。实际使用中，这将是很好不超过1000功能 - 否则你会开始需要担心速度/内存性能。 – jrhee17

试着收集大多数信息就可以了，并在必要时使用的功能，减少技术。此外，在生成数据之前，您需要创建单独的“标签”（“药品信息”，“药品分销”，“药品生产”...）。 – jrhee17

获取训练数据
训练分类
分类！

来源

2016-05-15 12:05:15

分类网站业务领域

回答

预处理/特征提取

培训

测试

相关问题