我想,以确定其所属网站的业务类别/ business_domain。分类网站业务领域
例如,超人的网站。该公司制作的电子邮件客户端由流行语功能& UI提供支持。
所以在网站的短类可以专业电邮服务。
因此,要完成这件事,我的一些缩写的心思都放在网站&公司的Facebook信息页面的About_us文本,应用LDA算法(Python模块)因为我们有这些都。但这种方法在许多情况下仍然不起作用。任何见解?
LDA细节:使用20000个通行证和1个话题 ,我对http://aakritiartgallery.com/网站结果是
[(0, u'0.050*art + 0.020*aakriti + 0.019*contemporary + 0.017*gallery + 0.015*new')]
我怎样才能缩小到我的生意与LDA给这些长期概率问题?
这是非常好的,但我也能进行分类,如果假设有两家公司,一家只有关药物的给定的信息,另外还出售它们,所以它们之间的区别是艰难的,因为这两个国家都 – x0v
你可以认为LDA作为一个“关键词产生”完全相同的功能是粗糙的,所以我会用它来预测一个公司的一般领域。如果你想“医学信息”和“医药流通”来区分,你首先需要比关键字其他功能 - 即链接数,使用频率最高的词,等等。实际使用中,这将是很好不超过1000功能 - 否则你会开始需要担心速度/内存性能。 – jrhee17
试着收集大多数信息就可以了,并在必要时使用的功能,减少技术。此外,在生成数据之前,您需要创建单独的“标签”(“药品信息”,“药品分销”,“药品生产”...)。 – jrhee17