2017-02-13 98 views
0

我想将社交媒体帖子(短文本)与电影/电视节目的数据库进行匹配。该数据库包含电影或电视节目名称,角色和演员的信息。如果在输入文本中找到了足够的证据,那么我希望该算法将文本分类为它所属的电影,或者如果没有足够的证据,则不做任何事情。无机器学习的文本分类

我熟悉机器学习方法,但那些需要训练样本和有限数量的类别。我的算法应该能够使用上下文,并且可以扩展新内容。例如,我不希望机器学会识别“哈利波特”电影,但当它被发布时,却无法识别“神奇的野兽以及在哪里可以找到它们”。

我知道解决方案是部分字符串匹配,但我想指出正确的方向来处理这些问题的一些通用指南。我也对识别拼写错误的单词感兴趣,并将更多的权重分配给某些匹配项,而对其他匹配项更少。

另外,作为一个方面说明,应该通过SQLite或在外面进行字符串匹配吗?我对这个案子的猜测是在外面,但我只想确定一下。

非常感谢您的帮助!

+0

你也许可以使用IBM AlchemyLanguage API高效的模糊逻辑的实现。它可以采取文字和突破概念。例如,“罗伯特德尼罗”,热火,阿尔帕西诺和迈克尔曼,“热火罗伯特德尼罗”。 4个关键组件来识别电影,并链接到它从中拉出的数据库。 – Chris

+0

谢谢你的建议,我从来没有想过我会与沃森合作。我马上检查一下。 – humma4

回答

0

你在找什么是基于模糊规则的信息检索系统。这将需要一些手工制定的规则和模糊匹配(通常使用Lucene)来匹配针对实体/文档的知识库的查询。

一个示例,请参见本文:

基于信息检索系统 https://arxiv.org/pdf/1503.03957.pdf