无机器学习的文本分类

我想将社交媒体帖子（短文本）与电影/电视节目的数据库进行匹配。该数据库包含电影或电视节目名称，角色和演员的信息。如果在输入文本中找到了足够的证据，那么我希望该算法将文本分类为它所属的电影，或者如果没有足够的证据，则不做任何事情。无机器学习的文本分类

我熟悉机器学习方法，但那些需要训练样本和有限数量的类别。我的算法应该能够使用上下文，并且可以扩展新内容。例如，我不希望机器学会识别“哈利波特”电影，但当它被发布时，却无法识别“神奇的野兽以及在哪里可以找到它们”。

我知道解决方案是部分字符串匹配，但我想指出正确的方向来处理这些问题的一些通用指南。我也对识别拼写错误的单词感兴趣，并将更多的权重分配给某些匹配项，而对其他匹配项更少。

另外，作为一个方面说明，应该通过SQLite或在外面进行字符串匹配吗？我对这个案子的猜测是在外面，但我只想确定一下。

非常感谢您的帮助！

2017-02-13 humma4

你也许可以使用IBM AlchemyLanguage API高效的模糊逻辑的实现。它可以采取文字和突破概念。例如，“罗伯特德尼罗”，热火，阿尔帕西诺和迈克尔曼，“热火罗伯特德尼罗”。 4个关键组件来识别电影，并链接到它从中拉出的数据库。 – Chris

谢谢你的建议，我从来没有想过我会与沃森合作。我马上检查一下。 – humma4

你在找什么是基于模糊规则的信息检索系统。这将需要一些手工制定的规则和模糊匹配（通常使用Lucene）来匹配针对实体/文档的知识库的查询。

一个示例，请参见本文：

2017-07-20 13:42:49 fjxx

回答