2014-10-17 66 views
2

我正在为我的新PHP应用程序集成Solr通过Solr生成内容关键字

因为我是solr部分的新手,我想知道是否可以通过solr为每个内容页面生成一些有用的标签?像自动标记机制。

在此先感谢...

P.S两个波斯语和英语语言我的内容。

+0

您想执行自动[文档分类](http://en.wikipedia.org/wiki/Document_classification)。这里有一个相关的问题与答案在这里:http://stackoverflow.com/questions/9460593/how-to-classify-documents-indexed-with-lucene – cheffe 2014-10-17 14:38:31

回答

2

东西像自动标记机制。

是的,你可以建立类似的东西。

有两种不同的方式认识到:建立文档的团体和Solr的标签那些文档

  1. 使用Clustering Component from Solr。标签就像你正在寻找的标签。
  2. 使用MLT功能实现标记。

我用1.)方法开始了一个自动标记项目,并取得中等成功。为一组文档查找标签是一个艰难的过程。
但幸运的是,我已经有一些taggegd文档。如果您还有一些带有有效标签的文档,则可以使用方法2)将这些文档用作开始学习的基础:

获取没有标签的文档,并针对带有标签的文档执行MLT搜索。从您喜爱的文档中提取标签并对它们进行计数。取决于计数,将一个或多个标记应用于untaggegd文档。就我而言,这很好。方法2)是基于机器学习的一种实现方式,但只有5%的工作输入会获得95%的成功。

+0

我真的很感兴趣,看到在行动的第一种方式,你有没有关于这个功能的例子? – NullPointer 2014-10-21 12:47:27

+1

你可以在这里找到一个例子:http://search.carrot2.org/stable/search – 2014-10-23 13:20:19

+0

非常感谢,我试图启用集群到我的'solr'应用程序,但是集群系统并没有显示任何标签查询针对一个结果! – NullPointer 2014-10-24 20:58:24

1

由于这是一个PHP应用程序,是否确定为您生成的PHP代码中,然后插入/更新到Solr,这里有几个选项 -

  • 如果使用Web服务就OK了,检查Yahoo's Term Extractor
  • 如果你能/想举办一个术语提取服务自己(可以是本地服务器),检查FiveFilters
  • Here是从文本块中提取有价值的字PHP函数。当然不如Yahoo Term Extractor有效,但它可能适用于您。