Solr的搜索主题标签或提到

我们使用Solr的3.5版进行搜索，虽然微博，我使用WordDelimiterFactory以下设置的，是能够搜索@username或#hashtags：Solr的搜索主题标签或提到

<filter class="solr.WordDelimiterFilterFactory" generateWordParts="1" generateNumberParts="1" catenateWords="1" catenateNumbers="1" catenateAll="0" splitOnCaseChange="0" splitOnNumerics="0" preserveOriginal="1" handleAsChar="@#"/>

我看到以下补丁，但这似乎并没有如我所料，我错过了什么？

https://issues.apache.org/jira/browse/SOLR-2059

但搜索@username也返回只是用户名或#hashtag只是返回结果为hastag结果。我怎样才能做到这一点？

整场类型：

<fieldType name="textnostem" class="solr.TextField" positionIncrementGap="100" autoGeneratePhraseQueries="true"> 
    <analyzer type="index"> 
    <charFilter class="solr.HTMLStripCharFilterFactory"/> 
    <tokenizer class="solr.WhitespaceTokenizerFactory"/> 
    <filter class="solr.StopFilterFactory" 
      ignoreCase="true" 
      words="stopwords.txt" 
      enablePositionIncrements="true" 
      /> 
    <filter class="solr.WordDelimiterFilterFactory" 
      generateWordParts="1" 
      generateNumberParts="1" 
      catenateWords="1" 
      catenateNumbers="1" 
      catenateAll="0" 
      splitOnCaseChange="0" 
      splitOnNumerics="0" 
      preserveOriginal="1" 
      /> 
    <filter class="solr.LowerCaseFilterFactory"/> 
    </analyzer> 
    <analyzer type="query"> 
    <tokenizer class="solr.WhitespaceTokenizerFactory"/> 
    <filter class="solr.StopFilterFactory" 
      ignoreCase="true" 
      words="stopwords.txt" 
      enablePositionIncrements="true" 
      /> 
    <filter class="solr.WordDelimiterFilterFactory" 
      generateWordParts="1" 
      generateNumberParts="1" 
      catenateWords="1" 
      catenateNumbers="1" 
      catenateAll="0" 
      splitOnCaseChange="0" 
      splitOnNumerics="0" 
      preserveOriginal="1"/> 
    <filter class="solr.LowerCaseFilterFactory"/> 
    </analyzer> 

<fieldType name="textnostem" class="solr.TextField" positionIncrementGap="100" autoGeneratePhraseQueries="true"> 
    <analyzer type="index"> 
    <charFilter class="solr.HTMLStripCharFilterFactory"/> 
    <tokenizer class="solr.WhitespaceTokenizerFactory"/> 
    <filter class="solr.StopFilterFactory" 
      ignoreCase="true" 
      words="stopwords.txt" 
      enablePositionIncrements="true" 
      /> 
    <filter class="solr.WordDelimiterFilterFactory" 
      generateWordParts="1" 
      generateNumberParts="1" 
      catenateWords="1" 
      catenateNumbers="1" 
      catenateAll="0" 
      splitOnCaseChange="0" 
      splitOnNumerics="0" 
      preserveOriginal="1" 
      /> 
    <filter class="solr.LowerCaseFilterFactory"/> 
    </analyzer> 
    <analyzer type="query"> 
    <tokenizer class="solr.WhitespaceTokenizerFactory"/> 
    <filter class="solr.StopFilterFactory" 
      ignoreCase="true" 
      words="stopwords.txt" 
      enablePositionIncrements="true" 
      /> 
    <filter class="solr.WordDelimiterFilterFactory" 
      generateWordParts="1" 
      generateNumberParts="1" 
      catenateWords="1" 
      catenateNumbers="1" 
      catenateAll="0" 
      splitOnCaseChange="0" 
      splitOnNumerics="0" 
      preserveOriginal="1"/>  
    <filter class="solr.LowerCaseFilterFactory"/> 
    </analyzer> 
</fieldType> 

<fieldType name="textnostem" class="solr.TextField" positionIncrementGap="100" autoGeneratePhraseQueries="true"> 
    <analyzer type="index"> 
    <charFilter class="solr.HTMLStripCharFilterFactory"/> 
    <tokenizer class="solr.WhitespaceTokenizerFactory"/> 
    <filter class="solr.StopFilterFactory" 
      ignoreCase="true" 
      words="stopwords.txt" 
      enablePositionIncrements="true" 
      /> 
    <filter class="solr.WordDelimiterFilterFactory" 
      generateWordParts="1" 
      generateNumberParts="1" 
      catenateWords="1" 
      catenateNumbers="1" 
      catenateAll="0" 
      splitOnCaseChange="0" 
      splitOnNumerics="0" 
      preserveOriginal="1" 
      handleAsChar="@#" 
      /> 
    <filter class="solr.LowerCaseFilterFactory"/> 
    </analyzer> 
    <analyzer type="query"> 
    <tokenizer class="solr.WhitespaceTokenizerFactory"/> 
    <filter class="solr.StopFilterFactory" 
      ignoreCase="true" 
      words="stopwords.txt" 
      enablePositionIncrements="true" 
      /> 
    <filter class="solr.WordDelimiterFilterFactory" 
      generateWordParts="1" 
      generateNumberParts="1" 
      catenateWords="1" 
      catenateNumbers="1" 
      catenateAll="0" 
      splitOnCaseChange="0" 
      splitOnNumerics="0" 
      preserveOriginal="1" 
      handleAsChar="@#" 
      />  
    <filter class="solr.LowerCaseFilterFactory"/> 
    </analyzer> 
</fieldType>

来源

2012-02-15 sesmic

您能否显示您正在使用的整个fieldType定义，因此如果其他筛选器或标记器可能影响您的结果，我们可以这样做吗？ – 2012-02-15 19:43:21

个人而言，我只是在索引中添加两个字段，一个用于提及的列表，一个用于标记。将这些内容添加到索引时，将这些内容解析出来。这样你就不依赖于新的功能。 – 2012-02-16 02:00:24

OK，通过你提到的SOLR-2059的补丁所以阅读，看起来他们已经取代上与types属性WordDelimiterFactory的handleAsChar属性。下面是从分析仪该属性的规范，断词和记号过滤Solr的Wiki页面：

类型=“wdfftypes.txt”允许自定义标记化此过滤器。该文件应存在于solr/conf目录中，并且条目的格式为（不含引号）“％=> ALPHA”或“\ u002C => DIGIT”。允许的类型有：LOWER，UPPER，ALPHA，DIGIT，ALPHANUM，SUBWORD_DELIM。

那么接下来，如果我们采取这种文档，再加上从SOLR-2059文件的例子，我想提出以下建议：

<filter class="solr.WordDelimiterFilterFactory" generateWordParts="1" generateNumberParts="1" catenateWords="1" catenateNumbers="1" catenateAll="0" splitOnCaseChange="0" splitOnNumerics="0" preserveOriginal="1" types="twittertypes.txt"/>

然后如下定义twittertypes.txt文件和将它放在与您的Solr实例中的schema.xml文件（可能是conf文件夹）相同的文件夹中。

# A customized type mapping for WordDelimiterFilterFactory 
# the allowable types are: LOWER, UPPER, ALPHA, DIGIT, ALPHANUM, SUBWORD_DELIM 
#  
# the default for any character without a mapping is always computed from 
# Unicode character properties 

# Map the $, %, '.', and ',' characters to DIGIT 
# This might be useful for financial data. 
@ => ALPHA 
\u0023 => ALPHA

请注意，您需要使用Unicode字符（UTF-8）的哈希符号，因为它是作为文本文件注释处理。

根据所有文档，这应该解决您的问题并将＃和@符号视为字母字符，这将提供您正在查找的行为。

来源

2012-02-16 01:57:44

谢谢佩奇，昨天晚上我们已经明白了，正如你所说的那样。 – sesmic 2012-02-16 02:16:16

我做了所有上述并重新启动solr服务，仍然搜索#pizza和披萨产生相同的结果，任何线索或任何更多的步骤，我应该遵循？ – PepperoniPizza 2013-03-06 20:04:52

您是否在进行配置更改后重新编制索引您的文档？每当您在schema.xml文件中对影响文档索引方式的更改时，都必须重新索引文档以使更改反映在索引术语中。 – 2013-03-06 20:09:48

Solr的搜索主题标签或提到

回答

相关问题