2013-05-02 128 views
0

我试图用NEST c#客户端在ElasticSearch中查询没有口音的查询,我的数据具有带口音的葡萄牙拉丁字。见代码如下:使用NEST C#客户端的ElasticSearch区分重音查询

var result = client.Search<Book>(s => s 
    .From(0) 
    .Size(20) 
    .Fields(f => f.Title) 
    .FacetTerm(f => f.OnField(of => of.Genre)) 
    .Query(q => q.QueryString(qs => qs.Query("sao"))) 
); 

此搜索没有发现任何内容。我在该指数上的数据包含许多标题,如:“SãoCristóvan”,“SãoGonçalo”。

var settings = new IndexSettings(); 
settings.NumberOfReplicas = 1; 
settings.NumberOfShards = 5; 
settings.Analysis.Analyzers.Add("snowball", new Nest.SnowballAnalyzer { Language = "Portuguese" }); 
var idx5 = client.CreateIndex("idx5", settings); 

我怎样才能让查询 “”,找到 “圣保罗” 使用ElasticSearch?

我认为必须创建具有正确属性的索引,但我已经尝试过许多设置。

或原始模式:

 

    { 
    "idx" : { 
     "settings" : { 
     "index.analysis.filter.jus_stemmer.name" : "brazilian", 
     "index.analysis.filter.jus_stop._lang_" : "brazilian" 
     } 
    } 
    } 

我怎样才能使搜索和忽略的口音?

感谢朋友,

回答

2

看到的解决办法:

连接上elasticsearch搜索用腻子执行:

curl -XPOST 'localhost:9200/idx30/_close' 

curl -XPUT 'localhost:9200/idx30/_settings' -d '{ 
      "index.analysis.analyzer.default.filter.0": "standard", 
      "index.analysis.analyzer.default.tokenizer": "standard", 
      "index.analysis.analyzer.default.filter.1": "lowercase", 
      "index.analysis.analyzer.default.filter.2": "stop", 
      "index.analysis.analyzer.default.filter.3": "asciifolding", 
      "index.number_of_replicas": "1" 
}' 

curl -XPOST 'localhost:9200/idx30/_open' 

替换 “idx30” 与

完成索引的名字!

0

您将要合并的ACSII Folding filter到您的分析仪来完成这项工作。这将意味着构建snowballanalyzer表单标记器和过滤器(除非nest允许您将筛选器添加到非定制分析器中,但据我所知,ElasticSearch没有)。

甲SnowballAnalyzer包含:

  • StandardTokenizer
  • StandardFilter
  • (添加此处所述ASCIIFolding滤波器)
  • LowercaseFilter
  • 的StopFilter(与适当的停止字组)
  • SnowballFilter (用适当的语言)
  • (或者,也许在这里)

我可能会尝试只LowercaseFilter之前添加ASCIIFoldingFilter,虽然它可能是更好的将其添加为非常拉斯步骤(SnowballFilter后)。尝试两种方式,看看哪个更好。我不太了解Protuguese的词干说哪个最好。

+0

我试过设置它,但它没有工作! settings.Analysis.Analyzers.Add(“standard”,new Nest.StandardAnalyzer()); settings.Analysis.TokenFilters.Add(“ascii”,new AsciiFoldingTokenFilter()); settings.Analysis.TokenFilters.Add(“小写”,新的Nest.LowercaseTokenFilter()); settings.Analysis.Analyzers.Add(“lang”,new Nest.LanguageAnalyzer(Language.Brazilian){StopWords = new List {“com”,“quem”}}); settings.Analysis.Analyzers.Add(“snowball”,new Nest.SnowballAnalyzer {Language =“Brazilian”}); – 2013-05-02 19:40:46

+0

你用最后的ASCIIFoldingFilter来试试吗?真的不确定哪个更合适。它怎么不起作用?它是否像以前一样执行操作,抛出异常,无法获得结果? – femtoRgon 2013-05-02 19:48:41

3

我偶然发现了这个线程,因为我得到了同样的问题。 这里的NEST代码与AsciiFolding分析创建索引:

// Create the Client 
string indexName = "testindex"; 
var uri = new Uri("http://localhost:9200"); 
var settings = new ConnectionSettings(uri).SetDefaultIndex(indexName); 
var client = new ElasticClient(settings); 
// Create new Index Settings 
IndexSettings set = new IndexSettings(); 
// Create a Custom Analyzer ... 
var an = new CustomAnalyzer(); 
// ... based on the standard Tokenizer 
an.Tokenizer = "standard"; 
// ... with Filters from the StandardAnalyzer 
an.Filter = new List<string>(); 
an.Filter.Add("standard"); 
an.Filter.Add("lowercase"); 
an.Filter.Add("stop"); 
// ... just adding the additional AsciiFoldingFilter at the end 
an.Filter.Add("asciifolding"); 
// Add the Analyzer with a name 
set.Analysis.Analyzers.Add("nospecialchars", an); 
// Create the Index 
client.CreateIndex(indexName, set); 

现在你可以映射你的实体,以该指数

client.MapFromAttributes<TestEntity>(); 

(它做到这一点,你创建索引后很重要)和下面是这样一个实体的样子:

[ElasticType(Name = "TestEntity", DisableAllField = true)] 
public class TestEntity 
{ 
    public TestEntity(int id, string desc) 
    { 
     ID = id; 
     Description = desc; 
    } 

    public int ID { get; set; } 

    [ElasticProperty(Analyzer = "nospecialchars")] 
    public string Description { get; set; } 
} 

现在你去了,说明字段现在插入索引中,没有重音。 您可以测试这个,如果你检查你的索引的映射:

http://localhost:9200/testindex/_mapping 

然后应该是这个样子:

{ 
    testindex: { 
     TestEntity: { 
      _all: { 
       enabled: false 
      }, 
      properties: { 
       description: { 
        type: "string", 
        analyzer: "nospecialchars" 
       }, 
       iD: { 
        type: "integer" 
       } 
      } 
     } 
    } 
} 

希望这会帮助别人。

相关问题