使用NEST C＃客户端的ElasticSearch区分重音查询

我试图用NEST c＃客户端在ElasticSearch中查询没有口音的查询，我的数据具有带口音的葡萄牙拉丁字。见代码如下：使用NEST C＃客户端的ElasticSearch区分重音查询

var result = client.Search<Book>(s => s 
    .From(0) 
    .Size(20) 
    .Fields(f => f.Title) 
    .FacetTerm(f => f.OnField(of => of.Genre)) 
    .Query(q => q.QueryString(qs => qs.Query("sao"))) 
);

此搜索没有发现任何内容。我在该指数上的数据包含许多标题，如：“SãoCristóvan”，“SãoGonçalo”。

var settings = new IndexSettings(); 
settings.NumberOfReplicas = 1; 
settings.NumberOfShards = 5; 
settings.Analysis.Analyzers.Add("snowball", new Nest.SnowballAnalyzer { Language = "Portuguese" }); 
var idx5 = client.CreateIndex("idx5", settings);

我怎样才能让查询 “骚”，找到 “圣保罗” 使用ElasticSearch？

我认为必须创建具有正确属性的索引，但我已经尝试过许多设置。

或原始模式：

 

    { 
    "idx" : { 
     "settings" : { 
     "index.analysis.filter.jus_stemmer.name" : "brazilian", 
     "index.analysis.filter.jus_stop._lang_" : "brazilian" 
     } 
    } 
    }

我怎样才能使搜索和忽略的口音？

感谢朋友，

来源

2013-05-02 Jeferson Tenorio

看到的解决办法：

连接上elasticsearch搜索用腻子执行：

curl -XPOST 'localhost:9200/idx30/_close' 

curl -XPUT 'localhost:9200/idx30/_settings' -d '{ 
      "index.analysis.analyzer.default.filter.0": "standard", 
      "index.analysis.analyzer.default.tokenizer": "standard", 
      "index.analysis.analyzer.default.filter.1": "lowercase", 
      "index.analysis.analyzer.default.filter.2": "stop", 
      "index.analysis.analyzer.default.filter.3": "asciifolding", 
      "index.number_of_replicas": "1" 
}' 

curl -XPOST 'localhost:9200/idx30/_open'

替换 “idx30” 与

完成索引的名字！

来源

2013-05-03 12:20:28

您将要合并的ACSII Folding filter到您的分析仪来完成这项工作。这将意味着构建snowballanalyzer表单标记器和过滤器（除非nest允许您将筛选器添加到非定制分析器中，但据我所知，ElasticSearch没有）。

甲SnowballAnalyzer包含：

StandardTokenizer
StandardFilter
（添加此处所述ASCIIFolding滤波器）
LowercaseFilter
的StopFilter（与适当的停止字组）
SnowballFilter （用适当的语言）
（或者，也许在这里）

我可能会尝试只LowercaseFilter之前添加ASCIIFoldingFilter，虽然它可能是更好的将其添加为非常拉斯步骤（SnowballFilter后）。尝试两种方式，看看哪个更好。我不太了解Protuguese的词干说哪个最好。

来源

2013-05-02 16:26:47 femtoRgon

我试过设置它，但它没有工作！ settings.Analysis.Analyzers.Add（“standard”，new Nest.StandardAnalyzer（））; settings.Analysis.TokenFilters.Add（“ascii”，new AsciiFoldingTokenFilter（））; settings.Analysis.TokenFilters.Add（“小写”，新的Nest.LowercaseTokenFilter（））; settings.Analysis.Analyzers.Add（“lang”，new Nest.LanguageAnalyzer（Language.Brazilian）{StopWords = new List {“com”，“quem”}}）; settings.Analysis.Analyzers.Add（“snowball”，new Nest.SnowballAnalyzer {Language =“Brazilian”}）; – 2013-05-02 19:40:46

你用最后的ASCIIFoldingFilter来试试吗？真的不确定哪个更合适。它怎么不起作用？它是否像以前一样执行操作，抛出异常，无法获得结果？ – femtoRgon 2013-05-02 19:48:41

我偶然发现了这个线程，因为我得到了同样的问题。这里的NEST代码与AsciiFolding分析创建索引：

// Create the Client 
string indexName = "testindex"; 
var uri = new Uri("http://localhost:9200"); 
var settings = new ConnectionSettings(uri).SetDefaultIndex(indexName); 
var client = new ElasticClient(settings); 
// Create new Index Settings 
IndexSettings set = new IndexSettings(); 
// Create a Custom Analyzer ... 
var an = new CustomAnalyzer(); 
// ... based on the standard Tokenizer 
an.Tokenizer = "standard"; 
// ... with Filters from the StandardAnalyzer 
an.Filter = new List<string>(); 
an.Filter.Add("standard"); 
an.Filter.Add("lowercase"); 
an.Filter.Add("stop"); 
// ... just adding the additional AsciiFoldingFilter at the end 
an.Filter.Add("asciifolding"); 
// Add the Analyzer with a name 
set.Analysis.Analyzers.Add("nospecialchars", an); 
// Create the Index 
client.CreateIndex(indexName, set);

现在你可以映射你的实体，以该指数

client.MapFromAttributes<TestEntity>();

（它做到这一点，你创建索引后很重要）和下面是这样一个实体的样子：

[ElasticType(Name = "TestEntity", DisableAllField = true)] 
public class TestEntity 
{ 
    public TestEntity(int id, string desc) 
    { 
     ID = id; 
     Description = desc; 
    } 

    public int ID { get; set; } 

    [ElasticProperty(Analyzer = "nospecialchars")] 
    public string Description { get; set; } 
}

现在你去了，说明字段现在插入索引中，没有重音。您可以测试这个，如果你检查你的索引的映射：

http://localhost:9200/testindex/_mapping

然后应该是这个样子：

{ 
    testindex: { 
     TestEntity: { 
      _all: { 
       enabled: false 
      }, 
      properties: { 
       description: { 
        type: "string", 
        analyzer: "nospecialchars" 
       }, 
       iD: { 
        type: "integer" 
       } 
      } 
     } 
    } 
}

希望这会帮助别人。

来源

2013-06-28 16:09:03 Roemer

使用NEST C＃客户端的ElasticSearch区分重音查询

回答

相关问题