我正在努力使用Nodejs将HTML文件编入索引。然而,即使在使用Nodejs之前,我试图运行下面的手动索引,这似乎不工作。我错过了什么?在索引到elasticsearch之前去除HTML标签
指数样本HTML标签使用html_strip过滤器:
curl -XPOST 'localhost:9200/bhs/articles/_analyzer?tokenizer=standard&char_filters=html_strip' -d '
{
"content" : "<title>Dilip Kumar</title>"
}'
搜索得到的所有文件:
http://localhost:9200/bhs/articles/_search
它提供了以下的结果:
{
"took": 4,
"timed_out": false,
"_shards": {
"total": 5,
"successful": 5,
"failed": 0
},
"hits": {
"total": 1,
"max_score": 1,
"hits": [
{
"_index": "bhs",
"_type": "articles",
"_id": "AUt2TGl9aadd5iLJ3mue",
"_score": 1,
"_source": {
"content": "<title>Dilip Kumar</title>"
}
}
]
}
}
理想情况下,不应该指数标签,因为我已经使用html_filter去除标签。
我期待在上下文elasticsearch。不是JavaScript。 – joy 2015-02-11 02:04:44
我看到
什么是您的文章类型的映射 - 你告诉它使用自定义分析器? – 2015-02-11 17:31:05