2017-05-29 48 views
0

索引PDF时,我有成功地索引PDF的使用POST命令,如下面的链接描述:存储索引PDF文件中http://makble.com/how-to-extract-text-from-pdf-and-post-into-solr没有“内容”字段中创建使用Solr

条款可以查询,并且可以使用被发现一般查询或文字字段。

但是,我没有看到“内容”字段的生成,因为我可以与其他PDF相关的字段。我试图编辑托管模式文件添加字段:

<field name="content" type="text_general" indexed="false" stored="true" multiValued="true"/> 

<copyField source="content" dest="text"/> 

我收到以下错误,当我学尝试重新加载核心:

<str name="msg">Error handling 'reload' action</str> 
<str name="trace"> 
org.apache.solr.common.SolrException: Error handling 'reload' action at org.apache.solr.handler.admin.CoreAdminOperation.lambda$static$2(CoreAdminOperation.java:110) at org.apache.solr.handler.admin.CoreAdminOperation.execute(CoreAdminOperation.java:370) at org.apache.solr.handler.admin.CoreAdminHandler$CallInfo.call(CoreAdminHandler.java:388) at org.apache.solr.handler.admin.CoreAdminHandler.handleRequestBody(CoreAdminHandler.java:174) 

我solrconfig.xml中有这样的:

<requestHandler name="/update/extract" 
        startup="lazy" 
        class="solr.extraction.ExtractingRequestHandler" > 
    <lst name="defaults"> 
     <str name="lowernames">true</str> 
     <str name="fmap.meta">ignored_</str> 
     <str name="fmap.content">_text_</str> 
    </lst> 
    </requestHandler> 

我想有“内容”字段可用于执行搜索仅位于索引的PDF文件中的文本。

回答

0

1)不要手动编辑架构文件。请使用Schema API

2)fmap.contentcontent字段映射到您的案例中的_text_字段。 如果您已经定义了content字段,那么只需从ExtractingRequestHandler定义中删除此特定参数即可完成此工作。

相关问题