2017-06-14 98 views
0

我在编译solr时遇到了问题。我们在两台不同的服务器上有“相同”的设置,但其中一台能够将文件编入索引而无需???字符,但测试服务器遇到问题。使用Solr和tomcat进行Java编码

Exemples Solr的结果:
PROD服务器:

effet sur l’acquisition des connaissances »\n\n#12;#12;EFFET D’UNE SÉQUENCE 

测试服务器:

effet sur l’acquisition des connaissances »\n\n��EFFET D’UNE SÉQUENCE D’ENSEIGNEMENTS 

我有java的相同版本的两台服务器上运行:

java version "1.7.0_80" 
Java(TM) SE Runtime Environment (build 1.7.0_80-b15) 
Java HotSpot(TM) 64-Bit Server VM (build 24.80-b11, mixed mode) 

两者都具有相同的Java选项:

JAVA_OPTS=" -Dfile.encoding=UTF-8 " 

这两个solr都具有相同的Java属性(在UI中)。

#12;意思?

问题在哪里?

OS:

  • 的Ubuntu 14.04

软件:

  • 的Tomcat 8.0.43
  • 的dSPACE 6.0
  • Solr的4.10.4

编辑:两台服务器上 输出语言环境:

LANG=en_CA.utf8 
LANGUAGE=en_CA:en 
LC_CTYPE="en_CA.utf8" 
LC_NUMERIC="en_CA.utf8" 
LC_TIME="en_CA.utf8" 
LC_COLLATE="en_CA.utf8" 
LC_MONETARY="en_CA.utf8" 
LC_MESSAGES="en_CA.utf8" 
LC_PAPER="en_CA.utf8" 
LC_NAME="en_CA.utf8" 
LC_ADDRESS="en_CA.utf8" 
LC_TELEPHONE="en_CA.utf8" 
LC_MEASUREMENT="en_CA.utf8" 
LC_IDENTIFICATION="en_CA.utf8" 
LC_ALL= 

谢谢!

+0

两台服务器上的“locale”命令的输出是什么? –

+0

我忘了提及它,我将它添加到帖子中 –

回答

0

问题不在于编码,而在于DSpace的工作方式。我不得不运行命令:

./dspace filter-media -f 

此命令将重新生成PDF文件中的.txt文件并重新索引文档。所以每次我试图用正确的编码索引文档时,它都没有改变任何东西。