2017-04-15 44 views
0

我有一些数据是有效的UTF-8。但是,它的一部分仍然是有效的UTF-8,显然不是最初的UTF-8。它们也不是UTF-8编码的Latin-1。如何拿mojibake并找出原始字符集是什么?

我怎样才能找出这些零件的原始字符集是什么,以便我可以恢复有用的信息?或者我应该丢弃它们作为损坏?

回答

1

这里有mojibake转换器。一个开源选项是https://github.com/dekellum/mojibake

gem install mojibake 
require 'mojibake' 
mapper = MojiBake::Mapper.new 
mapper.recover('“quotedâ€�') #=> '“quoted”' 
相关问题