0
我有一些数据是有效的UTF-8。但是,它的一部分仍然是有效的UTF-8,显然不是最初的UTF-8。它们也不是UTF-8编码的Latin-1。如何拿mojibake并找出原始字符集是什么?
我怎样才能找出这些零件的原始字符集是什么,以便我可以恢复有用的信息?或者我应该丢弃它们作为损坏?
我有一些数据是有效的UTF-8。但是,它的一部分仍然是有效的UTF-8,显然不是最初的UTF-8。它们也不是UTF-8编码的Latin-1。如何拿mojibake并找出原始字符集是什么?
我怎样才能找出这些零件的原始字符集是什么,以便我可以恢复有用的信息?或者我应该丢弃它们作为损坏?
这里有mojibake转换器。一个开源选项是https://github.com/dekellum/mojibake:
gem install mojibake
require 'mojibake'
mapper = MojiBake::Mapper.new
mapper.recover('“quotedâ€�') #=> '“quoted”'