2012-02-06 130 views
1

我想要一个读取文档中的文本并说它是用哪种语言(英语,西班牙语,...)的java代码。文件的格式并不重要。我希望输出是例如:“这份文件是西班牙文”。请以这种方式引导我,并给我一个示例代码。语言检测器

+0

大多数文档格式将该信息嵌入其元数据中。对于纯文本文件,是的,你必须做一些魔术。 – 2012-02-06 16:20:21

+0

这是问题解答网站,那么你的问题是什么,我建议阅读常见问题解答... – Nettogrof 2012-02-06 16:21:34

+0

你需要根据所使用的单词使用猜测。我会为每种语言创建一个单词词典并尝试匹配它们。注:一些简短的文件可能是。 – 2012-02-06 16:21:37

回答

0

language-detection库在Java中使用非常简单(请参阅示例代码)和健壮性。检测来自各种家庭的至少53种语言。