2016-04-25 67 views
2

我正在进行网页语言检测,并且设法通过我开发的其他中间件检索页面的内容。因为没有标准化的内容位置。但是,我不知道如何检测我尝试使用lang和xml:lang标记的语言,但是它们效率不如我预期的那样高,因为我看到某个网站除了标记中指定的语言之外还有其他语言,帮助将不胜感激? (环境java日食)网页基于内容的语言检测

回答

1

这是一个在nlp中的经典问题,并给出了相当不错的预测。这篇文章看起来类似于这个:link并且有一些很好的答案。 我并不熟悉那里提到的解决方案,但我确实使用过Apache Tika来处理另一个问题,它是一个很好的开源代码。希望有所帮助..

+0

我正在研究java,我已经检查了链接,但他们提到的库(特别是语言检测器)有一些准确性问题,它给出了相同文本的不同结果并支持有限的语言 –