我正在寻找一种方法来自动确定网站页面使用的自然语言,因为它的URL。根据URL自动确定网站页面的自然语言
在Python中,函数,如:
def LanguageUsed (url):
#stuff
它返回一个语言说明(例如, 'en' 代表英语, 'JP' 的日本,等...)
汇总结果: 我有一个合理的解决方案,使用code from the PyPi for oice.langdet在Python中工作。 它在辨别英语与非英语方面做得不错,这是我目前所需要的。请注意,您必须使用Python urllib获取html。另外,oice.langdet是GPL许可证。
有关使用Python中Trigrams的更一般解决方案,请参见Python Cookbook Recipe from ActiveState。
Google Natural Language Detection API工作得很好(如果不是我见过的最好的)。但是,它是Javascript和他们的TOS禁止自动使用它。
地理位置是完全无用的。世界上有很多地方有多种语言共存。网站也可能有多种语言版本 – 2009-07-22 19:25:43