2015-06-14 140 views
5

是否有一个服务/库(免费或付费)需要一段文本并返回它的语言?语言检测API/Library

我需要超过一百万篇博客文章并确定他们的语言。

+0

你看https://github.com/shuyo/language-detection? – 2015-06-14 17:25:43

+1

查看此问题的答案:http://stackoverflow.com/q/29290107/4588780 –

回答

0

我听说过langid.py好东西。自述

特点:

  • 快速
  • 预培训了大量的语言(目前为97)
  • 不特定域的特性敏感(如HTML/XML标记)
  • 单个.py文件与最小的依赖关系
  • 可部署为Web服务

https://github.com/saffsd/langid.py