2011-12-20 96 views
1

如果我没有错误,中文语言(和其他语言)不使用空格' '作为字分隔符。计算字符串中的字数(不仅是拉丁语言)

那么这可能是一个很好的算法,在国际上工作?

+1

这取决于该语言的单词定界符。出于好奇,中文单词如何结束? – Indranil 2011-12-20 23:47:33

+0

这是一个很好的问题。 – dynamic 2011-12-20 23:48:11

+2

这里是答案:http://www.anycount.com/WordCountBlog/tag/word-count-in-chinese/ – 2011-12-20 23:54:34

回答

3

我见过的技巧很简单,就是简单地计算所使用的字符数,并将其除以中文每个单词的平均字符数。通常用于此的数字是1.5

如果您的中文文本有1500个字符,则它大约有1000个字。

我不知道更精确的计算单词的方法,除了解释文本本身。这意味着要真正理解所使用单词的上下文,因为中文字符有时可以单独用作单词,也可以用作复合词的组成部分。

+0

这似乎是正确的比例:http://www.proz.com/forum/linguistics/58362-word_count_for_chinese.html。 “1.35:1〜1.8:1。通常我们取1.5:1” – 2011-12-21 00:02:59