2013-06-01 15 views
1

我想分析在线代码并希望使用贝叶斯分类。不过,我需要相当数量的预先分类代码作为样本数据。我在哪里可以找到大样本的计算机语言朴素贝叶斯分析

也许是二十左右的顶尖语言?

有谁知道这样的语料库?

+0

你只是想确定哪种语言文本块是什么? –

+0

是的,我试图确定一段文字是哪种语言。 –

+0

简单地寻找高概率的线索可能会更容易。 “MOVE”是COBOL的一个很好的标志。 “格式”是一个很好的标志,它是FORTRAN。 “int *”是一个好的符号,它是C或C++。 “int *”和“class”是C++的好迹象。为什么要这么做? –

回答

0

在Kaggle上有一个数据集,其中的问题来自StackOverflow,其目标是猜测与问题相关的标签。这可能需要猜测代码示例的语言(或只是寻找关键字) https://www.kaggle.com/c/facebook-recruiting-iii-keyword-extraction

通过Github搜索的其他可能性 - 因为所有代码都是自由和开放的。

的StackOverflow本身共享自己的所有用户的数据提供的职位(匿名)