我期待在我正在编写的程序中进行一些文本分析。我正在寻找类似于维基百科转储(download.wikimedia.com)中提供的原始形式的替代文本来源。我在哪里可以找到网络上的原始文本转储?
我宁愿没有经过爬行网站的麻烦,试图解析HTML,提取文本等。
我期待在我正在编写的程序中进行一些文本分析。我正在寻找类似于维基百科转储(download.wikimedia.com)中提供的原始形式的替代文本来源。我在哪里可以找到网络上的原始文本转储?
我宁愿没有经过爬行网站的麻烦,试图解析HTML,提取文本等。
的gutenberg project有各种格式(包括纯文本)
NLTK提供了一个简单的Python API来访问many text corpora,包括古腾堡,路透社,莎士比亚和其他电子书的巨额资金。
>>> from nltk.corpus import brown
>>> brown.words()
['The', 'Fulton', 'County', 'Grand', 'Jury', 'said', ...]
+1我来到这里后PG。 – Joe 2010-08-02 13:49:43