2010-08-02 47 views
5

我期待在我正在编写的程序中进行一些文本分析。我正在寻找类似于维基百科转储(download.wikimedia.com)中提供的原始形式的替代文本来源。我在哪里可以找到网络上的原始文本转储?

我宁愿没有经过爬行网站的麻烦,试图解析HTML,提取文本等。

回答

7

你在找什么样的文字?

有许多免费的电子书(小说和非小说类).txt格式可在Project Gutenberg

他们也有large DVD images书籍可供下载。

+0

+1我来到这里后PG。 – Joe 2010-08-02 13:49:43

3

NLTK提供了一个简单的Python API来访问many text corpora,包括古腾堡,路透社,莎士比亚和其他电子书的巨额资金。

>>> from nltk.corpus import brown 
>>> brown.words() 
['The', 'Fulton', 'County', 'Grand', 'Jury', 'said', ...] 
相关问题