tagged-corpus

    2热度

    1回答

    我从来没有写过Makefiles,但我怀疑它会对我的情况有所帮助。我有一些文本文件需要预处理才能提取机器学习功能。该目录结构可能是这样的: / +---Makefile +---/corpus | +-- a.txt | +-- b.txt | +-- ... | +---/wordcounts | +-- a.wordcount | +-- b.wordcount | +--

    4热度

    2回答

    我只是关注NLTK书的第5章,tagged_words()中的'simplify_tags'参数似乎是意想不到的。我使用Python 3.4,PyCharm和标准的NLTK包。 In[4]: nltk.corpus.brown.tagged_words() Out[4]: [('The', 'AT'), ('Fulton', 'NP-TL'), ...] In[5]: nltk.corpus.

    1热度

    1回答

    我想使用NLTK构建pos标签语料库。这样我就可以根据它来训练我的模型。 到目前为止我已经提到很多来源,但每个人只是解释如何阅读你的标注语料和阅读单词,句子等,以下是一段代码,我想: from nltk.corpus.reader import TaggedCorpusReader reader = TaggedCorpusReader('/home/abc/nltk_data/', 'pos_

    3热度

    3回答

    我正在尝试编写一个使用Java中的自然语言词类的程序。我一直在谷歌上搜索,并没有发现整个布朗语料库(或另一个标记词的语料库)。我一直在寻找NLTK信息,这些信息我不感兴趣,我希望能够将数据加载到Java程序中,并总结出单词的出现(以及它们成为什么词性的可能性)。 我不要想要使用像斯坦福一样的Java库,我想自己玩我的语料库数据。

    0热度

    2回答

    在主题上使用wordpress'front-page.php文件时,假设我的网站托管在http://example.com/,则初始页面(GET /)将检索其内容。这样做,我应该在哪里链接到index.php,列出所有类别的所有最新帖子? 我预计GET /posts或类似的东西,会带我到index.php,但它不会:( 有人可以帮助我

    1热度

    1回答

    我对Python没有超级经验,但我想用语料库做一些数据分析,所以我在NLTK Python中做这部分。 我想要浏览整个语料库并制作包含出现在语料库数据集中的每个词的词典。我希望能够在这本词典中搜索一个单词,并找出这个单词出现的次数作为什么词性(标签)。因此,例如,如果我要搜索'狗',我可能会找到100个名词标记和5个动词标记等。 最终目标是将该文件以.txt或其他方式从外部保存并加载到另一个文件程

    -1热度

    1回答

    Using an NLTK Conditional Frequency Distribution and the nltk.bigrams function, train a bigram model on the Genesis: text = nltk.corpus.genesis.words('english-kjv.txt') bigrams = nltk.bigrams(text)

    0热度

    1回答

    我一直在尝试WinRT XAM工具包(https://winrtxamltoolkit.codeplex.com)中的图表控件。 我能找到一些例子,凑齐了工作线图,但我希望能够做一个堆叠面积图。不幸的是,我设法得到的是一个空白矩形的角落中的单个点。 可以说我有爱丽丝和鲍勃的数据有日期和余额。我希望看到这样的图: - 所以我可以做一个单一的一套使用下面的XAML行和它的作品。 <charting:C

    0热度

    2回答

    我有以下代码可以在movie_review语料库中打印15个最常见的事件。 import nltk import random from nltk.corpus import movie_reviews documents =[] for category in movie_reviews.categories(): for fileid in movie_reviews.f

    -1热度

    1回答

    我在同一个文件夹中的cats.txt中列出了一堆文件和类别。我想为此创建一个categorizedtaggedcorpusreader。 这就是我的文件的外观。 在nltk中尝试了很多方法,但无法创建Categorizedtaggedcorpusreader,在我的cats.txt里面我有文件名和类别名称,空格分开,每个文件名可以有多个类别。 例如: mail_1_adapter适配器 mail_