nltk

1热度

1回答

我正在尝试创建一个新的列，该列中的数据框中有clean_word列的pos标签。如下图所示，该列有单个单词。所以不需要标记等等。下面是我的代码。 import nltk datahitword['pos_tag'] = nltk.pos_tag(datahitword['clean_word']) datahitword.head() 即使在将列转换为列表和系列以将其隔离并添加到数据框

1热度

1回答

结合nltk.RegexpParser语法

正如我对学习更多关于NLP下一步，我想实现一个简单的启发式改善超出了简单的n-gram结果。根据下面链接的斯坦福搭配PDF，他们提到通过“只通过可能成为”短语“的那些模式的部分语音过滤器传递”候选短语“将产生比简单地使用最频繁的结果更好的结果存在的双克来源：搭配，第143页 - 144：https://nlp.stanford.edu/fsnlp/promo/colloc.pdf 144页上的

1热度

1回答

在应用ngram之前理解输入文本的最佳方法

目前我正在阅读excel文件中的文本并将它应用于bigram。 finalList已在下面的示例代码中使用的列表具有输入词列表从输入excel文件中读取。删除从输入禁用词具有下列库的帮助： from nltk.corpus import stopwords 二元逻辑应用于字的输入文本 bigram=ngrams(finalList ,2) 输入文本的列表：我完成了我的端至端处理。电流输

0热度

1回答

使用斯坦福解析器生成句子

我正在尝试使用斯坦福解析器生成类似类型的句子。步骤： 1.使用斯坦福库进行粗输入句子。从解析后的句子 3.更换 2.Generate生产规则一些终端值 4.Regenerate句子，用产生从nltk.parse.generate （）函数我有三个疑惑： 1. StanfordParser总是生成有限的生产规则吗？ 2.虽然使用生成函数，但对于几句话我得到以下错误。 “分段故障：11” 2.1可以

0热度

2回答

评估NLTK中的POS标记器

我想使用文本文件作为输入来评估NLTK中的不同POS标记。例如，我将采用Unigram标记器。我发现如何使用棕色语料库评估Unigram标签。 from nltk.corpus import brown import nltk brown_tagged_sents = brown.tagged_sents(categories='news') brown_sents = brown.se

1热度

1回答

python在数据框中的快速文本处理

我正在研究python中的电子商务数据。我已经将这些数据加载到python中并将其转换为熊猫数据框架。现在，我想对数据执行文本处理，例如删除不需要的字符，停用词，词干等。目前我应用的代码工作正常，但需要很长时间。我有大约200万行数据需要处理，并且需要永久处理。我在10,000行上试过这个代码，花了大约240秒。我正在进行这种项目，这是第一次。任何减少时间的帮助都会很有帮助。在此先感谢。 fro

0热度

1回答

比较使用NLP

我有2句使用NLP在他们的语法的基础上，比较于语法的基础上两句。我对NLP完全陌生，想知道是否有算法来确定这一点。我知道如何使用单词相似性和情感进行比较。

0热度

1回答

NLTK Stanford Segmentor，如何设置CLASSPATH

我正在尝试使用NLTK Tokenize软件包中的Stanford Segementer位。但是，我遇到了试图使用基本测试集的问题。运行以下： # -*- coding: utf-8 -*- from nltk.tokenize.stanford_segmenter import StanfordSegmenter seg = StanfordSegmenter() seg.default_

1热度

1回答

依赖树使用斯坦福分析器从NLTK结果不匹配斯坦福分析器

我想比较从斯坦福分析器从NLTK的结果，但我不知道为什么我得到不同的结果时，我与stanford parser 我已检查相关问题但这对我没有多大帮助。 stan_dep_parser = StanfordDependencyParser() # stanford parser from NLTK dependency_parser =stan_dep_parser.raw_parse("Four

0热度

3回答

Python - 带条件的正则表达式标记器

我试图删除标点符号化python中的句子，但我有几个“condtitions”，我希望它忽略使用标点符号化。一些例子是当我看到一个URL或电子邮件地址或某些符号旁边没有空格时。例如： from nltk.tokenize import RegexpTokenizer tokenizer = RegexpTokenizer("[\w']+") tokenizer.tokenize("pleas