nltk

    1热度

    1回答

    我正在尝试创建一个新的列,该列中的数据框中有clean_word列的pos标签。如下图所示,该列有单个单词。所以不需要标记等等。 下面是我的代码。 import nltk datahitword['pos_tag'] = nltk.pos_tag(datahitword['clean_word']) datahitword.head() 即使在将列转换为列表和系列以将其隔离并添加到数据框

    1热度

    1回答

    正如我对学习更多关于NLP下一步,我想实现一个简单的启发式改善超出了简单的n-gram结果。 根据下面链接的斯坦福搭配PDF,他们提到通过“只通过可能成为”短语“的那些模式的部分语音过滤器传递”候选短语“将产生比简单地使用最频繁的结果更好的结果存在的双克 来源:搭配,第143页 - 144:https://nlp.stanford.edu/fsnlp/promo/colloc.pdf 144页上的

    1热度

    1回答

    目前我正在阅读excel文件中的文本并将它应用于bigram。 finalList已在下面的示例代码中使用的列表具有输入词列表从输入excel文件中读取。 删除从输入禁用词具有下列库的帮助: from nltk.corpus import stopwords 二元逻辑应用于字的输入文本 bigram=ngrams(finalList ,2) 输入文本的列表:我完成了我的端至端处理。 电流输

    0热度

    1回答

    我正在尝试使用斯坦福解析器生成类似类型的句子。 步骤: 1.使用斯坦福库进行粗输入句子。从解析后的句子 3.更换 2.Generate生产规则一些终端值 4.Regenerate句子,用产生从nltk.parse.generate ()函数我有三个疑惑: 1. StanfordParser总是生成有限的生产规则吗? 2.虽然使用生成函数,但对于几句话我得到以下错误。 “分段故障:11” 2.1可以

    0热度

    2回答

    我想使用文本文件作为输入来评估NLTK中的不同POS标记。 例如,我将采用Unigram标记器。我发现如何使用棕色语料库评估Unigram标签。 from nltk.corpus import brown import nltk brown_tagged_sents = brown.tagged_sents(categories='news') brown_sents = brown.se

    1热度

    1回答

    我正在研究python中的电子商务数据。我已经将这些数据加载到python中并将其转换为熊猫数据框架。现在,我想对数据执行文本处理,例如删除不需要的字符,停用词,词干等。目前我应用的代码工作正常,但需要很长时间。我有大约200万行数据需要处理,并且需要永久处理。我在10,000行上试过这个代码,花了大约240秒。我正在进行这种项目,这是第一次。任何减少时间的帮助都会很有帮助。 在此先感谢。 fro

    0热度

    1回答

    我有2句使用NLP在他们的语法的基础上,比较于语法的基础上两句。我对NLP完全陌生,想知道是否有算法来确定这一点。我知道如何使用单词相似性和情感进行比较。

    0热度

    1回答

    我正在尝试使用NLTK Tokenize软件包中的Stanford Segementer位。但是,我遇到了试图使用基本测试集的问题。运行以下: # -*- coding: utf-8 -*- from nltk.tokenize.stanford_segmenter import StanfordSegmenter seg = StanfordSegmenter() seg.default_

    1热度

    1回答

    我想比较从斯坦福分析器从NLTK的结果,但我不知道为什么我得到不同的结果时,我与stanford parser 我已检查相关问题但这对我没有多大帮助。 stan_dep_parser = StanfordDependencyParser() # stanford parser from NLTK dependency_parser =stan_dep_parser.raw_parse("Four

    0热度

    3回答

    我试图删除标点符号化python中的句子,但我有几个“condtitions”,我希望它忽略使用标点符号化。一些例子是当我看到一个URL或电子邮件地址或某些符号旁边没有空格时。例如: from nltk.tokenize import RegexpTokenizer tokenizer = RegexpTokenizer("[\w']+") tokenizer.tokenize("pleas