text-chunking

1热度

1回答

我正在使用NLTK分块，我想捕获匹配我的规则的字符串。例如这里是我的输入 The stocks show 67% rise, last year it was 12% fall 我想捕捉 67% rise和12% fall 词性标注上面的句子表明 ('The', 'DT'), ('stocks', 'NNS'), ('show', 'VBP'), ('67', 'CD'), ('%', 'NN'

8热度

3回答

如何从BIO分块句子中提取块？ - 蟒

给的输入句子，具有BIO chunk tags： [（ '什么'， 'B-NP'），（ '是'， 'B-VP'），（ '的'，' （''，'B-NP'），（'空速'， 'I-NP'），（''，'B-PP'），（'an'，'B-NP'），（'unladen'，'I -NP '），（' 吞”， 'I-NP'），（ '？'， 'O'）] 我需要提取相关的短语进行，例如如果我想提取'NP'，我需要提取包

0热度

1回答

itextsharp：在将文字拼接拆分为单词时文字被破坏

我想突出显示一组PDF文件中的几个关键字。首先，我们必须识别单个单词并将其与我的关键字进行匹配。我找到一个例子： class MyLocationTextExtractionStrategy : LocationTextExtractionStrategy { //Hold each coordinate public List<RectAndText> myPoints =

2热度

1回答

NLTK RegEx Chunker未捕获通配符定义的语法模式

我想将NLTK的POS标记作为正则表达式使用一个句子。根据句子中单词的标签定义2个规则来识别短语。主要是，我想捕捉一个或多个动词的大块，然后是可选的判定器，然后在末尾处捕获一个或多个名词。这是定义中的第一条规则。但它没有被捕获为短语块。 import nltk ## Defining the POS tagger tagger = nltk.data.load(nltk.tag._POS_

1热度

1回答

如何提取使用NLTK RegexpParser组块的POS_tagged词特殊字符在Python

我有例如一些文字说：80% of $300,000 Each Human Resource/IT Department. 我需要与Each Human Resource/IT Department 我已经使用词性标注的话一起提取$300,000标记后标记单词。我能够提取300,000，但无法提取$符号。我到目前为止有： text = '80% of $300,000 Each Human Res

0热度

2回答

NLTK Chunk Parser：如何转义特殊字符

所以我想从文本中提取一些信息，我正在使用NLTK分块。这里是我的输入 The stocks show 67% rise, last year it was 12% fall 我想捕捉 67% rise和12% fall 词性标注上面的句子表明 ('The', 'DT'), ('stocks', 'NNS'), ('show', 'VBP'), ('67', 'CD'), ('%', 'NN'),