我是Apache UIMA的新手,我尝试使用Apache UIMA构建NLP管道。当用户上传文档(即PDF,单词)时,我想使用Tika Annotator提取数据。我能够使用APache Tika从pdf和其他文档中提取文本,但是如何为此编写Annotator以及如何将一个注释器的输出作为输入传递给其他注释器。我经历了apache UIMA网站,但无法从网站获取太多内容,因此我可以在我的项目中使用它。使用Apache UIMA构建NLP操作管道
例如将具有提卡标注器来提取文本,然后使用输出提卡注释器在TokenAnnotator执行标记化,然后使用TokenAnnotator输出作为输入到POS标注器
任何帮助将不胜感激
嗨Rana,我认为这可能会有所帮助,如果你能提供更多关于实际使用情况的细节。即使你有标记和POS标记的文本,他们也没有多大用处。你到底想要完成什么? –
嗨,我正在尝试在UIMA中构建管道。实际使用情况如下(1)您上传的某个文件可能是pdf,word文档(2)您使用Apache Tika Annotator从文档中提取内容(3)使用Tika Annotator的输出执行空白区域Tokenization( 4)执行POS标记。 – Rana
我明白了很多。但是,一旦您将文本标记化并添加了POS标签,接下来的步骤是什么?因为通常,这两个步骤是NLP管道中的初步步骤(除非优化标记和标记是您正在处理的内容,但它并不像它那样)。 –