我已经浏览了很多开源NLP工具(主要是OpenNLP),并且我没有看到任何能够自动检测对话框开始和结束的任务。用散文检测对话框部分的开始和结尾
句子检测工具找到完整句子的边界。标记器精确标记标点符号,但仍不检测开始和结束。我读过许多学术文章(such as),其中假设了对话检测。但是我没有看到任何工具将其自动化为通用对话框检测。
例如,文字是这样的:
"I am happy," she said.
应该有 “我很高兴,” 定义为对话框。文字是这样的:
"This is a really long piece of dialog spoken by a character.
"That spans across multiple paragraphs."
应该确定为对话框(即使第一段落的末尾缺少右引号)整个事情。还有很多指定对话框的方法。如用破折号:
They were walking when Joe spoke up.
--I really like walking.
另外,经常内部对话将与斜体字表示,如:
Joe walked down the street. *I really hope I don't get hit by a bus.*
是否有NLP的工具,可以检测到这样的对话板块?或者,我刚刚错过了OpenNLP的一种方式?
我认为你是对的,这不是一个标准的任务,有预先存在的工具。 – Aaron