我正在处理分类任务,我们正在构建检测文本范围(即注释)中存在的实体类型的模型。使用命名实体数据集
- 上下文前:注释之前文档文本这些模型可以用其中每个实例是由三个独立的文本变量表示的数据集来构建。
- 注释:我们想要检测实体类型的文档范围。如果不存在实体,则所有实体类型列(isPerson,isOrganization,isTime)都标记为0
- 后上下文:文档文本注释之后。
数据集1:文本跨度中的实体类型分类。
preContext | annotation | postContext | isOrganization | isPerson | isTime
.... | on July 12, 2011 | .... | 0 | 0 | 1
With over 8 | million invested | in Chrysler | 0 | 0 | 0
数据集2:边界检测 - “启动的实体”
在第一示例中,preContext和文字之间的过渡标志着一个组织型实体的开始。在第二个示例中,preContext和text之间的过渡不存在实体,因此所有从属变量列都标记为零。
preContext | text
| isStartOfOrganization | isStartOfPerson | isStartOfTime
Private equity firm | Westbridge Capital could exit part or all of its stake in Hyderabad-based technology firm.
| 1 | 0 | 0
我被使用基本NLP技术如TF/IDF,N-克,断词,词干,POS标记加注者,非索引字表对上述问题。但我现在真正想做的是尝试一些除了我尝试过的新技术。这是我的问题,我无法找到任何有效的技术。如果你能建议我这将是伟大的,唯一的方法来获得更大的收益是开始思考超越! 你能否建议我解决上述问题的一些新技术?
为了更好地理解它,我已经重新设置了这个问题的格式。但我仍然不确定你想知道的是什么。您描述了名称实体注释的两种格式,并且您正在寻找问题的解决方案,但我不明白这是什么问题。 – jogojapan 2013-05-09 00:57:43
抱歉jogojapan。我编辑了我的问题,并重寄希望它会帮助你理解。 – 2013-05-09 04:54:42
这两个数据集的格式与问题无关,是吗?你基本上在问:有什么技术来检测人名,组织名称和时态表达?正确? (如果是这样,这个问题可能太宽泛,太开放了,对于Stackoverflow。) – jogojapan 2013-05-09 05:15:52