named-entity-extraction

    0热度

    1回答

    我想解析包含时间,地点和名称的网页中的实体。我读了一些关于自然语言处理和实体提取的内容,但我不确定我是否正走向错误的道路,所以我在这里问。 我还没有开始实现任何东西,所以如果某些开源库仅适用于特定语言,那没关系。 很多倍的数据不会在句子中找到,而是像列表HTML的结构(例如 2013年2月1日 - 事件的名称 - 竞技场名称 )。 网页的结构将大不相同(有些可能使用列表,有些可能会将它们放在表格中

    1热度

    1回答

    我使用Vowpal Wabbit的python API来训练名称实体识别分类器,以从短句子中检测人员,组织和位置的名称。我已经编制了一份IPython Notebook,详细介绍了数据,如何训练模型以及评估句子中的实体。培训数据来自ATIS和CONLL 2003数据集。 我Vowpal Wabbit SearchTask类(基于this tutorial)的设置: class SequenceLa

    19热度

    3回答

    最近我一直试图用斯坦福核心NLP训练n-gram实体。我遵循以下教程 - http://nlp.stanford.edu/software/crf-faq.shtml#b 使用此功能,我只能指定单字符标记及其所属的类。任何人都可以引导我,让我可以将它扩展到n-gram。我试图从聊天数据集中提取已知的实体,如电影名称。 如果我错误地解释了斯坦福教程并且可以用于n-gram培训,请指导我。 什么我坚持

    0热度

    1回答

    我试图使用Apache Tika解析一些文档(如文件类型中列出的)。这是我在Python中的代码。 auth = urllib2.HTTPPasswordMgrWithDefaultRealm() auth.add_password(None, url, user, password) urllib2.install_opener(urllib2.build_opener(urllib2.HT

    -1热度

    2回答

    我目前正在学习项目中从个人简历中提取个人姓名。 目前,我正在与斯坦福大学NER和OpenNLP合作,这两种方法在开箱即用方面都取得了一定的成功,倾向于在“非西方”类型名称(没有针对任何人的攻击)上挣扎。 我的问题是 - 定的普遍缺乏句子结构或上下文相对于一个人的名字在CV /简历,我是可能获得通过创建一个CV语料库一些类似于在名称标识任何显著的改善? 我最初的想法是,我可能有一句分裂一个更大的成功

    0热度

    1回答

    我有一个超过200万名称,阶段,位置等数据库/字典。示例数据如下: “A person who never made a mistake never tried anything new” “Nelson Mandela” “United States of America” “I didn't attend the funeral, but I sent a nice letter

    10热度

    3回答

    什么是从自由文本中提取位置的推荐方法? 我能想到的是使用正则表达式规则,比如“位置中的单词...”。但是有没有比这更好的方法? 另外我可以想象有一个国家和城市名称的查找哈希表,然后比较每个从文本提取的标记到哈希表。 有没有人知道更好的方法? 编辑:我试图从推文文本中提取位置。因此,大量推文的问题也可能影响我对方法的选择。

    1热度

    1回答

    如何链接条款(关键字实体)其中有一些关系其中通过文本文件。示例是google当您搜索某个人时,它显示建议其他与该人相关的人。 在这张照片想通了配偶,总统候选人,并等于指定 我使用频率计数技术。 出现在同一文件中的越多,它们之间的关系就越有可能。但是,这也会在文本文档中链接无关的术语,如页面标记,动词和页面回复。 我应该如何改进它,是否还有其他简单但可靠的技术?

    2热度

    2回答

    我试图使用斯坦福NLP实现NER(命名实体提取)。 的最终目标是将自由文本转换为查询格式。 我创建了一个自定义词典和我能够提取的实体,并建立查询 people who are from newyork 我将建立查询 select * from people where region = 'newyork' 但在声明中被否定 人谁的问题来不是从纽约 如何从这个声明中提取负面情况,有没有任何

    0热度

    1回答

    我刚开始使用NLTK,我认为我需要完成的任务非常简单。 我需要解析一些文档,并提取对某些实体的情绪。例如以下句子的整体情绪: Tea is great. However, I hate coffee. 是负数,但我想提取单个预定义实体的情绪。特别是,在前面的例子中,我想用我的实体('tea', 'coffee')来提供NLTK,并能够分别提取sentiment('tea')和sentiment