2010-11-13 133 views
2

我期待在写一个混搭应用程序,将采取从提交版(Subreddit)职称和尝试基础上,他们很可能是有关在哪里他们绘制的地图,提取出一个国家的名字。我还想稍后在Twitter上添加诸如此类的内容。文本字符串

什么我有困难的规划是如何检测最有可能的是相关国家从标题。我的第一个猜测是有一个国家列表及其匹配的排列组合(例如“英格兰”匹配“英格兰”等),并检查文本中是否出现这些项目。但是,这可能会很慢,并且需要列出每个国家的所有格*名称。我打算在Python中这样做(以便学习使用它),所以我想知道是否存在a)一个能够做到这一点(并且我可以从中学习)的库或b)更多明显的方法来做到这一点?

为了让我在这里工作的输入类型的想法是一些样本,我想要摆脱他们:

  • “好了,他们不能逮捕我们所有人 - 给中指英国法律体系(PIC)“
    • 关键字:英国(英国)
  • ”民意调查:维基解密阿桑奇领先时代‘年度人物’ - 阿桑奇,一个澳大利亚人是谁在美国五角大楼附近发布有关伊拉克和阿富汗战争的军事秘密文件后,五角大楼的一个刺激分子截至周五收到了21,736张选票。“
    • 关键词:阿富汗,伊拉克,[澳大利亚](阿富汗,伊拉克,[澳大利亚]) - 澳大利亚将难以赶上了作为主要无关,但这是可以接受的,我的目的
  • “网络对诺贝尔和平奖网站发起攻击,保持优雅,中国。“
    • 关键字:中国(中国)
  • “犹太医生拒绝为患者动手术,发现患者的手臂纹身纳粹后走出手术室的。”
    • 关键词: - 我的目的

*这可能是一个错误的词来使用

+0

使用API​​可以获取提交的用户详细信息? – alex 2010-11-13 02:19:25

+0

Alex:我可能会在twitter上使用用户的geoloc信息,但在这种情况下,我基本上只用标题工作。我正在研究主题索引,它看起来和我上次读到的一样复杂:) – Ross 2010-11-13 02:29:50

+0

(1)s /所有格/形容词/(2)如何区分“英语”是指国家,语言,还是人民? – 2010-11-13 04:36:47

回答

3

你可以窥视Yahoo! Place Maker API

Placemaker提供可接受 地理浓缩的极大比例网页内容在地理位置上 相关但不是地理位置 可发现。与自由形式 文本提供的服务识别文中提到的地方 ,歧义消除那些 地方,并返回每个唯一标识符 (WOEIDs),以及有多少次 地方是在文本中发现 信息,并在文中找到 。由服务返回的WOEID 可以通过 传递给Yahoo!的GeoPlanet™API,以便进一步获得 地理丰富和发现。

+0

纠正我,如果我错了,但它看起来像你需要给他们一个地名,而不仅仅是在其中的地方名称的文本。无论我会在某处使用那个或Google的变体。 – Ross 2010-11-13 03:19:57

+2

它规定'提供自由形式的文本,该服务标识文本中提到的地方,消除这些地方的歧义,并在我的上述报价中返回唯一标识符,该报价又以雅虎的形式引用。页面本身。所以,我假设它实际上是将地名*收集在一个文本体中。 – 2010-11-13 03:25:20

0

在MySQL中使用全文搜索索引。然后使用AJAX调用来查询您的数据库。

+0

我知道这听起来很奇怪,但我想知道更多关于它是如何完成的,而不是实际完成它。此外,我不太确定,但这不代表我必须查询每个国家?我只想通过在标题上运行一个功能就能够知道哪个国家的故事与之相关。 – Ross 2010-11-13 03:31:03