我期待在写一个混搭应用程序,将采取从提交版(Subreddit)职称和尝试基础上,他们很可能是有关在哪里他们绘制的地图,提取出一个国家的名字。我还想稍后在Twitter上添加诸如此类的内容。文本字符串
什么我有困难的规划是如何检测最有可能的是相关国家从标题。我的第一个猜测是有一个国家列表及其匹配的排列组合(例如“英格兰”匹配“英格兰”等),并检查文本中是否出现这些项目。但是,这可能会很慢,并且需要列出每个国家的所有格*名称。我打算在Python中这样做(以便学习使用它),所以我想知道是否存在a)一个能够做到这一点(并且我可以从中学习)的库或b)更多明显的方法来做到这一点?
为了让我在这里工作的输入类型的想法是一些样本,我想要摆脱他们:
- “好了,他们不能逮捕我们所有人 - 给中指英国法律体系(PIC)“
- 关键字:英国(英国)
- ”民意调查:维基解密阿桑奇领先时代‘年度人物’ - 阿桑奇,一个澳大利亚人是谁在美国五角大楼附近发布有关伊拉克和阿富汗战争的军事秘密文件后,五角大楼的一个刺激分子截至周五收到了21,736张选票。“
- 关键词:阿富汗,伊拉克,[澳大利亚](阿富汗,伊拉克,[澳大利亚]) - 澳大利亚将难以赶上了作为主要无关,但这是可以接受的,我的目的
- “网络对诺贝尔和平奖网站发起攻击,保持优雅,中国。“
- 关键字:中国(中国)
- “犹太医生拒绝为患者动手术,发现患者的手臂纹身纳粹后走出手术室的。”
- 关键词:无 - 我的目的
*这可能是一个错误的词来使用
使用API可以获取提交的用户详细信息? – alex 2010-11-13 02:19:25
Alex:我可能会在twitter上使用用户的geoloc信息,但在这种情况下,我基本上只用标题工作。我正在研究主题索引,它看起来和我上次读到的一样复杂:) – Ross 2010-11-13 02:29:50
(1)s /所有格/形容词/(2)如何区分“英语”是指国家,语言,还是人民? – 2010-11-13 04:36:47