2011-04-05 74 views
3

我有一个PDF文件。我想在那里搜索名字。打开PDF文件并在那里搜索名称

  1. 如何打开PDF并使用Ruby获取所有文本?
  2. 是否有任何算法来查找名称?
  3. 我应该使用什么作为搜索引擎:狮身人面像或更简单的东西(只是喜欢SQL查询)?

回答

3

棘手的问题。这些领域仍然处于语义网的研究领域。我只能建议一些曲目,但会想知道你明确的选择。

  1. 我会使用PDF阅读器:https://github.com/yob/pdf-reader

  2. 你可以使用一个布隆过滤器匹配一些字典。你会认为与词典不匹配的词是名字......并不总是现实的,但这是第一种方法。 为了获得更多的名字,你可以检查以大写字母开头的单词(不是很好,但我们继续寻找一些基本方法)。一些潜在的资源:http://snippets.dzone.com/posts/show/4235

  3. 对于您的搜索引擎,使用Rails的两个主要选择是Sphinx和SolR。

希望这有助于!

6

要在非结构化文本中查找正确的名称,您尝试解决的问题的技术名称是Named Entity Recognition或命名实体提取。有许多不同的自然语言工具包和研究论文实施各种算法来尝试解决这个问题。他们中的任何一个都不会获得完美的准确性,但它可能足够满足您的需求。我没有尝试过,但Stanford Named Entity Recognizer的网页有一个Ruby Bindings的链接。

+0

感谢这些链接,有用的资源! – apneadiving 2011-04-05 20:38:57