Q

维基百科API以文本格式获取特定搜索文本

2012-08-09 74 views 0 likes

0

我想将“United States of America”的所有内容都grep到没有图像的文本文件。我正在查看文本格式的回复。维基百科API以文本格式获取特定搜索文本

我该怎么做？我得到了这个网址构建：http://en.wikipedia.org/w/api.php?format=xml&action=query&titles=united_states&prop=revisions&rvprop=content

但我没有得到我想要的。也许我错过了一些基本的东西。

如何获得我在查询中给出的任何字符串的内容？请帮助我的网址。
我想在文本文件中有这个。我能以文本格式获得回复吗？除XML和JSON之外？
在美国的例子中，我想得到城市领先人口中心的第一列。是否有可能获得该信息（或）我应该使用解析器？

2012-08-09 The Learner

A

回答

2

如果你只需要文章的文本，action=raw比使用API简单得多：

http://en.wikipedia.org/wiki/United_States?action=raw&ctype=text/css

或

http://en.wikipedia.org/wiki/United_States?action=raw&ctype=text/css&templates=expand

（ctype=text/css是唯一重要的如果你想在浏览器中打开它。）

目前尚不清楚你在第3点讨论了什么，但是如果你想从表格中提取数据，最好的方法是获取渲染（HTML）内容并使用某种类型的DOM解析器（并保留一半注意Wikidata这会让事情在几个月内变得更简单）。

2012-08-09 22:56:18 Tgr

相关问题