我想找到一种方法来获取所有传入链接到维基百科页面(从维基百科内的其他页面)的锚文本。我已经阅读了一些已经完成了这些信息实验的论文(例如http://web2py.iiit.ac.in/research_centres/publications/download/inproceedings.pdf.809e1550d80bca59.4d756c7469446f635f53756d6d6172697a6174696f6e5f46696e616c2e706466.pdf) ,但他们似乎没有解释他们如何获得这些信息。我知道有一种资源叫做YAGO,它提供了链接到相关页面的维基百科页面,但似乎没有提供锚文本。任何人都可以提出一种获取这些信息的方式吗获取Wikipedia锚文本
1
A
回答
0
0
更详细的信息,你可以做的是:
- 下载维基百科从https://dumps.wikimedia.org/enwiki/转储文件。选择
latest
,然后选择enwiki-latest-pages-articles.xml.bz2 - 清理维基百科转储文件https://github.com/attardi/wikiextractor。使用标记
l, --links
保留链接
现在,您已经清除了包含锚文本的纯文本维基百科纯文本。使用任何编程语言,您可以解析这些文件并提取锚文本。
相关问题
- 1. 在MQL中获取Wikipedia ID
- 2. 使用javascript获取锚标记文本
- 3. 如何使用DomDocument获取锚文本?
- 4. 从锚标记获取文本
- 5. 获取文本写在锚标记
- 6. 如何获取Wikipedia文章的所有XML修订版本?
- 7. 获取随机Wikipedia提取与Ajax
- 8. 获取锚父
- 9. php Wikipedia API JSON获取页面ID
- 10. Wikipedia API:按时间表获取修订
- 11. 提取锚文本周围的文字
- 12. 如何获取维基百科页面的HTML内容文本(通过Wikipedia API)?
- 13. jQuery获取锚值
- 14. 使用NSScanner获取Wikipedia文章摘要问题
- 15. 如何获取指定类别的wikipedia文章列表?
- 16. 使用Python从Wikipedia html中提取文本
- 17. 获取ckeditor文档中的锚点
- 18. 如何获取锚点DOMElement的值/文本?
- 19. Xpath表达式获取href。不只是锚文本
- 20. PHP preg_replace链接获取href和锚文本并连接它
- 21. 如何通过锚文本获取对象?
- 22. 从RSS中提取的锚文本
- 23. 锚文本注释
- 24. 旋转锚文本?
- 25. 获取锚索引/散列
- 26. 使用jQuery获取锚值
- 27. 从父锚获取href HtmlUnit
- 28. preg_replace带锚文本的href锚点
- 29. 获取文本
- 30. 获取文本值
也许他们已经简单地下载了转储并解析了文件以提取链接。 – Bergi 2014-10-03 01:01:35
你可以(并且在这种情况下**应该**)总是问作者。他们的联系信息在论文中。也许他们甚至会给你发送他们的数据! – Bergi 2014-10-03 01:10:10