web-crawler

    0热度

    1回答

    我是Python新手。我想要做的是使用Webhose.io API将Web数据抓取成Json格式。每个查询会给我5篇文章/文章。我正在尝试为数据集获取1000篇文章。 Webhose可以免费注册,每月免费提供1000个请求,所以这应该足以获取数据集。 我的代码目前looke这样的: import webhoseio, json, io webhoseio.config(token="YOUR

    1热度

    1回答

    我是Jsoup解析的新手,我想要获得本页面上所有公司的列表: 现在,一种方法是使用div标签检查页面与我需要的相关。 然而,当我打电话的方法: Document doc = Jsoup.connect("https://angel.co/companies?company_types[]=Startup").get(); System.out.println(doc.html()); 首先,

    -2热度

    2回答

    Why do inner text is not active Here is HTML code [这里是HTML代码] <ul class="product"> <li class="product col-md-4 col-sm-4 col-xs-6 "><div class="product-header"> <a href="/so-mi-octopus-xanh-soc-trang

    0热度

    1回答

    我在使用Nutch抓取时遇到了一些问题。我跟着教程从here但错误: " /home/apache-nutch-2.3.1/runtime/local/bin/nutch inject urls/seed.txt -crawlId TestCrawl Failed with exit value 1. " 任何人都可以提供指导给我参考如何在窗口中正确使用Nutch的?

    0热度

    1回答

    我在一个函数中创建了一个小型web爬虫,upso_final。 如果我print(upso_final()),我得到15个名单,包括标题,地址,电话号码。不过,我只想打印出标题,所以我使用变量标题为全局字符串。当我打印它时,我只能得到1个标题,这是最后一个标题。我想获得全部15个冠军。 from __future__ import unicode_literals import request

    0热度

    1回答

    我有一个JSON版本DOM树的,我想只保留页面之间的差异(除去导航页脚...) 例子: const a = { id: '1', child: [ { id: '2', child: [{id: '1'}, {id: '2'}] }, { id: '3', child: [{id: '1

    0热度

    1回答

    我的python版本是3.6.3。而我的操作系统是WIN7。 我现在正在从以下网站提取中国人物: https://crl.ptopenlab.com:8800/poem/show?3&%25E5%258F%2591%25E7%2594%259F&A718FCB2-CE47-4649-BB46-0E09B169FD59 我想提取的元素嵌入HTML代码如下字符: <div id="poemconten

    0热度

    1回答

    我想要获取的网址数量在SitemapSpider之间。我试图覆盖start_requests方法,但它打印0.我有一个sitemap_url其中包含数千个网址。我想得到这些网址的数量。 这是我尝试过的,但我想从站点地图的Url不在start_urls。 class MainSpider(SitemapSpider): name = 'main_spider' allowed_d

    0热度

    1回答

    的HTML代码,我试图用得到网页的HTML代码,它的URL。我写了下面的代码,它的工作原理,但比较结果字符串,它不匹配我使用谷歌浏览器检查时看到的代码。我不是HTML gru,但它似乎有所不同。 HttpWebRequest request = (HttpWebRequest)WebRequest.Create("https://fantasy.premierleague.com/a/league

    0热度

    1回答

    我是Scrapy的新手,目前我正在尝试编写一个CrawlSpider来抓取Tor darknet上的论坛。目前我CrawlSpider代码: import scrapy from scrapy.spiders import CrawlSpider, Rule from scrapy.linkextractors import LinkExtractor class HiddenAnswer