web-scraping

    1热度

    1回答

    我是编程新手,我需要帮助。试图在golang上编写gitlab scraper。 当我试图在多线程模式下获取有关项目的信息时,出现了一些问题。 下面是代码: func (g *Gitlab) getAPIResponce(url string, structure interface{}) error { responce, responce_error := http.Get(url)

    -1热度

    1回答

    时yelp_soup没有定义,我发现了错误: yelp_soup is not defined when writting scraper script 我不知道为什么,这是代码从udemy过程中复制,但它为他们工作。这是为什么? 这是链接,从那里我复制它作为最后的手段GitHub的,但不工作: https://github.com/codingforentrepreneurs/30-Days-o

    1热度

    2回答

    我需要一个选择器刮欧元符号(\ u20ac)后的值。 <Selector xpath='//*[@class="col-sm-4"]/text()' data=u'\r\n\t\t \u20ac 30.000,00'> 我尝试了几十个变种,我在这里找到了stackoverflow和elsewere,但我不能得到它。 边像https://regexr.com/告诉我这样的事情: respon

    1热度

    1回答

    考虑下面的代码片断: nightmare .evaluate(function (resolve){ setTimeout(function() { resolve(null, 1234); }, 1500) }) .then(function (result) { console.log('SUCCESS', res

    0热度

    1回答

    我正在开发一个非常简单的Scrapy +飞溅项目来抓取JavaScript网站。这是我的代码: splashtest.py: import scrapy from scrapy_splash import SplashRequest class SplashSpider(scrapy.Spider): name = 'splash_spider' def start_r

    1热度

    2回答

    我试图以CSV或JSON格式检索国家/地区的ISO代码。我的代码是如下: # ############################ $logFile = "$env:USERPROFILE\desktop\ISOCountry.log" Start-Transcript -Path $logFile -Append ####################################

    0热度

    1回答

    我正在开发一个iOS应用程序,我需要从swiftsoup库链接中解析html。我已经做了。但它将所有表格数据显示为一个字符串。我需要获取单独的数据,这些数据应该存储在单独的数组中。 下面是表: <table width="880" border="1" cellspacing="0" cellpadding="0"> <tr> <td width="81"><strong

    0热度

    1回答

    因此,我试图自动滚动我的谷歌播放音乐播放列表,但它没有拿起,我什么都没有使用其他解决方案。正常滚动就像堆栈溢出一样,但我认为Google Music webapp使用了不同的东西。所以这是我到目前为止我的代码 from selenium import webdriver from selenium.webdriver.common.keys import Keys from selenium.

    0热度

    1回答

    我想从联合国粮农组织网站(http://www.fao.org/countryprofiles/en/)建立一个数据集。 在此页面中包含一组指向国家的链接。 点击此链接的任何一个链接将导致包含国家/地区新闻的特定国家/地区的页面。 这个想法是在数据集包括: Country name Country url (e.g. <http://www.fao.org/countryprofiles/ind

    0热度

    1回答

    我想要遵循链接列表和每个链接的废料数据与一个简单的scrapy蜘蛛,但我有麻烦。 在scrapy shell中,当我重新创建脚本时,它发送新url的get请求,但是当我运行爬网时,我没有从链接中获取任何数据。我找回的唯一数据来自在链接前被抓到的起始网址。 如何从链接中抓取数据? import scrapy class QuotesSpider(scrapy.Spider):