web-scraping

1热度

1回答

我是编程新手，我需要帮助。试图在golang上编写gitlab scraper。当我试图在多线程模式下获取有关项目的信息时，出现了一些问题。下面是代码： func (g *Gitlab) getAPIResponce(url string, structure interface{}) error { responce, responce_error := http.Get(url)

-1热度

1回答

获取...书面方式刮刀脚本

时yelp_soup没有定义，我发现了错误： yelp_soup is not defined when writting scraper script 我不知道为什么，这是代码从udemy过程中复制，但它为他们工作。这是为什么？这是链接，从那里我复制它作为最后的手段GitHub的，但不工作： https://github.com/codingforentrepreneurs/30-Days-o

1热度

2回答

欧元符号（Scrapy-Python）后刮的价值

我需要一个选择器刮欧元符号（\ u20ac）后的值。 <Selector xpath='//*[@class="col-sm-4"]/text()' data=u'\r\n\t\t \u20ac 30.000,00'> 我尝试了几十个变种，我在这里找到了stackoverflow和elsewere，但我不能得到它。边像https://regexr.com/告诉我这样的事情： respon

1热度

1回答

梦魇）调用立即评估后（）

考虑下面的代码片断： nightmare .evaluate(function (resolve){ setTimeout(function() { resolve(null, 1234); }, 1500) }) .then(function (result) { console.log('SUCCESS', res

0热度

1回答

非常简单的Scrapy +飞溅项目

我正在开发一个非常简单的Scrapy +飞溅项目来抓取JavaScript网站。这是我的代码： splashtest.py： import scrapy from scrapy_splash import SplashRequest class SplashSpider(scrapy.Spider): name = 'splash_spider' def start_r

1热度

2回答

从网站获取国家/地区ISO代码

我试图以CSV或JSON格式检索国家/地区的ISO代码。我的代码是如下： # ############################ $logFile = "$env:USERPROFILE\desktop\ISOCountry.log" Start-Transcript -Path $logFile -Append ####################################

0热度

1回答

如何将html表数据解析为swift中的字符串数组？

我正在开发一个iOS应用程序，我需要从swiftsoup库链接中解析html。我已经做了。但它将所有表格数据显示为一个字符串。我需要获取单独的数据，这些数据应该存储在单独的数组中。下面是表： <table width="880" border="1" cellspacing="0" cellpadding="0"> <tr> <td width="81"><strong

0热度

1回答

自动化谷歌播放音乐播放列表滚动与Python中的硒

因此，我试图自动滚动我的谷歌播放音乐播放列表，但它没有拿起，我什么都没有使用其他解决方案。正常滚动就像堆栈溢出一样，但我认为Google Music webapp使用了不同的东西。所以这是我到目前为止我的代码 from selenium import webdriver from selenium.webdriver.common.keys import Keys from selenium.

0热度

1回答

R网络扫描数据集

我想从联合国粮农组织网站（http://www.fao.org/countryprofiles/en/）建立一个数据集。在此页面中包含一组指向国家的链接。点击此链接的任何一个链接将导致包含国家/地区新闻的特定国家/地区的页面。这个想法是在数据集包括： Country name Country url (e.g. <http://www.fao.org/countryprofiles/ind

0热度

1回答

Scrapy下面的链接没有获取数据

我想要遵循链接列表和每个链接的废料数据与一个简单的scrapy蜘蛛，但我有麻烦。在scrapy shell中，当我重新创建脚本时，它发送新url的get请求，但是当我运行爬网时，我没有从链接中获取任何数据。我找回的唯一数据来自在链接前被抓到的起始网址。如何从链接中抓取数据？ import scrapy class QuotesSpider(scrapy.Spider):