screen-scraping

    1热度

    1回答

    尝试使用cheerio.js从此站点刮取威士忌名称,image_url和描述:https://www.thewhiskyexchange.com/c/33/american-whiskey?filter=true#productlist-filter。我想将这些信息转换成一个JSON对象数组来存储在我的MongoDB中。无法显示该网站的完整的HTML,但这里是无序列表的相关基础结构的一部分: <b

    -2热度

    1回答

    我一直在试图登录到这个页面https://www.gpro.net/gb/gpro.asp与jsoup,我几乎把我所有的头发拉出来,它只是不起作用。 这是我一直想: Connection.Response loginForm = Jsoup.connect("https://www.gpro.net/gb/gpro.asp") .method(Connection.Method.GE

    -1热度

    1回答

    我想制作一个点击时间计数器,以防止在我的网站上进行网页浏览。 我的代码: session_start(); $user_ip = $_SERVER['REMOTE_ADDR']; $_SESSION['IP'] = $user_ip; if(empty($_SESSION['exists'])){ $_SESSION['clicks'] = 1; $_SESSIO

    0热度

    2回答

    我有一个Python代码,它返回BBC新闻报道的标题和第一段,但目前我必须提供链接。代码如下: from lxml import html import requests response = requests.get('http://www.bbc.co.uk/news/business-40660355') if (response.status_code == 200):

    -3热度

    2回答

    我想登录到一个网站,获取数据,将其保存到一个文件,一段时间后获取新的数据,并与旧的(保存的)数据进行比较,并打印,如果事情已经改变。我怎么做?登录正在工作,但比较不是。为什么? 预先感谢您! 我的代码: # -*- coding: utf-8 -*- import urllib import urllib2 import cookielib import time def login

    0热度

    1回答

    我试图在XPath中使用OR运算符,它适用于Chrome Inspect。但它使它无法在PHP上工作。没有OR运算符的初始XPath在PHP中工作得很好。 这是初始的XPath: //h4[text()="Description"]/following-sibling::*[not(@class)][not(@style)] 这是改性的XPath //h4[text()="Descriptio

    2热度

    1回答

    页 我想刮一个网页:https://www.justdial.com/Mumbai/Dairy-Product-Retailers-in-Thane/nct-10152687 我需要所有的商店名称的数据,TEL-NUM和他们的地址 但我只能做到这一点高达10 原因加载其他项目需要滚动网页 我的代码: import requests import bs4 crawl_url = request

    0热度

    1回答

    我是新来的python。 我已经制作了我自己的网络爬虫,这个爬虫应该是为了练习Yelp。 我不断收到这个错误,似乎无法让过去的第一页: Traceback (most recent call last): File "<stdin>", line 1, in <module> File "<stdin>", line 26, in yelpSpider TypeErr

    0热度

    1回答

    我不知道为什么它不让我访问视频标签。 我试图抓取视频源,但它不让我访问'视频'标签。 <video class="jw-video jw-reset" disableremoteplayback="" webkit- playsinline="" playsinline="" jw-loaded="data" src="randomsrc2" jw-played=""

    0热度

    2回答

    我在做这样的事情使用BeautifulSoup: for name in soup.find_all('div','name'): 当我使用此过滤器,我的理解是,我会得到所有的div标签与属性或类名name 。 但是,我不希望div标记的每个实例的属性为name。我想要在HTML文件的某个子树中找到它们的某些实例。更具体地说,标签<u1 class="list-box mb-3 spacer"