screen-scraping

1热度

1回答

尝试使用cheerio.js从此站点刮取威士忌名称，image_url和描述：https://www.thewhiskyexchange.com/c/33/american-whiskey?filter=true#productlist-filter。我想将这些信息转换成一个JSON对象数组来存储在我的MongoDB中。无法显示该网站的完整的HTML，但这里是无序列表的相关基础结构的一部分： <b

-2热度

1回答

如何使用Jsoup在此特定页面中登录？

我一直在试图登录到这个页面https://www.gpro.net/gb/gpro.asp与jsoup，我几乎把我所有的头发拉出来，它只是不起作用。这是我一直想： Connection.Response loginForm = Jsoup.connect("https://www.gpro.net/gb/gpro.asp") .method(Connection.Method.GE

-1热度

1回答

PHP点击时间计数器

我想制作一个点击时间计数器，以防止在我的网站上进行网页浏览。我的代码： session_start(); $user_ip = $_SERVER['REMOTE_ADDR']; $_SESSION['IP'] = $user_ip; if(empty($_SESSION['exists'])){ $_SESSION['clicks'] = 1; $_SESSIO

0热度

2回答

Python - 从网址抓取标题，但网址来自用户输入

我有一个Python代码，它返回BBC新闻报道的标题和第一段，但目前我必须提供链接。代码如下： from lxml import html import requests response = requests.get('http://www.bbc.co.uk/news/business-40660355') if (response.status_code == 200):

-3热度

2回答

Python监控网站的变化

我想登录到一个网站，获取数据，将其保存到一个文件，一段时间后获取新的数据，并与旧的（保存的）数据进行比较，并打印，如果事情已经改变。我怎么做？登录正在工作，但比较不是。为什么？预先感谢您！我的代码： # -*- coding: utf-8 -*- import urllib import urllib2 import cookielib import time def login

0热度

1回答

XPath在Chrome Inspect中运行，但不在PHP中

我试图在XPath中使用OR运算符，它适用于Chrome Inspect。但它使它无法在PHP上工作。没有OR运算符的初始XPath在PHP中工作得很好。这是初始的XPath： //h4[text()="Description"]/following-sibling::*[not(@class)][not(@style)] 这是改性的XPath //h4[text()="Descriptio

2热度

1回答

Beautifulsoup - 刮网页 - 动态加载

页我想刮一个网页：https://www.justdial.com/Mumbai/Dairy-Product-Retailers-in-Thane/nct-10152687 我需要所有的商店名称的数据，TEL-NUM和他们的地址但我只能做到这一点高达10 原因加载其他项目需要滚动网页我的代码： import requests import bs4 crawl_url = request

0热度

1回答

Web Crawler --- TypeError：强制为Unicode：需要字符串或缓冲区，找不到类型

我是新来的python。我已经制作了我自己的网络爬虫，这个爬虫应该是为了练习Yelp。我不断收到这个错误，似乎无法让过去的第一页： Traceback (most recent call last): File "<stdin>", line 1, in <module> File "<stdin>", line 26, in yelpSpider TypeErr

0热度

1回答

BeautifulSoup无法找到视频或某些div标签

我不知道为什么它不让我访问视频标签。我试图抓取视频源，但它不让我访问'视频'标签。 <video class="jw-video jw-reset" disableremoteplayback="" webkit- playsinline="" playsinline="" jw-loaded="data" src="randomsrc2" jw-played=""

0热度

2回答

过滤成特定类BeautifulSoup

我在做这样的事情使用BeautifulSoup： for name in soup.find_all('div','name'): 当我使用此过滤器，我的理解是，我会得到所有的div标签与属性或类名name 。但是，我不希望div标记的每个实例的属性为name。我想要在HTML文件的某个子树中找到它们的某些实例。更具体地说，标签<u1 class="list-box mb-3 spacer"