web-crawler

    0热度

    1回答

    我想通过使用Scrapy抓取下面的链接下的网页。 http://nc.mofcom.gov.cn/channel/qytc2017/list.shtml?p_index=210000 当我试图抓取下一个页面, nc.mofcom.gov.cn/channel/qytc2017/list.shtml?p_index=210000 &页= 2 我是HREF到下一个页面中使用JavaScript编写。

    0热度

    1回答

    我正在尝试构建抓取页面上所有链接并将其添加到文件的网络抓取工具。 我的Python代码中包含执行以下操作的方法: - 打开一个给定的网页(urllib2的模块被使用) 检查该HTTP报头内容类型包含text/html 将原始HTML响应转换为可读代码并将其存储到html_string变量。 然后,它创建一个Link_Finder类,它具有属性基url(Spider_url)和page url(pa

    3热度

    1回答

    我刚刚在virtualenv中安装了scrapyd-client(1.1.0),并成功运行了命令'scrapyd-deploy',但是当我运行'scrapyd-client'时,终端说: :找不到命令:scrapyd-client。 根据自述文件(https://github.com/scrapy/scrapyd-client),应该有'scrapyd-client'命令。 我检查了路径'/lib

    0热度

    2回答

    我是Python和Scrapy的新手。我想从网站http://www.vodafone.com.au/about/legal/critical-information-summary/plans中提取信息,包括文件的链接,名称和有效的。 我试过这段代码,但它不起作用。如果有人能解释并帮助我,我将不胜感激。 这里是文件vodafone.py import scrapy from scrapy.l

    0热度

    2回答

    我使用CrawlSpider来抓取网站。该网站使用cookie检测我的蜘蛛。如果我禁用它们,它也会检测到我是一个机器人。那么如何在每个请求中使用新的cookie。 我的蜘蛛很简单: # -*- coding: utf-8 -*- import scrapy import requests from scrapy.spiders import CrawlSpider, Rule from s

    1热度

    1回答

    我使用Python和Selenium来测试店面的自定义选项,并注意到随着时间的推移,测试显着减慢。 具体来说,我网页上有多个<select>标签,其中每个标签都有若干<option>标签作为子标签。组合Ajax中的每个更改 - 查询一个新的价格,Selenium通过显式等待加载动画第一次出现然后消失,然后在切换到下一个选项之前等待。 由于我有5个不同的选择字段,每个选项有3-10个选项,整个测试需

    0热度

    1回答

    我正在开发一个Java程序,它需要一个URL到一个mp3音频,然后改变它的一些ID3标签。然后将URL返回给新文件。由于某些原因,我无法在本地计算机上执行此操作,因此我想使用this网站。现在我已经提交表单: <div id="urlForm"> <form onsubmit="return validate(this)" method="post" action="index.php"

    1热度

    2回答

    我想使用HTMLUnit将表单提交到this网站,但我在标题中看到错误。 这里是我的代码: try (final WebClient webClient = new WebClient(BrowserVersion.CHROME, "127.0.0.1", 57703)) { //webClient.getOptions().setThrowExceptionOnScriptError(

    -1热度

    1回答

    这是我在python中的代码。我可以提取href标签,而不是身体内部的内容。我应该使用get()命令还是“内容”或其他方法来使用“body”? import requests from bs4 import BeautifulSoup def web(): url='https://www.phoenixmarketcity.com/mumbai/brands' sour

    0热度

    1回答

    我的蜘蛛运行正常,我设法用例如这种代码行: logging.info( “网址MyCrawler建名单!”) 和输出信息到控制台例如 [root] INFO:MyCrawler构建的URL列表! 当运行蜘蛛,我得到许多种以下消息的: 2017年8月25日十三时40分15秒[scrapy.extensions.logstats] INFO:爬26 页(以2页/分),刮0的项目(在0件/分钟)的消息: