web-crawler

4热度

2回答

Scrapy CrawlSpider + Splash：如何通过linkextractor关注链接？

我有以下的代码，部分工作， class ThreadSpider(CrawlSpider): name = 'thread' allowed_domains = ['bbs.example.com'] start_urls = ['http://bbs.example.com/diy'] rules = ( Rule(LinkExtractor(

2热度

2回答

可以使用Selenium WebDriver进行自动化网页爬行会有危险吗？

我想爬一组从URL生成器收到的随机的网站，使用Selenium的ChromeDriver与Crawljax做对捕获的DOM状态静态代码分析。是机器做爬行这种潜在的不安全？我担心的是随机生成的一个网站是恶意和JavaScript从ChromeDriver的执行（这是用来捕捉新的DOM州）感染运行测试莫名其妙的机器。我应该在某种沙箱环境中运行吗？ - 编辑 - 如果它的事项，履带完全用Java实现

1热度

3回答

GoLang刮板。如何在网站上动态生成链接？

我试图抓取产品视频链接（它是由另一个Web服务动态生成的，位置在左侧的产品图像下）。您可以查看以下链接， https://www.tokopedia.com/chocoapple/ready-stock-bnib-iphone-128gb-7-plus-jet-black-garansi-apple-1-tahun-10?src=topads 谷歌浏览器“检查元素”显示div标签。但是相同的标签不

0热度

1回答

数据抓取从LinkedIn

我试图抓取来自LinkedIn，其使用个人数据抓取实践数据。但是我无法在没有登录的情况下抓取数据。所以我用了两种方法来模拟登录。一种方法是从HttpClient获取cookie，它将尝试进行模拟登录以获取cookie。另一种是直接添加cookie。但我都失败了。我不知道原因。我使用Framework Webmagic进行数据爬行。通常，直接添加Cookie将是一个简单的方法。但我不知道我是否添加

0热度

1回答

调试风暴履带

如何调试风暴爬行？我的意思是你写了一些模块，你想检查它。你可以编写单元测试，但你想在系统上检查它（可能是本地系统），你怎么做？我想Julien会正确回答这个问题。

1热度

2回答

刮板无法打印所有结果

我已经在Python中编写了一个脚本，用于从craigslist中删除五个项目的“名称”和“电话”。我面临的问题是，当我运行我的脚本时，它只给出三个结果而不是五个结果。更具体地说，由于前两个链接在他们的页面中没有附加链接（联系信息），所以他们不需要再打开任何附加页面的请求。然而，没有（联系信息）链接的这两个链接无法通过我的第二个函数中的“if ano_page_link：”语句渗透并且从不打印。我

1热度

1回答

Chromedp软件包：如何获取已使用chromedp动态加载内容的网页的更新HTML源代码

我想抓取网页上的视频链接，https://www.tokopedia.com/chocoapple/ready-stock-bnib-iphone-128gb-7-plus-jet-black-garansi-apple-1-tahun-10?src=topads 有些链接是通过“webyclip”在加载页面后加载数据的服务。在加载所有JavaScript和AJAX后，我想要更新页面的HTML源代

2热度

1回答

scrapy无法提交表格

这是我要刮的网页： http://www.nalpdirectory.com/Page.cfm?PageID=34。我想模拟提交表单#resultDisplayOptionsForm与#customDisplayNum设置为全部，这将带给我一个网页与所有列出的项目。这是我的代码片段： def parse(self, response): yield scrapy.FormRequest

3热度

1回答

只能通过id找到，而不能通过班级找到BeautidulSoup4（Python3.x）

我是BeautifulSoup4的新手，并且遇到了一个似乎很基本的问题。我只能通过身份证找到，但不能按班上课。例如，我在看它有HTML在它下面的部分站点：现在，以下工作： page_soup.findAll('div', {'id': 'page-content'}) 而下面发现什么： page_soup.findAll('div', {'class': 'main-container'})

0热度

1回答

python web抓取：onclick ajax请求返回没有状态200

我想从网站刮表数据。我想要的数据是隐藏在onclick事件的后面。 <a class="text" onclick="javascript:openPAOnSR_RS('some_sku', 'brandname','divId', 'some_args','OPC Page Details');cmTagAndLink('Open Link','OPC Page Details',null,nu