web-crawler

    4热度

    2回答

    我有以下的代码,部分工作, class ThreadSpider(CrawlSpider): name = 'thread' allowed_domains = ['bbs.example.com'] start_urls = ['http://bbs.example.com/diy'] rules = ( Rule(LinkExtractor(

    2热度

    2回答

    我想爬一组从URL生成器收到的随机的网站,使用Selenium的ChromeDriver与Crawljax做对捕获的DOM状态静态代码分析。 是机器做爬行这种潜在的不安全? 我担心的是随机生成的一个网站是恶意和JavaScript从ChromeDriver的执行(这是用来捕捉新的DOM州)感染运行测试莫名其妙的机器。我应该在某种沙箱环境中运行吗? - 编辑 - 如果它的事项,履带完全用Java实现

    1热度

    3回答

    我试图抓取产品视频链接(它是由另一个Web服务动态生成的,位置在左侧的产品图像下)。您可以查看以下链接, https://www.tokopedia.com/chocoapple/ready-stock-bnib-iphone-128gb-7-plus-jet-black-garansi-apple-1-tahun-10?src=topads 谷歌浏览器“检查元素”显示div标签。但是相同的标签不

    0热度

    1回答

    我试图抓取来自LinkedIn,其使用个人数据抓取实践数据。但是我无法在没有登录的情况下抓取数据。所以我用了两种方法来模拟登录。一种方法是从HttpClient获取cookie,它将尝试进行模拟登录以获取cookie。另一种是直接添加cookie。但我都失败了。我不知道原因。 我使用Framework Webmagic进行数据爬行。通常,直接添加Cookie将是一个简单的方法。但我不知道我是否添加

    0热度

    1回答

    如何调试风暴爬行? 我的意思是你写了一些模块,你想检查它。你可以编写单元测试,但你想在系统上检查它(可能是本地系统),你怎么做? 我想Julien会正确回答这个问题。

    1热度

    2回答

    我已经在Python中编写了一个脚本,用于从craigslist中删除五个项目的“名称”和“电话”。我面临的问题是,当我运行我的脚本时,它只给出三个结果而不是五个结果。更具体地说,由于前两个链接在他们的页面中没有附加链接(联系信息),所以他们不需要再打开任何附加页面的请求。然而,没有(联系信息)链接的这两个链接无法通过我的第二个函数中的“if ano_page_link:”语句渗透并且从不打印。我

    1热度

    1回答

    我想抓取网页上的视频链接,https://www.tokopedia.com/chocoapple/ready-stock-bnib-iphone-128gb-7-plus-jet-black-garansi-apple-1-tahun-10?src=topads 有些链接是通过“webyclip”在加载页面后加载数据的服务。在加载所有JavaScript和AJAX后,我想要更新页面的HTML源代

    2热度

    1回答

    这是我要刮的网页: http://www.nalpdirectory.com/Page.cfm?PageID=34。我想模拟提交表单#resultDisplayOptionsForm与#customDisplayNum设置为全部,这将带给我一个网页与所有列出的项目。 这是我的代码片段: def parse(self, response): yield scrapy.FormRequest

    3热度

    1回答

    我是BeautifulSoup4的新手,并且遇到了一个似乎很基本的问题。我只能通过身份证找到,但不能按班上课。例如,我在看它有HTML在它下面的部分站点: 现在,以下工作: page_soup.findAll('div', {'id': 'page-content'}) 而下面发现什么: page_soup.findAll('div', {'class': 'main-container'})

    0热度

    1回答

    我想从网站刮表数据。我想要的数据是隐藏在onclick事件的后面。 <a class="text" onclick="javascript:openPAOnSR_RS('some_sku', 'brandname','divId', 'some_args','OPC Page Details');cmTagAndLink('Open Link','OPC Page Details',null,nu