web-crawler

    0热度

    1回答

    这是获取餐馆评论的代码。我正在收集评论。 指定并导入范围。但有一个问题。每家商店都有不同数量的评论。很少有评论的商店应该很快去下一个商店。 我受到的范围太大。但它不能缩小范围。这是因为一些商店在这个范围内有评论。 我该如何有效地工作? 我看到了所有?(元素)搜索此代码。但我不知道我是否错误地应用了我的代码。 #python3 import sys from bs4 import Beautif

    0热度

    1回答

    我在eclipse中配置了apache nutch 1.13和solr 5.5.0和hbase 0.90.6。现在,我可以从注入器运行这些作业,但在运行索引作业时会抛出错误“Missing elastic.cluster and elastic.host ....”。我在nutch-site.xml文件中的plugin.includes下设置了indexer-solr。但仍然得到这些错误。有人可以

    -2热度

    2回答

    我试图为scrapy建造一般铲运机 - 虽然它看起来有点儿车。这个想法是,它应该把网址作为输入,只从该特定的网址中删除网页,但它似乎要离开YouTube等网站。理想情况下,它也会有一个深度选项,它允许1,2 ,3等作为远离初始页面的深度链接数量。任何想法如何实现这一目标? from bs4 import BeautifulSoup from bs4.element import Comment

    0热度

    1回答

    我想做一个自定义的延迟,因为全局延迟在我的代码中是低效的。 因为我不知道我在寻找什么在这个线程:scrapy is slow (60 pages/min) 我决定最好把它作为一个新的问题。 基本上我有: amazon request API request API request 如果我使用DOWNLOAD_DELAY = 1 它就像有: amazon request delay(1)

    0热度

    1回答

    我让自己熟悉Apache Nutch和Solr的抓取,但是意识到尽管HTTP和HTTPS链接可用于Solr查询结果中,但content字段磁链接不是。我调整conf/regex-urlfilter.txt是 -^(file|ftp|mailto): # skip image and other suffixes we can't yet parse # for a more extensiv

    4热度

    1回答

    我想刮这个website上的数据表。 我检查这个页面的页面源码,这个表格在页面源码中不存在。 然后我检查网络信息刷新的网站时,似乎数据表通过发送POST请求到这个网址获得: http://datacenter.mep.gov.cn:8099/ths-report/report!list.action 然后我试图发送POST请求,只是没有什么用状态500. 我想知道有无论如何通过使用R刮这张表吗

    0热度

    1回答

    我得到一个像标题一样的错误。 Traceback (most recent call last): File "C:/2.py", line 40, in <module> reviews.append(reviews_info(div)) File "C:/2.py", line 21, in reviews_info review_text = div.find

    0热度

    1回答

    我想保存我的数据,编辑它,然后再次保存为同一个对象(它是一个字典?)。 我用yield {'Id':id,'Name':name,'Age':age}将数据保存为mongodb。 之后,我用下面的代码读出的数据: import scrapy import pymongo from pymongo import MongoClient class example(scrapy.Spider)

    1热度

    2回答

    我使用这个页面的所有类: https://www.google.com/search?q=ford+fusion+msrp&oq=ford+fusion+msrp&aqs=chrome.0.0l6.2942j0j7&sourceid=chrome&ie=UTF-8 我试图让这个元素:类=“_ XWK” page = HTTParty.get('https://www.google.com/sear

    0热度

    1回答

    我是一个编写网络爬虫的新手。我想使用http://www.creditchina.gov.cn/search_all#keyword=&searchtype=0&templateId=&creditType=&areas=&objectType=2&page=1的搜索引擎来检查我的输入是否有效。 例如,912101127157655762是有效输入,912101127157655760无效。 观察