beautifulsoup

    -1热度

    2回答

    语境 我试图刮掉公司网站(我有权限),并从他们的工作部分岗位刮网站和其他URL的内容。 所有职位都在第一页(目录)上列出了高层次的详细信息,但职位的详细信息位于独特的URL上。我想让我的刮刀能够识别目录中的相关位置,然后刮去独特的网址。 代码我迄今 import requests from bs4 import BeautifulSoup url = "http://implementcon

    1热度

    2回答

    我想解析这个“<a href="javascript:8==99999?popDuelloDialog(2754288):popTeam(2386)">Gnistan</a>”并提取文本。 我试图提取很多,但我无法成功。 我不知道如何建立一个这种格式的方法“javascript comes”:(numbers)“这是不重复的,所以我需要这样一种方法,将只使用重复的部分,并将提取文本在主体中 我的代

    1热度

    1回答

    我试图使用Python的BeautifulSoup和请求从巴西最高法院刮取数据。 144个链接中的每一个最后都有一个介于1和3之间的数字(例如:http://www.stf.jus.br/portal/remuneracao/listarRemuneracao.asp?periodo=012007&ano=2007&mes=01&folha=3)。 'folha'(表单,葡萄牙语)部分没有任何模式

    1热度

    1回答

    我觉得这在我检查的网站 <a data-bind="attr: { 'href': bandURL }, text: artist, click: playMe" class="item-artist" href="https://bogseyandtheargonauts.bandcamp.com? from=discover-top">Bogsey</a> 当我刮我只得到这个 <a c

    -1热度

    1回答

    我想抓取以下网站的URL搜索引擎。不过,我只收回部分内容。 from urllib.request import urlopen as uReq from bs4 import BeautifulSoup my_url = 'https://www.kvk.nl/zoeken/#!zoeken&q=ING&index=4&site=kvk2014&start=0' uClient = uRe

    1热度

    3回答

    我用Chromedriver下载该文件,然后我想解析"chrome://downloads"获取下载状态,但是我无法获取字符串,请参考下面的代码和结果。我也在Chrome中检查了HTML。我可以看到<span id="name">Noto-hinted (1).zip</span>,但是如果我使用view page source,我找不到字符串"Noto-hinted (1).zip"。这是<sp

    1热度

    1回答

    如何在'08 -29'和'10:15'这样的每个日期和时间下使用循环进行换行,以便将结果从零件分离出来。 import requests from bs4 import BeautifulSoup headers = { 'User-Agent': "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.1 (KHTML, like

    0热度

    1回答

    以外提取HTML数据我有嵌入在电子邮件中的HTML数据。到目前为止,数据一直在表格中,但是,这次它不在表格中,所以我正在努力捕获所有数据。 下面是数据如何显示在电子邮件: 这里是HTML代码: </o:shapelayout></xml><![endif]--></head> <body lang=EN-US link=blue vlink=purple> <div class=WordSec

    0热度

    1回答

    我是BeautifulSoup的新手,并且试图从页面中抓取数据,该页面中有一部分可以通过浏览页面的人最小化。当我查看页面的HTML代码时,发现下面是这样的。 要提取表中的数据,我使用下面的代码,但我无法从表中提取数据。 webpage = "www.webpage.com" webOpen = urllib2.urlopen(webpage).read() webSoup = Beautifu

    1热度

    1回答

    Python的刮板带来的只有1项... 大家好我是比较新的蟒蛇和幸福我做了一个脚本报废我国的分类页面之一。到目前为止,剧本似乎只能抓住一件真正让我疯狂的东西,因为我一直试图修复它一个星期,而且我真的不知道任何人都可以提供帮助。我很感激,如果任何人都可以看看,并试图解释我在这里所做的事情是什么样的。在此先感谢任何可以帮助的人! from urllib.request import urlopen a