beautifulsoup

    0热度

    1回答

    我尝试解析页ozon.ru 解析和我有一些问题。 我应该滚动页面,然后获取所有html代码。 但我滚动页面,高度正在改变,但解析的结果是错误的,因为它只返回第一页的结果。 我不明白,我应该更新页面的html代码,我该怎么做? def get_link_product_ozon(url): chromedriver = "chromedriver" os.environ["web

    0热度

    1回答

    我正在解析具有许多超链接的网页。能够通过查找<a>标签中的所有'href'来使用美丽优点提取超链接。接下来,我试图获取所有这些链接的“标题”,这些链接显示为标签的标签内容。 [HTML新手,我认为这个尾部描述被称为标记内容吗?]下面是一个例子。字符串'哪种课堂设置适合您?'需要提取。感谢帮助。 <a href="https://www.nytimes.com/video/education/100

    0热度

    2回答

    所以我想使用BeautifulSoup和Python第一次做网页抓取。我试图刮掉页面是:http://vesselregister.dnvgl.com/VesselRegister/vesseldetails.html?vesselid=34172 client = request('http://vesselregister.dnvgl.com/VesselRegister/vesseldeta

    -1热度

    3回答

    随着BeautifulSoul和Python类,我想find_all所有tr项目匹配包含多个名字,像一个给定的类属性这一个: <tr class="admin-bookings-table-row bookings-history-row paid "> 我曾尝试多种方法来匹配类。正则表达式,通配符,但我总是得到一个空的列表。 有什么方法可以使用正则表达式,通配符或如何匹配这个类? 发布了相同

    1热度

    1回答

    我试图从本文中提取文章文本(https://www.vanityfair.com/style/society/2014/06/monica-lewinsky-humiliation-culture)并排除底部的合法容器。文本部分看起来很容易,但似乎无法摆脱容器。我已将它与法律变量分开以便于使用。 这里是我到目前为止的代码: import requests from bs4 import Beau

    0热度

    1回答

    我有一个网页,其中包含以下数据,我想在该网页的CData部分中进行刮擦。 <script type="text/javascript">//<![CDATA[ car.app = {"lat":26.175625,"lon":-80.13808,"zoom":"13","yellow":"\/img\/icons\/yellow.png","cars":[{"CAR_ID":"71538

    1热度

    3回答

    这是一个网页的HTML源代码的一部分: <a href="http://www.abcde.com"> <img style="width:100%" src="/FileUploads/B/763846f.jpg" alt="search" title="search" /></a> <a id="parts_img01" href="/Result?s=9&type=%E4&

    0热度

    2回答

    <replace-add>,我不知道你知道导致</replace-add>我可以帮你<replace-del>说哦</replace-del><replace-add>我们</replace-add>感谢,所以我刚刚从</replace-add>我的女儿<replace-del> tenah代尔</replace-del><replace-add>明确可怕</replace-add> 建立一个骑

    0热度

    1回答

    我试图从表格行取得工具提示,但它返回无。 请看看我的代码,我为此尝试。 <tr onmouseover="this.originalstyle=this.style.backgroundColor;this.style.backgroundColor='DodgerBlue';this.originalcolor=this.style.color;this.style.color='White';

    1热度

    1回答

    我必须使用网页抓取登录网页,但它也需要解决验证码。我能够解决验证码。我有问题持续会议。 session = requests.Session() html = session.get(url).content soup = bs(html, 'html.parser') name = soup.find('input', attrs={'id':some_id1}) pass = soup