html-parsing

0热度

1回答

是否有一个Python命令返回夹在两个标识符之间的字符串？再次ID字符串<code>MAIN BUILDING</a> :</code>后，以节省一切，然后<code> </code>之前保存的部分：

我刮从网页HTML看起来像这样的价值观：我成功地使用Python的分区两次 location=1">MAIN BUILDING</a> : -25.49 使用分区两次似乎不太可怕。但有没有更好的方法来做到这一点？似乎应该有办法在一个步骤中提取夹在两个其他字符串之间的字符串，而不是两个字符串。

1热度

2回答

用美丽的汤解析。查找字符串（数字）span标签外

我已经成功与beautifulsoup来分析以下数据： $200.00, $1,000.00,

3热度

2回答

网站有R刮，内容

我刚开始与网络中的R刮，我把这个代码： mps <- read_html("http://tunisie-annonce.com/AnnoncesImmobilier.asp") mps %>% html_nodes("tr") %>% html_text() 为了获得所需的内容，我把一个文本文件中。我的问题是我想消除这些红点，但我不能。你可以帮我吗？我认为这些观点正

0热度

2回答

美丽的汤4 HTML解析

我试图从'http://www.flashscore.com/'提取足球系数表。当您查看页面的源代码时，您可以看到该表格位于id =“fs”的div内。但是，当我搜索该div时，BeautifulSoup不返回任何内容。我写了如下脚本。这里有什么问题？ Code import requests from bs4 import BeautifulSoup r = requests.get("

3热度

1回答

BeautifulSoup - 从JS

我与BeautilfulSoup玩弄周围，我正在寻找一种方式来获得一个JS元素中的特定JSON字符串提取JSON。这里的JS： <script>window.pinball = window.pinball || []; window.pinball.push(['add', {"srp_cleanup":"inactive","book_visit":"inactive","my_visit

2热度

1回答

如何处理没有结尾斜杠的空HTML元素？

我尝试将HTML页面转换为树结构。我已经得到的这个类（我删除了我实际上做与每个标签，因为它是不相关）： class PageParser(html.parser.HTMLParser): def handle_starttag(self, tag, attrs): print("start "+tag) def handle_endtag(self, tag):

3热度

4回答

我的HTML有什么问题，jQuery不解析它？

我一直在试图获取一个HTML文件，并将其作为一个jQuery对象分配给一个变量。无济于事。我不确定Stack Snippets是否允许GET请求，所以这里也是JSFiddle link。 var html = '<!DOCTYPE html><html lang="en"><head><title>Template</title></head><body itemscope itemtype="h

0热度

1回答

Python分析器输出无

通常，我尝试从此站点获取至少一些标记，并且始终不给出任何标记。我不知道如何解决这个问题。有一个按钮票，从侧面按下后有一个额外的面板，所以我想解析它，我不明白如何。据我了解，点击后不会立即加载此选项卡，下一步我不明白。附：刚开始学习它。 # coding: utf-8-sig import urllib.request from bs4 import BeautifulSoup heade

2热度

1回答

使用JSoup获取Google搜索结果

我试图通过JSoup获取Google搜索结果列表。我目前使用的方法对第一页（n）工作得非常好，但对于n + 1页，它不能很好地工作。这是我应得的第一页： doc = Jsoup.connect(search).userAgent("Chrome").get(); links = doc.getElementsByClass("r"); 搜索字符串将包含这样的内容：https://www.go

1热度

1回答

htmlParse未能加载外部实体

我试图从 url <- ("http://angel.co/companies?locations[]=1647-India") 代码提取数据： library(XML) my <- htmlParse(url) Error: failed to load external entity from url 尝试2： library(XML) library(httr) qw <- G