html-parsing

    0热度

    1回答

    假设有一个用户输入包含HTML和可能链接的文本,我希望启用链接并使already_tag_closed URL完好无损。 (我知道有很多的要求正则表达式的URL模式的问题,但我不能找到这个解决方案) 例如: String urlRegex = "((https?|ftp|gopher|telnet|file):((//)|(\\\\))+[\\w\\d:#@%/;$()~_?\\+-=\\\\\\

    0热度

    1回答

    当试图解析一个html页面时,我们可以得到NA值。因此,当我们尝试使用列表中的数据构建数据框时,缺少值将无法实现。 有什么简单的方法可以成功。请看下面的例子: library(rvest) library(RCurl) library(XML) pg <- getURL("https://agences.axa.fr/ile-de-france/paris/paris-19e-75019"

    0热度

    1回答

    我正在创建一个阅读列表应用程序,并且我想将用户添加链接的阅读时间传递给阅读列表中的表格单元格,该数字来自该页面的字数。我发现了几个解决方案,分别是Parsehub,Parse和Mercury,但它们似乎更适合需要更高级的东西从url中获取的用例。在Swift中有更简单的方法来计算url的字数吗?

    0热度

    1回答

    我有一个外部网站的HTML,我需要用jQuery解析。我只对主div内的文本感兴趣(如代码中所述)。 问题是,如果我使用$('#main').text()我得到的div内的所有文本,甚至从嵌套的div。 <div id="main"> <div><h1>....</h1></div> <div>Other Text</div> I only want to par

    -3热度

    1回答

    我在NetBeans 8.2的工作得到这个webpage 我成功地得到了一切,除了章的全部内容,因为它是Ajax调用 我用Jsoup lib和它是否能够尝试不同的图书馆像的HtmlUnit 摆脱Ajax调用的所有内容告诉我,即使有不同的库

    0热度

    1回答

    我试图用BeautifulSoup来解析“https://openlibrary.org/”。 我想选择“流行书籍”部分中的所有书籍,所以我尝试先选择id =“popular_carousel”。这里是我的代码: url="https://openlibrary.org/" import urllib2 response = urllib2.urlopen(url) source_cod

    0热度

    1回答

    我想从http://www.espn.com/nba/hollinger/teamstats加载表到JTable。用JSoup解析表后,我设法加载表头,但是我有加载数据行的问题。首先,我只尝试了奇数行,但JSoup只加载了最后一个奇数行,我不知道如何加载所有这些行。 我试图从第一行加载使用。第一(),但只加载第一行,没有别的。 这里是我的代码: Document doc = null; try

    0热度

    1回答

    我有我需要的一个非常愚蠢的解析器下面。我想创建一个方法,它将HTML页面的URL(例如:http://www.dictionary.com/browse/example)作为参数,并使用此解析器向我显示所遇到的所有数据。我不需要有人给我解决方案。但是,建议将不胜感激。谢谢。 from html.parser import HTMLParser class MyHTMLParser(HTMLPa

    1热度

    2回答

    我试图使用urllib从这个URL获取内容:“https://blockexplorer.com/block-index/0”。但是,当浏览器加载此链接时,它将重定向到另一个链接“https://blockexplorer.com/block/000000000019d6689c085ae165831e934ff763ae46a2a6c172b3f1b60a8ce26f”。 这里是我的代码: im

    3热度

    3回答

    我想使用Python的库BeautifulSoup来解析当前月相的一些数据。 from bs4 import BeautifulSoup import urllib2 moon_url = "http://www.moongiant.com/phase/today/" try: rqest = urllib2.urlopen(moon_url) moon_Soup