web-scraping

    0热度

    1回答

    public void Imagesaver(string url) { string result = Filename(url); string SourceCode = worker.GetSourceCode(url); List<string> names1 = new List<string>(); MatchCollection data

    0热度

    2回答

    想要一个脚本来删除URL列表的标题,但是如果我们需要等待整个页面加载,它可能会超级慢。标题是我正在寻找的唯一的东西。 标题被加载时,我们可以停止页面加载吗?也许有像EC.title_contains之类的东西。

    0热度

    2回答

    我想使用Jsoup登录到Twitter,因为我想刮我的推文,并通过短信发送给我,我知道如何处理它们从HTML,我知道如何通过发送它们通过短信,我需要帮助登录步骤,我无法登录到twitter 我试过的是,在后台处理webview(没有任何用户界面)(注意:没有应用程序的用户界面),但失败了,因为它可以“T在不UI处理,与Jsoup我尝试使用此代码 final String usernameKey =

    1热度

    2回答

    district_name= [[li.getText() for li in data_rows[i].findAll('li')] for i in range(len(data_rows))] 上面的代码给出了一个州比哈尔邦的地区名称列表。像下面的表一样。 [['1', 'Nalanda'], ['2', 'Patna'], ['3', 'Gaya'], ['4',

    0热度

    1回答

    我已经在python中编写了一个脚本,并结合selenium来解析网页中的一些公司名称。我定义的选择器是完美无瑕的。然而,一旦网页开启了一个令人讨厌的ad弹出隐藏数据,并且我无法到达那里。我怎样才能解决我想要的数据。我试过在网页上切换几个iframes,但没有一个可以工作。我在脚本中使用的现有内容会引发错误,显示Message: no such element: Unable to locate

    -1热度

    2回答

    使用正则表达式剥离标签我怎么能去剥离标签关闭此列表: ['</span>A walk in the park<span class="html-tag"] 我设法利用(r'(?<=</span>)[^>]+')删除的第一个标签,但无法弄清楚如何删除第二。我知道正则表达式不是处理标签的方法,而只是想知道这一点。

    0热度

    2回答

    这是a prior thread的后续操作。代码对于单个值来说工作得很好,但是当我试图传递超过1个值时出现以下错误,我根据函数的长度得到一个错误。 错误vapply(元件,编码,字符(1)): 值必须是长度为1,但 FUN(X [1])结果是长度为3 下面是代码的样本。在大多数情况下,我只能用这种方式命名对象并进行刮擦。 library(httr) library(rvest) library

    1热度

    1回答

    我试图抓取产品的价格banggood。 问题是我用jsoup得到的货币是从列表中随机选择的货币。我一直在寻找html文件来查找是否有东西可以帮助我,但我没有找到任何东西。 如何控制货币类型?

    0热度

    3回答

    个人清单: ['\n\r\n\tThis article is about sweet bananas. For the genus to which banana plants belong, see Musa (genus).\n\r\n\tFor starchier bananas used in cooking, see Cooking banana. For other uses, se

    1热度

    4回答

    这是我第一次尝试使用编程来获得有用的东西,所以请耐心等待。建设性的反馈是非常感谢:) 我正在建立一个数据库与欧洲议会的所有新闻稿。到现在为止,我已经构建了一个可以从一个特定URL检索我想要的数据的刮板。但是,在阅读了几篇教程之后,我仍然无法弄清楚如何创建一个包含来自这个特定站点的所有新闻稿的URL列表。 也许这是关系到网站的构建方式,或者我(可能)只是缺少一些明显的事情,一个有经验的项目将实现向右