screen-scraping

    3热度

    4回答

    我需要一个网页并从页面中提取地址信息。有些比其他人更容易。我正在寻找一个Firefox插件,Windows应用程序,或VB.NET代码,这将帮助我完成这件事。 理想情况下,我想在我们的管理员(ASP.NET/VB.NET)的网页上输入一个URL,然后将该页面剪下并返回一个可放入网格的数据集。

    5热度

    5回答

    我们正在构建CMS。该网站将由aspx页面中的用户构建和管理,但我们希望创建一个静态HTML网站。 我们现在要做的方式是使用代码我发现here重载Aspx页面中的Render方法并将HTML字符串写入文件。这对于单个页面来说工作正常,但我们的CMS的事情是,我们希望从一开始就为网站自动创建一些HTML页面,甚至在创作者编辑系统中的任何内容之前。 有谁知道有任何方法可以做到这一点?

    1热度

    8回答

    这个问题跟随我的previous question关于从ASPX页面获取HTML。我决定尝试使用webclient对象,但问题是我得到登录页面的HTML,因为需要登录。我尝试使用webclient对象“登录”: WebClient ww = new WebClient(); ww.DownloadString("Login.aspx?UserName=&Password="); strin

    3热度

    8回答

    我想刮一个html表并将其数据保存在数据库中。你发现哪些策略/解决方案有助于解决这个计划。 我非常喜欢Java和PHP,但真的是任何语言的解决方案都会有所帮助。 编辑:欲了解更多详情,UTA(盐湖公交系统)在其网站上提供巴士时刻表。每个时间表都出现在一个表格中,该表格的标题中包含工作站,行中的起始时间也是这样。我想通过时间表并将表格中的信息保存在一个表格中,然后我可以查询。 这里的starting

    4热度

    4回答

    寻找一个Linux应用程序(或Firefox扩展),它将允许我抓取HTML模型并保持页面的完整性。 Firefox做了一个几乎完美的工作,但不抓取CSS中引用的图像。 Firefox的Scrabbook扩展获取所有内容,但是使目录结构变得平坦。 我不会非常在意如果所有文件夹成为索引页的孩子。

    3热度

    1回答

    我正在用dot net编写一个程序,它将使用框架2.0的Process对象执行脚本和命令行程序。我希望能够访问我程序中的进程的屏幕缓冲区。我已经调查过这一点,看来我需要访问控制台stdout和stderr缓冲区。任何人都知道这是如何使用托管代码完成的? 我想我需要使用附加到任务的窗口控制台的AttachConsole和ReadConsoleOutput来从控制台屏幕读取字符和属性数据块。我需要做的

    1热度

    3回答

    我正在做一个个人的,只是为了好玩,使用屏幕抓取的项目给我一个系统托盘通知,以防添加,修改或删除HTML表格上的另一行。 之前做过这些之前我想:我们来看看正则表达式的东西,就是这样,但作为一个好奇的人,让我觉得可能有其他东西可以有另一个范例,但是要尽可能简单使用。 我了解DOM和X-Path以及所有xml'ish方法。我正在寻找盒子外的东西,甚至可以在一组规则中定义,这样您就可以制作一个插件系统来聚

    2热度

    9回答

    是否有任何网站/服务可以让我将RSS订阅添加到任何网站? 这是为我的公司工作。我们有一个显示公司相关新闻的网站。这些消息由外部机构提供,并自动更新到我们的数据库。我们的网站收集随机/新消息并显示它们。我们正在寻找添加“通过RSS订阅”按钮到我们的网站。

    28热度

    9回答

    有没有一个好的测试套件或工具集,可以自动化网站导航 - 与JavaScript支持 - 并从网页收集HTML? 当然,我可以用BeautifulSoup刮直HTML。但是这对我需要使用Javascript的网站没有好处。 :)

    14热度

    6回答

    我一直在寻找rubyforge上的XML和HTML库,以便将数据从网页中提取出来。例如,如果我想解析一个用户页面上的stackoverflow我怎样才能将数据转换为可用的格式? 假设我想解析我自己的用户页面以获取当前的声望得分和徽章列表。我试图将从我的用户页面检索到的源代码转换为xml,但由于缺少div,转换失败。我知道我可以做一个字符串比较,并找到我正在寻找的文本,但必须有一个更好的方法来做到这