web-scraping

    11热度

    3回答

    My local airport可耻地阻止没有IE的用户,并且看起来很糟糕。我想编写一个Python脚本,每隔几分钟就会得到Arrival and Departures页面的内容,并以更易读的方式显示它们。 我选择的工具是mechanize作弊网站相信我用IE和BeautifulSoup解析页面来获取航班数据表。我很迷惑于BeautifulSoup文档,无法理解如何从整个文档中获取表(我知道其标题

    24热度

    6回答

    我需要从Android中的非结构化网页中提取信息。我想要的信息嵌入在没有ID的表格中。 <table> <tr><td>Description</td><td></td><td>I want this field next to the description cell</td></tr> </table> 我应该使用 模式匹配? 使用BufferedReader来提取信息? 还是有更快的

    3热度

    2回答

    我需要编写一个程序来刮研讨论坛。 我应该写使用Scrapy框架在Python程序,或者我应该使用PHP卷曲? 也有一个相当于Scrapy的Php? 谢谢

    5热度

    2回答

    我在jetty web-server中部署的jsf web应用程序中遇到问题。当在浏览器中访问应用程序时,jsessionID被添加到url中。我想从那里删除它。 在此先感谢。

    2热度

    3回答

    我已经写了一个网页抓取程序,以转到页面列表并将所有html写入文件。问题是,当我拉一块文本时,一些字符被写为' '。我如何将这些字符拖入我的文本文件?这里是我的代码: string baseUri = String.Format("http://www.rogersmushrooms.com/gallery/loadimage.asp?did={0}&blockName={1}", id.ToSt

    0热度

    2回答

    我想知道是否有无论如何抓取从ASP页面生成的HTML。我试图从页面中拉出一个表格,并且我愚蠢地使用了一个静态html页面,所以当我测试出我的代码时,我不必经常查询该页面所在的服务器。我写的抓住从页面无标签表的JavaScript代码工作。然后,当我将它付诸实践时,发现ASP页面不会在URL上产生带有jquery.get请求的可见页面。 是否有任何方法来查询我需要的表的页面,以便ASP页面根据请求返

    1热度

    1回答

    例如:假设我搜索了Walmart homepage上的内容。像this一样。我将如何检索列出的第一个产品的信息。产品名称,价格,细节,评分,型号等信息。我将如何在框中搜索。好像我的唯一方法是更换http://www.walmart.com/search/search-ng.do?search_constraint=0&ic=48_0&search_query=someProduct & Find.

    0热度

    1回答

    移除标签,我有以下脚本至今: from mechanize import Browser from BeautifulSoup import BeautifulSoup import re import urllib2 br = Browser() br.open("http://www.foo.com") html = br.response().read(); soup =

    4热度

    2回答

    我希望能够获得用户输入到搜索栏中的文本,并比较数组中的单词。但我不知道如何从搜索栏中获取文本,我知道在Java中它只是getText。

    0热度

    1回答

    我的目标是创建内容列表(特定的docType)。在这个列表中我有一个过滤器按钮和两个ddlist动态填充儿童数据。当用户点击“过滤器”时,列表应该被选中的ddlist值更新。 是否有可能为此使用RenderMVCController?我无法使用surfaceController,因为我无法在渲染页面之前访问Index操作。 当用户提交表单而不是刷新所有页面时,是否可以使用Ajax? 查看 usin