web-scraping

11热度

3回答

My local airport可耻地阻止没有IE的用户，并且看起来很糟糕。我想编写一个Python脚本，每隔几分钟就会得到Arrival and Departures页面的内容，并以更易读的方式显示它们。我选择的工具是mechanize作弊网站相信我用IE和BeautifulSoup解析页面来获取航班数据表。我很迷惑于BeautifulSoup文档，无法理解如何从整个文档中获取表（我知道其标题

24热度

6回答

在Android中抓取HTML网页的最快方法是什么？

我需要从Android中的非结构化网页中提取信息。我想要的信息嵌入在没有ID的表格中。 <table> <tr><td>Description</td><td></td><td>I want this field next to the description cell</td></tr> </table> 我应该使用模式匹配？使用BufferedReader来提取信息？还是有更快的

3热度

2回答

编写一个程序来刮研讨论坛

我需要编写一个程序来刮研讨论坛。我应该写使用Scrapy框架在Python程序，或者我应该使用PHP卷曲？也有一个相当于Scrapy的Php？谢谢

5热度

2回答

删除url中的jsessionid

我在jetty web-server中部署的jsf web应用程序中遇到问题。当在浏览器中访问应用程序时，jsessionID被添加到url中。我想从那里删除它。在此先感谢。

2热度

3回答

在.NET和C中从网站拉取数据的问题＃

我已经写了一个网页抓取程序，以转到页面列表并将所有html写入文件。问题是，当我拉一块文本时，一些字符被写为' '。我如何将这些字符拖入我的文本文件？这里是我的代码： string baseUri = String.Format("http://www.rogersmushrooms.com/gallery/loadimage.asp?did={0}&blockName={1}", id.ToSt

0热度

2回答

从ASP页面获取数据

我想知道是否有无论如何抓取从ASP页面生成的HTML。我试图从页面中拉出一个表格，并且我愚蠢地使用了一个静态html页面，所以当我测试出我的代码时，我不必经常查询该页面所在的服务器。我写的抓住从页面无标签表的JavaScript代码工作。然后，当我将它付诸实践时，发现ASP页面不会在URL上产生带有jquery.get请求的可见页面。是否有任何方法来查询我需要的表的页面，以便ASP页面根据请求返

1热度

1回答

从HttpClient for Android获取网络结果

例如：假设我搜索了Walmart homepage上的内容。像this一样。我将如何检索列出的第一个产品的信息。产品名称，价格，细节，评分，型号等信息。我将如何在框中搜索。好像我的唯一方法是更换http://www.walmart.com/search/search-ng.do?search_constraint=0&ic=48_0&search_query=someProduct & Find.

0热度

1回答

清理，并与BeautifulSoup

移除标签，我有以下脚本至今： from mechanize import Browser from BeautifulSoup import BeautifulSoup import re import urllib2 br = Browser() br.open("http://www.foo.com") html = br.response().read(); soup =

4热度

2回答

如何获得用户在搜索栏中输入的文本？

我希望能够获得用户输入到搜索栏中的文本，并比较数组中的单词。但我不知道如何从搜索栏中获取文本，我知道在Java中它只是getText。

0热度

1回答

使用RenderMvcController过滤Umbraco中的列表

我的目标是创建内容列表（特定的docType）。在这个列表中我有一个过滤器按钮和两个ddlist动态填充儿童数据。当用户点击“过滤器”时，列表应该被选中的ddlist值更新。是否有可能为此使用RenderMVCController？我无法使用surfaceController，因为我无法在渲染页面之前访问Index操作。当用户提交表单而不是刷新所有页面时，是否可以使用Ajax？查看 usin