web-scraping

    6热度

    2回答

    我正在做一个项目,为此我需要知道所有维基百科文章的名称(我不需要这些内容)。有没有可以下载这些数据的地方?

    1热度

    1回答

    我在这里呕吐,希望有人能够充分了解Numpy的C API中新的NpyIter API,以便快速告诉我我做错了什么。 我有一个形状(真的很大,有点大)的数组。元素是双打> = 0。对于每一行,我需要找到总和为最大值的连续非零值的总和。我不知道有什么方法可以在Python中很快完成此操作(有时真的很大),所以我一直在使用Weave。 在我以前的代码,我有以下几点: double *p1,*res;

    -1热度

    2回答

    我们正在使用网络抓取工具,并设置了一个具有随机功能的睡眠功能(因此每次扫描之间的时间并不相同),但我们仍然在20分钟后被雅虎阻止。 30个请求。 是否有人知道是否有限制(即:每分钟20个请求,每小时200个)现在我们每个请求之间的平均值大约为3-6秒。感谢您的任何帮助

    1热度

    1回答

    任何人都可以提供一个很好的名称来源,我可以用它来帮助分析网页上的一些表格。 我刮的表格的第一列只有名称,名称和标题或只是标题。 名称可以像John Smith到Vikram Saksena一样变化。 我一直在寻找可以用正确名称找到的单词汇编列表。 编辑我试过从人口普查设置的名称,它有这么多的垃圾,它不值得使用。

    0热度

    2回答

    我决定编写一个应用程序,如:http://michaelgrinich.com/hackernews/,但对于Android设备,我的想法将使用Web应用程序后端(因为我宁愿使用Python和Web进行代码编写,而不是使用Java for Android设备编写代码)。 我已经把现在实行的是这样的: $ curl -i http://localhost:8080/stories.json?page

    8热度

    2回答

    我正在通过Building an MVC 3 App with Code First and Entity Framework 4.1教程MSDN和就死在“默认此外,这个数据库将是一个SQL Express数据库从强类型得出的名字上下文的名称及其文件将位于SQL Express默认数据文件夹中。“ 如果我想更改默认值(例如,将MDF文件放在我的App_Data文件夹中),我该怎么做?我将有几个不同

    2热度

    1回答

    我在ASPX中动态生成表时遇到困难。试图从这样的网站上剔除天然气价格GasPrices。我可以提取天然气价格表中的所有信息(地址,提交时间等),但实际天然气价格除外。 有没有一种方法可以削减汽油价格?即以某种方式得到它的文本表示。我对ASP/ASPX不是很熟悉,但是现在生成的东西并没有在最终的HTML中显示出来。我使用Python做刮擦,但这是无关的,除非有一个特定的库... 在此先感谢。

    1热度

    4回答

    我试图从网页中使用php cURL + preg_match或任何其他函数提取一些信息,但由于某些原因它根本不起作用。 例如,从this page, 我想提取“4床房子出租, Caroline Place,Bayswater,W2”的标题,价格是“2,300”,并且以“This fantastic ... “并结束于”(Circle and District Lines)“。 我试图使用PHP c

    1热度

    2回答

    我试过使用下面的命令来下载ctrl alt del漫画。 $ for filename in $(seq 20021023 20100503); do wget http://www.ctrlaltdel-online.com/comics/"$filename".jpg; done 我碰到下面的错误代码,bash: syntax error near unexpected token 'do

    1热度

    1回答

    对于我的应用程序,我使用的是我有三个面板的手风琴布局,并且我尝试将面板(texview)大小设置为适合该设备的大小当屏幕方向发生变化时,此功能不起作用。根据设备处于横向时的高度,我的视图尺寸不会改变。请帮助我。 这是我的代码 if(layoutView.getId() == R.id.Advertitletext) { openLayout = panel1; v = pan