编程仍然很新颖,更具体地说是Python。我一直在为Kickstarter页面开发webscraper。我已经从一个页面上的每个项目中获得所有信息,但我一直在做的方式相对混乱。我想让这个抓取工具抓住第一个项目,抓取数据,追加,然后转到下一个项目,但是它设置为抓取页面中的所有目标数据,并希望它们全部与正确的项目在最后。组织我的BeautifulSoup4网页抓取
现在,我已经从每一个不仅仅是Blurb的,并链接到每个抢夺更多的数据,但下面是我一直在做一些示例代码。 BeautifulSoup有点令人困惑,因为我相信它会将事物转换成不同的数据类型,对于我未经训练的人来说,使得将.find_next()类型的东西串起来变得更加困难。特别是Kickstarter拥有这些项目,每行4个项目。
关于我如何实现的任何想法:找到第一个项目 - > scrape - >追加数组 - >在下一个项目上重复?
pageGrab = BeautifulSoup(requests.get(url).content, "html.parser")
link_array = []
blurb_array = []
links = pageGrab.select('.project-title a')
blurb = pageGrab.select('.project-blurb')
for link in links:
rel_path = link.get('href')
path = urljoin(base_url, rel_path)
link_array.append(path)
for row in blurb:
blurb_array.append(row.string.strip())
在这里,我一直在通过这些阵列成熊猫数据帧其写入到一个Excel文件。尽管这是一项繁琐的工作,但我对自己感到非常自豪,但这是我第一个有用的程序/脚本!