2016-11-05 90 views
0

我想从特定的网站或整个网络上刮去期刊的影响因子。我一直在寻找一些接近但很难运气的东西。用查询刮网站

这是我第一次尝试使用python进行网页扫描。我试图找到最简单的方法。

我有一个属于期刊的ISSN号码列表,我想从网站或特定网站检索它们的影响因子值。该列表的值超过50K,因此手动搜索值实际上很难。

输入型

Index,JOURNALNAME,ISSN,Impact Factor 2015,URL,ABBV,SUBJECT 
1,4OR-A Quarterly Journal of Operations Research,1619-4500,,,4OR Q J OPER RES,Management Science 
2,Aaohn Journal,0891-0162,,,AAOHN J, 
3,Aapg Bulletin,0149-1423,,,AAPG BULL,Engineering 
4,AAPS Journal,1550-7416,,,AAPS J,Medicine 
5,Aaps Pharmscitech,1530-9932,,,AAPS PHARMSCITECH, 
6,Aatcc Review,1532-8813,,,AATCC REV, 
7,Abdominal Imaging,0942-8925,,,ABDOM IMAGING, 
8,Abhandlungen Aus Dem Mathematischen Seminar Der Universitat Hamburg,0025-5858,,,ABH MATH SEM HAMBURG, 
9,Abstract and Applied Analysis,1085-3375,,,ABSTR APPL ANAL,Math 
10,Academic Emergency Medicine,1069-6563,,,ACAD EMERG MED,Medicine 

需要什么样的?

上面的输入有一列ISSN号码。阅读ISSN号码并在researchgate.net或网页中搜索。然后找到各个网页搜索Impact Factor 2015并检索将其放置在ISSN号码旁边空白处的值,并将检索到的URL放在它旁边

因此,网络搜索也可以限制为一个网站和一个网站对于..空单可以保持为“NAN”

在此先感谢您的建议和帮助

+1

请像beautifulsoup或scrapy蟒蛇检查网络刮库。这里还有很多很棒的教程。我认为熊猫标签对你的问题有点不合适。刮完后,熊猫将是有用的,但。 – su79eu7k

+0

@ su79eu7k谢谢您的建议,以开始..但是这样的事情可能实现吗? –

+0

根据[this](https://blog.hartleybrody.com/web-scraping/)博客文章:**“任何可以在网页上查看的内容都可以被刮掉。期间。”**现在,在一些这种情况可能会非常困难,但对于像上面这样的网站,这当然是可行的。 – blacksite

回答

3

用美丽的汤和的urllib2试试这个代码刮库我使用H2标签和搜索。‘期刊影响力:’ ,但我会让你决定算法来提取数据。HTML内容出现在汤和汤提供的API来解压。我提供的就是一个实例,可以为你工作。

#!/usr/bin/env python 

import urllib2 
from bs4 import BeautifulSoup 

issn = '0219-5305' 
url = 'https://www.researchgate.net/journal/%s_Analysis_and_Applications' % (issn) 
htmlDoc = urllib2.urlopen(url).read() 
soup = BeautifulSoup(htmlDoc, 'html.parser') 
for tag in soup.find_all('h2'): 
    if 'Journal Impact:' in tag.text: 
     value = tag.text 
     value = value.replace('Journal Impact:', '') 
     value = value.strip(' *') 
     print value 

输出:

1.13 

我觉得美丽的汤的官方文档是相当不错的。如果你是新手,在编写代码之前,我会建议花费一个小时。花费在阅读文档上的那一小时将为您节省更多的时间。

https://www.crummy.com/software/BeautifulSoup/ https://www.crummy.com/software/BeautifulSoup/bs4/doc/

+0

非常感谢你..让我运行脚本,并会回复评论..再次感谢.. –

+0

在我的情况下,我有一个ISSN号码列表,没有可以引用的URL。主站点被称为'researchgate.net',而不是可以从中'Journal Impact'刮取的单个URL。这里是从给定的URL中删除。那么可以请那个方向帮忙。 –

+0

请你可以通过上面的评论.. –

1

我真的不明白你想要确切地凑什么,但我认为你需要的价值关键字搜索BeautifulSoup

据“SA网站在python它真的很容易使用,你可以找到一个 BeautifulSoup tutorial here

+0

谢谢..这么多的见解..我需要的是我有很清楚给出的问题..它的第一次使用Web刮我更困惑 –