我想从特定的网站或整个网络上刮去期刊的影响因子。我一直在寻找一些接近但很难运气的东西。用查询刮网站
这是我第一次尝试使用python进行网页扫描。我试图找到最简单的方法。
我有一个属于期刊的ISSN号码列表,我想从网站或特定网站检索它们的影响因子值。该列表的值超过50K,因此手动搜索值实际上很难。
输入型
Index,JOURNALNAME,ISSN,Impact Factor 2015,URL,ABBV,SUBJECT
1,4OR-A Quarterly Journal of Operations Research,1619-4500,,,4OR Q J OPER RES,Management Science
2,Aaohn Journal,0891-0162,,,AAOHN J,
3,Aapg Bulletin,0149-1423,,,AAPG BULL,Engineering
4,AAPS Journal,1550-7416,,,AAPS J,Medicine
5,Aaps Pharmscitech,1530-9932,,,AAPS PHARMSCITECH,
6,Aatcc Review,1532-8813,,,AATCC REV,
7,Abdominal Imaging,0942-8925,,,ABDOM IMAGING,
8,Abhandlungen Aus Dem Mathematischen Seminar Der Universitat Hamburg,0025-5858,,,ABH MATH SEM HAMBURG,
9,Abstract and Applied Analysis,1085-3375,,,ABSTR APPL ANAL,Math
10,Academic Emergency Medicine,1069-6563,,,ACAD EMERG MED,Medicine
需要什么样的?
上面的输入有一列ISSN号码。阅读ISSN号码并在researchgate.net
或网页中搜索。然后找到各个网页搜索Impact Factor 2015
并检索将其放置在ISSN号码旁边空白处的值,并将检索到的URL放在它旁边
因此,网络搜索也可以限制为一个网站和一个网站对于..空单可以保持为“NAN”
在此先感谢您的建议和帮助
请像beautifulsoup或scrapy蟒蛇检查网络刮库。这里还有很多很棒的教程。我认为熊猫标签对你的问题有点不合适。刮完后,熊猫将是有用的,但。 – su79eu7k
@ su79eu7k谢谢您的建议,以开始..但是这样的事情可能实现吗? –
根据[this](https://blog.hartleybrody.com/web-scraping/)博客文章:**“任何可以在网页上查看的内容都可以被刮掉。期间。”**现在,在一些这种情况可能会非常困难,但对于像上面这样的网站,这当然是可行的。 – blacksite