生物化学家/生物信息学使用此网站(http://dgpred.cbr.su.se/index.php?p=TMpred)。进入蛋白质序列后,你会得到这样的事情:从其他号码的网站中提取数字列
http://dgpred.cbr.su.se/analyze.php?with_length=on&seq=RGFTPLQWECVMASDFGHH
一些数据在顶部和底部,并在中间的4列,其中第四是我们想要的数据。我想从第四列(对于很多蛋白质序列)中取出这些数字并放入Excel中。
我目前的工作流程(Mac OS X)是将所有内容复制到RTF格式的文本编辑器中,然后拖动数字(以便只选择第四列的数字),然后执行我的AppleScript :
do shell script "pbpaste | sed 's/[^0-9.-]//g' | pbcopy"
do shell script "pbpaste | sed '/^$/d' | pbcopy"
我在正则表达式仅仅初学者,但这种成功给我留下了由换行符分隔的数字,准备一个漂亮的名单被粘贴到Excel中。
什么是真正的甜蜜是沟文本编辑步骤,只是让正则表达式直接从网站采取数字。但是,这超出了我的水平。任何人都可以帮助我吗?即,只能从第4列
所以你想提取'Delta G aa(i)应用程序列,对不对? – 2013-01-12 21:28:04
这是正确的 – Johan