2014-08-27 112 views
0

我有一些真正奇怪的问题。我有一个脚本可以获取包含我之后的一些信息的JSON文件,更具体地说是基因名称。我的想法是将它作为一个字符串工作,直到我想要用另一个基因列表过滤所得到的基因列表时,它才工作得很好(即,我只对JSON中的基因感兴趣文件[文件A]在另一个基因列表[文件B]中)。这是我的脚本:熊猫:合并两个系列

import urllib 
import pandas as pd 

pathway = ['hsa04630', 'JAK-STAT'] 

# Read JSON pathway data from KEGG via TogoWS REST service 
link = 'http://togows.dbcls.jp/entry/pathway/' + pathway[0] + '/genes.json' 
file = urllib.request.urlopen(link) 
data = pd.DataFrame(file.readlines()) 

# Remove first and last two lines (does not contain data) 
data = data.drop(data.index[[0, 1, -2, -1]]) 


def get_genes(string): 
    """ Takes a JSON string and finds the gene ID """ 
    gene = str(string[0]).split(':')[1].split(';')[0].replace('"', '') 
    return gene 

# Filter for gene ID 
data = pd.DataFrame(data.apply(get_genes, axis=1), columns=['Gene']).sort(
    'Gene') 

# Filter for EGFR Core gene list 
filter = pd.DataFrame(pd.read_excel('../../Gene lists/Gene lists.xlsx', 
         sheetname='EGFR Core')['Gene']) 
filtered = filter.merge(data, on='Gene') 
print(filtered) 

我已经以这种方式之前使用merge,让我感到非常惊讶,当filtered数据框返回为空。我手动检查了两个不同文件中有共同的基因,所以这应该不成问题。我想知道它不工作的原因是因为我在gen_genes函数中做了一些奇怪的事情,即使用字符串。

下面是另一个基因列表[文件B]的占位符,其中包含我手动检查的一些基因,以防您想要运行我的脚本。我用这个列表代替原来的[文件B],并且我得到了相同的结果。

filter = pd.DataFrame(['BRAF','KRAS','EGF','EGFR'], columns=['Gene']) 

有人可以帮忙吗?

回答

3

如果你看一下data

In [10]: data.iloc[0,0] 
Out[10]: ' AKT1' 

你会发现,还有的字符串,这是什么原因将匹配一个空格开头。
一个可能的解决方案是添加.strip()get_genes功能:

def get_genes(string): 
    """ Takes a JSON string and finds the gene ID """ 
    gene = str(string[0]).split(':')[1].split(';')[0].replace('"', '').strip() 
    return gene 
+0

它总是那么简单......非常感谢,也做到了! – Sajber 2014-08-27 09:02:48