2017-05-04 1203 views
0

我有1000个基因组项目的2504个个人的文件,我想按群体过滤。我做了以下的第一群体(ACB):用Plink提取个人。错误:--keep文件第1行的令牌数少于预期

plink --file all1000gen --keep indACB.txt --make-bed --out all1000genACB 

但它给回了以下错误:

Error: Line 1 of --keep file has fewer tokens than expected. 

我indACB.txt文件看起来像这样:

head indACB.txt 
HG01879 
HG01880 
HG01882 
HG01883 
HG01885 
HG01886 
HG01889 
HG01890 
HG01894 
HG01896 

我使用1000个基因组页面中的人口信息文件(其中有两个个人ID(前两列)和一个人口名称)中的每个人群(使用grep)进行分析显示:

head indpop2.txt 
HG00096 HG00096 GBR 
HG00097 HG00097 GBR 
HG00099 HG00099 GBR 
HG00100 HG00100 GBR 
HG00101 HG00101 GBR 
HG00102 HG00102 GBR 
HG00103 HG00103 GBR 
HG00105 HG00105 GBR 
HG00106 HG00106 GBR 
HG00107 HG00107 GBR 

我认为我的--keep文件存在问题,但我不确定txt文件的想要的结构是什么。

我也试着从indpop2.txt greping ACB个人,因此新indACB.txt文件看起来像这样:

head indACB2.txt 
HG01879 HG01879 ACB 
HG01880 HG01880 ACB 
HG01882 HG01882 ACB 
HG01883 HG01883 ACB 
HG01885 HG01885 ACB 
HG01886 HG01886 ACB 
HG01889 HG01889 ACB 
HG01890 HG01890 ACB 
HG01894 HG01894 ACB 
HG01896 HG01896 ACB 

但它产生以下错误:

plink --file allconcat39 --keep indACB2.txt --make-bed --out allconcat43ACB 

Error: No people remaining after --keep. 

回答

0

前两列是家庭和个人ID;第三列预期为数值(尽管该文件可以具有多于3列),并且只有具有1的值的个人才会被包括在随后的分析或文件生成过程中。

相关问题