将Pill PED文件中的缺失值（-9）转换为R时读入R

我有两个文件：pedigree.ped和pedigree.map。这两种文件格式可以使用Plink。将Pill PED文件中的缺失值（-9）转换为R时读入R

在我的情况下，我想用它们与R，我想我必须做一个转换为R格式。例如：Plink中的缺失值与R中的缺失值不同。

如何将这两个文件转换为在R中使用它们？我如何将缺失的值更改为NA？

样品我的数据：

PED文件：

1 1 0 0 1.02 A A G G 0 0 
1 2 0 0 0.51 T G C C A A 
2 3 1 2 -9 0 0 A G T T 
...

第一列是id_family，第二的id_individual，第三和第四是父亲和id_individual的母亲，第五个是数量性状（-9：缺失值），其余列是基因型（SNP等位基因）。列的缺失值为0，数量特征为-9。

地图文件：

1 rs1 0 100000 
1 rs2 0 100100 
1 rs3 0 100200

第一列是id染色体（1-22，X，Y或0，如果未放置），第二RS＃或SNP标识符，第三遗传距离（莫根），以及第四是碱基对位置（BP单位）

来源

2013-04-06 Hocine Ben

一些样本数据将有助于... – vaettchen 2013-04-06 12:25:06

假设你成功地读取文件成R data.frame，您可以检查缺少值并分配NA。 – Nishanth 2013-04-06 13:35:37

我该怎么做？你能举个例子吗？ – 2013-04-06 13:43:13

假设在PED文件中的数据被读入的R数据帧 -

> my.dataframe 
    V1 V2 V3 V4 V5 V6 V7 V8 V9 V10 V11 
1 1 1 0 0 1.02 A A G G 0 0 
2 1 2 0 0 0.51 T G C C A A 
3 2 3 1 2 -9.00 0 0 A G T T

现在ç heck为无效/每列丢失值&指定NA。对于前者，取第5列 -

my.dataframe[my.dataframe[,5] == -9, 5] <- NA 
> my.dataframe 
    V1 V2 V3 V4 V5 V6 V7 V8 V9 V10 V11 
1 1 1 0 0 1.02 A A G G 0 0 
2 1 2 0 0 0.51 T G C C A A 
3 2 3 1 2 NA 0 0 A G T T

类似地将NA分配给所需的条目。

注意：R函数以特殊方式对待NAs。看看各自的函数参数。一些相关的关键字，以观察 - na.rm，na.pass，na.fail，na.omit等

来源

2013-04-06 15:36:36 Nishanth

定义NA PED读取文件时为R，值如：

read.table(text = " 
1 1 0 0 1.02 A A G G 0 0 
1 2 0 0 0.51 T G C C A A 
2 3 1 2 -9 0 0 A G T T", 
      na.strings = c("NA", "-9"), sep = "\t") 

# result 
# V1 V2 V3 V4 V5 V6 V7 V8 
# 1 1 1 0 0 1.02 A A G G 0 0 
# 2 1 2 0 0 0.51 T G C C A A 
# 3 2 3 1 2 NA 0 0 A G T T

此外，使用plink时使用--tab选项，所以列的分隔符是选项卡和基因型之间的空间是空间。

--tab划分界限标签--recode和--recode12

来源

2016-04-25 12:10:18 zx8754

将Pill PED文件中的缺失值（-9）转换为R时读入R

回答

相关问题