我不得不手动更改随我输入的基因型数据(存储在.bgen
中)而来的bgen .sample文件,因为它缺少性别信息(所有NA
s),然后我分别用男性和女性的15和2s填充。plink
不会让我运行我的数据原样附带的原始.sample
文件,因为在性别列中有NA
s,我得到Error: Invalid sex code on line 3 of .sample file.
。
但是,我遇到了问题。
我保存了我的"new".sample
文件首先作为.txt
文件在R中使用:
write.table(samples, file = "samples_bgen.txt", sep = " ", row.names = FALSE, quote=FALSE, col.names = TRUE)
这个.txt
输出有26,623行。列名是第一个标题(ID_1
,ID_2
,missing
,sex
),第一行是应该是第二个标题行(0, 0, 0, D)
。然后我手动将其从.txt
更改为.sample
(因为我不确定还能做什么。)
当我运行plink
:
plink --bgen data.bgen --sample samples_bgen.sample --make-bed --out data_output
我得到"Error: --bgen and --sample files contain different numbers of samples.
">
我有26,622个样本在我的主文件data.bgen
。示例文件中有一个额外的行,因为第一行需要作为第二个标题行。如果我手动删除第二行(000D)
,那么我得到错误消息Error: Invalid second header line in .sample file.
我在.sample
中也遇到了一些问题(似乎plink2
无法识别.sample
文件中father
/mother
列中的id),所以我决定删除.sample中的两列。我做了与您类似的事情,但在最后一步中,我使用Mac命令行cp xxx.txt yyy.sample
将修改后的.txt
转换为.sample
。修改后的.sample
工作时没有任何错误/警告。但是我不确定这样修改.sample
是否可以。