习惯:Always使用bgzip生成vcf.gz文件
并用tabix生成index,使得vcftools和GATK中直接使用vcf.gz文件。
bgzip和tabix包含在samtools/htslib
内。
小模块
在vcftools/vcftools-build/bin/
中的小程序,实现简单的特定功能。列出几个最常用的。其他更多
使用前需要导入perl_module lib
单个vcf
重新计算INFO
里的AN和AC
fill-an-ac
重新计算AN和AC 并加入INFO
中。
vcf2fa
vcf转成一致性序列(consensus sequence)。
取出部分个体
vcf-subset -c
vcf里的信息自定义输出
|
|
|
|
将个体顺序重排
Reorder columns
将file.vcf.gz
按照template.vcf.gz
顺序重排
vcf postions Reorder
|
|
转换成tab格式
|
|
输出如下:
计算tstv
|
|
vcf格式校验
|
|
多个vcf
比较多个vcf里SNP位置的overlap
可以用结果画维恩图Venn-Diagram。
合并多个染色体chr/scaffold
1.个体(header)需完全相同。
2.合并有不同个体的多个vcf
最好有相同Postions,缺失的默认会被填上miss(.)
1vcf-merge A.vcf.gz B.vcf.gz C.vcf.gz | bgzip -c > out.vcf.gz把mis的用自定义genotype(0|0,0/0,1/1等等)填上
1vcf-merge -R '0|0' A.vcf.gz B.vcf.gz C.vcf.gz | bgzip -c > out.vcf.gzbcftools
1samtools/bcftools/bcftools merge --merge all --no-version --threads 10 file1.vcf.gz file2.vcf.gz |bgzip -c > merge.vcf.gz
3.一行命令合并vcf,巧用括号
找vcf overlap/互补位置
|
|