Skip to main content

在 vcf 中创建分阶段和非分阶段块的所有可能组合

项目描述

持续整合

单倍体洗牌器

在 vcf 中创建分阶段和非分阶段块的所有可能组合


背景

该工具采用相位、非相位或部分相位 VCF 文件,并生成与 VCF 文件中存在的相位一致的所有可能的相位块组合。

细节

首先,此工具从 VCF 文件中读取所有变体,并将变体组合在一起(如果它们兼容)。

  1. 如果一个变体是分阶段的(使用PS标签),它只与具有相同阶段 ID 的其他分阶段变体兼容。
  2. 纯合变体始终与其他变体兼容,因为它们是每个阶段组的一部分
  3. 杂合变体仅在它们被定相且相 ID 匹配时才兼容。

为了生成分组变体的所有可能组合,haplotype-suffler 使用计数器生成二进制模式,以确定应该修改哪些调用。要修改变体,我们只需反转GT字段的顺序,即0/1变为1/0,反之亦然。

由于每个变体都有两个等位基因,我们只需要生成可能的 VCF 文件的一半,因为另一半是镜像(例如01011010)。

用法

haploblock-shuffler test.vcf output

要从输出 vcf 文件生成一致的 fasta 文件,bgzip 并索引输出 vcf 文件

cd output
for i in out_*.vcf; do
    bgzip $i
    tabix ${i}.gz
done

然后,使用生成共识

samtools faidx $REFERENCE $REGION | bcftools consensus -H 1 out_0.vcf.gz > out_0_1.fa
samtools faidx $REFERENCE $REGION | bcftools consensus -H 2 out_0.vcf.gz > out_0_2.fa

限制

此工具将2^(n-1)在指定output文件夹中生成 VCF 文件,其中n是输入 VCF 中的阶段块数(见上文)。默认情况下,这限制为 11 个块,这意味着最多将创建 1024 个文件。使用 可以增加此限制--max-blocks,但请谨慎使用。

项目详情


下载文件

下载适用于您平台的文件。如果您不确定要选择哪个,请了解有关安装包的更多信息。

源分布

haploblock-shuffler-0.0.6.tar.gz (5.5 kB 查看哈希

已上传 source

内置分布

haploblock_shuffler-0.0.6-py3-none-any.whl (5.7 kB 查看哈希

已上传 py3