NGS 比对文件的质量控制工具
项目描述
“ezBAMQC,一种检查映射的下一代测序文件质量的工具。”
- 密码学图标:
- 说明:
ezBAMQC 是一种用于检查一个或多个映射的下一代测序数据集质量的工具。它从多个方面对对齐的测序数据进行综合评估,包括:剪辑轮廓、映射质量分布、映射读取长度分布、基因组/转录组映射分布、内部距离分布(用于双端读取)、核糖体 RNA 污染、转录本 5' 和3' 末端偏差、转录丢失率、样本相关性、样本重现性、样本变异。它输出一组表格和绘图以及一个包含结果摘要的 HTML 页面。许多指标是专门为 RNA-seq 数据设计的,但 ezBAMQC 可以应用于任何映射的测序数据集,例如 RNA-seq、CLIP-seq、GRO-seq、ChIP-seq、DNA-seq 等。
- 链接:
- 作者:
英金、大卫莫利克和莫莉哈梅尔
- 版本:
0.6.7
- 联系方式:
ezBAMQC 源安装指南
安装 ezBAMQC 时有几个选项,但要点是:由于 ezBAMQC 使用 C++ STD 11,因此您需要一个可以支持它的 GCC 版本,这通常意味着 4.8 或 4.9。除此之外,您还需要 Python、R 和 Corrplot 来与 C 代码交互。
- 安装:
- 先决条件:
GCC 4.8.1 或更高版本 GCC 4.9.1 或更高版本推荐用于 PyPi 安装
- 备注:
虽然有多种安装先决条件的方法,但可能有助于查看(如果使用基于 yum 的 linux 发行版):*
GCC 编译器的 Devtoolset-3
IUS for Python2.7
软件集合的软件集合(如 devtoolset 3 或 python)
用于跨多个系统搜索 rpm 的rpmfinder
设置
确保 GCC 编译器在您的 PATH 中:
export PATH=/path/to/gcc:$PATH
确保 python2.7 在你的 PYTHONPATH 中:
export PYTHONPATH=/path/to/python2.7/site-packages:$PYTHONPATH
安装 ezBAMQC 有三种方法,从源代码、从 setup.py 和从 pypi,一旦设置了先决条件。
从源头
下载源
解压tarball并进入包目录:
tar xvfz bamqc-0.6.7.tar.gz cd bamqc-0.6.7
运行make:
make
从 Setup.py
python2.7 setup.py install
来自皮皮
pip2.7 install BAMqc
用法
ezBAMQC [-h] -i alignment_files [alignment_files ...] -r [refgene] [-f [attrID]] [--rRNA [rRNA]] -o [dir] [--stranded [stranded]] [-q [mapq]] [-l labels [labels ...]] [-t NUMTHREADS]
可选参数:
-h, --help show this help message and exit.
-i, --inputFile alignment files. Could be multiple SAM/BAM files separated by space. Required.
-r, --refgene gene annotation file in GTF format. Required
-f the read summation at which feature level in the GTF file. DEFAULT: gene_id.
--rRNA rRNA coordinates in BED format.
-o, --outputDir output directory. Required.
--stranded strandness of the library?
yes : sense stranded
reverse : reverse stranded
no : not stranded
DEFAULT: yes.
-q, --mapq Minimum mapping quality (phred scaled) for an alignment to be called uniquely mapped. DEFAULT:30
-l, --label Labels of input files. DEFAULT:smp1 smp2 ...
-t, --threads Number of threads to use. DEFAULT:1
例子:
ezBAMQC -i test-data/exp_data/treat1.bam test-data/exp_data/treat2.bam test-data/exp_data/treat3.bam -r test-data/exp_data/hg9_refGene.gtf -q 30 --rRNA test-data/exp_data/hg19_rRNA.bed -o exp_output2 Please find the example output from folder test-data.
演示
想在尝试之前先尝试 ezBAMQC?您现在可以利用托管在我们的Yabi Demo上的工具演示来执行此操作。
登录使用用户名和密码: |
|---|
|
登录屏幕、用户名和密码位于右上角。
在“设计”框架中,使用“全部显示”按钮使 ezBAMQC 工具可见。
ezBAMQC 工具页面,从 S3 实例中选择合适的文件或上传您自己的文件。
关于 Yabi 的注释,Yabi 由比较基因组学中心创建,https://ccg.murdoch.edu.au/。您可以查看我们更广泛的 Yabi Demo,https://ccgapps.com.au/yabi/ 或他们的 Yabi Wiki,https://bitbucket.org/ccgmurdoch/yabi/wiki/Home 了解更多信息。
常问问题
问:为什么要使用ezBAMQC?
A:ezBAMQC 高效且易于使用。通过一个命令行,它通过一组图表和表格报告对数据的综合评估。同时评估多个样本的高效能力使其在同一条件下存在大量样本的情况下特别有用,基因型,或治疗。ezBAMQC 是用 C++ 编写的,支持多线程。一个 120M 比对的小鼠 RNA-seq 样本可以用 5 个线程在 8 分钟内完成。
Q:为什么ezBAMQC报告的总读取数与samtools flagstat不匹配?
A:区别在于非唯一映射读取或多重对齐读取(multi-reads)。Samtools flagstat 将每个多重对齐计数为不同的读取,但ezBAMQC 根据读取ID 计数读取,即每个单独的读取将被计数一次,无论它是唯一映射读取还是多重读取。
问:什么是“低质量读取”?
A: 标记为 qc 的读取根据 SAM 格式失败或映射质量低于选项 -q 设置的值的读取将被视为“低质量读取”。
问:选项 -q 的设置如何改变结果?
A:低质量的Reads,即没有通过-q cutoff,只计入Total Reads、Mapped Reads和Mappability by mapping quality plot。报告的其余部分不包括低质量读数。
Q:在Read分布和基因定量中是否考虑了multi-reads(非唯一映射的reads)?
答:不。只计算唯一映射的读数。
致谢
Samtools 贡献者
用户的宝贵意见
复制和分发
ezBAMQC 是免费软件:您可以根据自由软件基金会发布的 GNU 通用公共许可证条款重新分发和/或修改它,许可证的第 3 版或(由您选择)任何更高版本。
分发此程序是希望它有用,但不提供任何保证;甚至没有对适销性或特定用途适用性的默示保证 。有关详细信息,请参阅 GNU 通用公共许可证。
您应该已经收到了一份 GNU 通用公共许可证的副本以及 ezBAMQC。如果没有,请查看此网站