HiC 综合网络分析
项目描述
最新更新于 2022 年 7 月 9 日,
HiC 综合网络分析
概述
该模块是一个 Python 包,包含用于对 Hic 数据的差异交互进行网络分析的工具。
硬件要求
这个软件包只需要一台具有足够 RAM 的标准计算机来支持内存中的操作。
软件要求
我们强烈建议您在安装 HicHub 之前安装 Anaconda。HicHub 主要依赖 Python 科学栈。
python >=3
pandas = 1.4.3
numpy = 1.23.0
bedtool >= 2.70.1
pybedtools = 0.9.0
python-igraph = 0.9.11
scipy = 1.8.1
hic-straw = 1.3.1
statsmodels = 0.13.2
pycairo >= 1.11.0
安装指南
在安装 HicHub 之前,请确保您安装了以下软件包:
pip install hic-straw
sudo apt-get install bedtools
pip install pybedtools
pip install pycairo
pip install scipy
快速安装。请在您的 Linux shell 中键入以下命令来安装 HicHub。
python -m pip install git+https://github.com/WeiqunPengLab/HiCHub
如果安装成功,输入
hichub
在您的 Linux shell 中,您将看到以下界面:
welcome
The python env is: [your python version] (main, [time you type this command])
[GCC 7.5.0]
usage: hichub [-h] {convert, diff, asso, plot} ...
hichub -- A toolset to detect and analyze differential Hubs.
positional arguments:
{convert, diff, asso, plot} sub-command help
convert Convert multi .hic to .txt format.
diff Parser for call hubs
asso Parser for associate clusters with promoter
plot Parser for plot clusters in igraph package.
optional arguments:
-h, --help show this help message and exit
运行示例
为了调用HicHubs,首先需要准备两个(.hic)文件,放在同一个目录下。
在这个 Github 中,目录 '~/test' 下有两个 (.hic) 文件,分别名为 'H1ESC.hic' 和 'HFFc6.hic'。
请下载它们进行测试。
注意:您需要在同一目录中运行所有这些进程,一旦完成一步,请不要更改输出文件的名称!
'兑换'
首先,您需要使用“转换”命令将它们转换为我们将使用的 (.txt) 格式,
hichub convert -i [run path] -f [file names, seperate with ','] -l [label of output, seperate with ','] -r [resolution of bin]
-i :您的输入路径,您存储两个 (.hic) 文件的目录,您运行 HicHub 程序的目录。
-f :您的输入文件名,用逗号分隔。例如'-f H1ESC.hic,HFFc6.hic'。
-l :您的输出文件的标签,以相同的顺序命名您的两个输入文件,用逗号分隔它们。例如'-l H1ESC,HFFc6'。
-r : 基因组上一个 bin 的长度,单位是 'bp'。例如'-r 10000'。
例如:(测试数据可能需要您大约 2 分钟才能完成。)
hichub convert -i /mnt/d/test -f H1ESC.hic,HFFc6.hic -l H1ESC,HFFc6 -r 10000
输出是一个 (.txt) 格式的文件,其中包含两个 (.hic) 文件的联系矩阵,格式如下:
#chr bin1 bin2 label1 label2
(两个标签之间的空白是制表符。)
例如(测试数据的输出):
#chr bin1 bin2 H1ESC HFFc6
其中,'#chr'、'bin1'、'bin2'分别代表染色体、左锚位置和右锚位置。
'差异'
当您通过命令“convert”将两个(.hic)文件转换为(.txt)格式时,您可以使用命令“diff”来调用集线器。
hichub diff -i [yout (.txt) file's name] -l [label you have used before] -r [resolution of bin] -c [optional, cut-off threshold] -d [optional, folde change threshold] -p [optional, p-value threshold]
-i :您在“转换”步骤中转换的 (.txt) 文件的名称。例如:'-i Summary_H1ESC_HFFc6_Dense_Matrix.txt'
-l :您在“转换”步骤中使用的标签。例如: '-l H1ESC,HFFc6'
-r :您在“转换”步骤中使用的分辨率。例如: '-r 10000'
-c : 可选默认值 = 10,删除两个接触矩阵值之和小于阈值。例如:'-c 10'。
-d : 可选默认值 = 1.0,判断是否在聚类分析中保持优势的阈值,详情见论文。
-p :可选默认值 = 0.00001,选择小于某个 p 值的集线器的阈值。
例如:(测试数据可能需要您大约 4 分钟才能完成。)
hichub diff -i Summary_H1ESC_HFFc6_Dense_Matrix.txt -l H1ESC,HFFc6 -r 10000
hichub diff -i Summary_H1ESC_HFFc6_Dense_Matrix.txt -l H1ESC,HFFc6 -r 10000 -c 10 -d 1 -p 0.00001
有四个输出文件。
(1) --- 'H1ESC_specific_hubs.bed'
(2) --- 'HFFc6_specific_hubs.bed'
(3) --- 'cluster_H1ESC.txt'
(4) --- 'cluster_HFFc6.txt'
(1) 和 (2) 包含我们发现的特定于细胞类型的集线器。输出文件(集线器)的格式为:
left_hub_anchor right_hub_anchor -log10(pvalue)
(两个标签之间的空白是制表符。)
(3)和(4)记录了我们用来调用hub的集群信息,它们用于在下面的函数中绘制网络图。
'副'
该功能将基因组注释(基因、开放染色质)与网络簇相关联。
在“~/test”文件夹中,还有两个名为“promoter.bed”和“DNase.bed”的测试文件,其中包含用于测试数据的基因启动子和DNase信息。
hichub asso -i [run path] -l [label you have used before] -p [the files contain gene promoter] -f [Optional, file name for DNase, CTCF, ...]
-i :你的输入路径,你运行HicHub程序的目录。例如: '-i /mnt/d/test'
-l :您在 'convert' 和 'diff' 步骤中使用的标签。例如: '-l H1ESC,HFFc6'
-p : 包含基因启动子信息的文件名。它包含您想要在未来分析和绘制的基因的坐标和名称。输入格式应为:
#chr start end gene_name
(两个标签之间的空白是制表符。)
-f :可选。包含另一个因素的信息的文件的名称,例如DNase,CTCF ...。输入格式如下所示,其中信号表示您的因素的计数在两种情况之间是增加还是减少,如果在情况下label1大于label2 , 请将它们标记为'up',如果在label2大于label1的情况下,请将它们标记为'down',如果没有变化,请将它们标记为数字0。label1和label2代表你的因素在给定区域的计数.
#chr start end label1 label2 signal
(两个标签之间的空白是制表符。)
例如:(测试数据可能需要您大约 1 分钟才能完成。)
hichub asso -i /mnt/d/test -l H1ESC,HFFc6 -p promoter.bed
hichub asso -i /mnt/d/test -l H1ESC,HFFc6 -p promoter.bed -f DNase.bed
输出是名称为“cluster_annotated_H1ESC.txt”和“cluster_annotated_H1ESC.txt”的文件。他们将基因与集群节点相关联。
'阴谋'
此函数绘制与一个或多个特定基因相关的网络以及注释信息。
hichub plot -i [yout (.txt) file's name] -l [label you have used before] -p [the files contain gene promoter] -n [gene names, seperate with ','] -c [optional, cut-off threshold you have used in 'diff'] -d [optional, folde change threshold you have used in 'diff']
-i :您在“转换”步骤中转换的 (.txt) 文件的名称。例如:'-i Summary_H1ESC_HFFc6_Dense_Matrix.txt'
-l :你在'convert'、'diff'、'asso'步骤中使用的标签。例如: '-l H1ESC,HFFc6'
-p : 包含基因启动子信息的文件名。
输入格式应为:#chr----start----end----gene_name
-n:您要绘制的基因名称。例如:'-n CPTC,DFFB'
-c :可选默认值 = 10。您在“diff”中使用的 -c 值。
-d :可选默认值 = 1.0。您在 'diff' 中使用的 -d 值。
结果将包含您输入的基因的网络图。
如果该基因不在任何集线器中,您将收到提示:“'gene_name' 不存在于任何集线器中。”
例如:(测试数据可能需要您大约 3 分钟才能完成。)
hichub plot -i Summary_H1ESC_HFFc6_Dense_Matrix.txt -l H1ESC,HFFc6 -p promoter.bed -n CPTP
它将围绕基因 CPTP 绘制网络。
1.0.0
作者
- 李向、原双、朱少奇
执照
#此项目在 MIT 许可下获得许可 - 详情请参阅LICENSE.md文件
项目详情
下载文件
下载适用于您平台的文件。如果您不确定要选择哪个,请了解有关安装包的更多信息。