来自内皮细胞单细胞转录组学的 Comberons
项目描述
迪克尼奥
该存储库包含 DECNEO,这是一个 Python 包,提供用于分析单细胞转录组学数据集的生物信息学实用程序。DECNEO 实现了转录调控基因的计算机检测。该文档可在阅读文档中获得:https ://decneo.readthedocs.io/
入门
这些是有关如何获取该项目的副本并将其用于数据分析的说明。
安装
该软件在 Python >= 3.8 中运行
要将 DECNEO 作为一个软件包安装:
$ pip install decneo
或者,克隆此项目的本地副本以从克隆目录安装包:
git clone https://github.com/sdomanskyi/decneo
python setup.py install
依赖项
DECNEO 依赖于以下软件包,这些软件包随 DECNEO 的安装而安装/更新:
- Matplotlib - 从 Python 绘图
- NetworkX - 用于网络富集分析
- Pandas 和表格 - 用于数据存储和分析
- NumPy - 用于处理数据
- sklearn - 我们使用聚类算法和指标
- adjustText - 图中文本标签位置的优化
功能性
概述
DECNEO 的主要实现包括快速有效地计算单细胞基因表达距离(例如相关性)的工作流程,然后是引导技术来解释输入数据中的变化和噪声。结果以优化的树状图、热图和信息面板的形式进行了总结。对测量面板组合的分析允许识别在感兴趣的细胞类型中共表达的主要和次要基因组。
输入数据格式
需要用于比较的两种不同物种的表达数据。对于这些物种中的每一个,提供输入基因表达数据,预期采用以下格式之一:
-
逗号分隔值的电子表格,
csv其中行是基因,列是具有基因表达计数的细胞,这应该伴随着另一个数据框,其中两列指定批次,另一列指定相应的单元格。或者,数据框的第一行应该是'batch'第二行'cell'。 -
Pandas DataFrame哪里axis 0是基因,哪里是axis 1细胞。如果在数据中分批处理,则索引axis 1应该具有两个级别,例如('batch', 'cell'),第一级别指示对该细胞进行测序的患者、批次或实验,第二级别包含用于识别的细胞条形码。
有关示例,请参阅文档。
使用示例
我们制作了一个示例执行文件demo.py,展示了如何使用decneo.
从https://doi.org/10.5281/zenodo.4419880下载文件VoightChoroid4567RemappedData.h5(456.7 Mb)
该文件包含 8 个批次的 7996 个内皮细胞和 8 个批次的 5704 个非内皮细胞的 27504 个基因的标准化基因表达。从非内皮细胞数据集中去除不在内皮细胞中表达的基因
将下载的数据文件保存到demo/,或以其他方式修改 中demoData的
路径demo.py:
在以下位置查看脚本demo.py的详细信息:
要执行完整的脚本demo.py运行:
python demo.py
如果读取演示数据给出错误“不支持的pickle协议:5”,请确保使用了python 3.8并安装了最新版本的pandas和tables。
输出
将所有生成的目录、文件和图形输出到workingDir创建类实例时指定的目录Analysis。它还将输出一份分析报告,详细说明所有结果和数据。
有关详细列表,请参阅文档。
资金
该研究项目是 R01GM122085 赠款的一部分,由 NIH/NIGMS 资助。
许可
DECNEO 在 MIT 许可下发布。还请查阅与 DECNEO 一起分发的文件夹 LICENSES,了解有关使用外部关联内容的许可信息。
项目详情
下载文件
下载适用于您平台的文件。如果您不确定要选择哪个,请了解有关安装包的更多信息。