在 SLURM 集群上训练 TensorFlow 模型的设置。
项目描述
斯科奇
在 SLURM 集群上训练 Tensorflow 模型的设置
它是如何工作的?
- 需要的输入(参见示例目录):
.json带有训练参数的文件.json包含模型定义的文件.py包含训练代码的文件。- 有一个用于与 scoach 交互的 CLI 应用程序
- 运行
scoach init以设置您的配置文件,例如在config_example.yaml - 在 SLURM 集群的登录机器上,运行
scoach start. 这将启动一个守护进程,然后根据请求启动作业。 - 在任何机器上,您都可以
scoach run submit提交作业。 - 这会将 Python 脚本上传到 MinIO 并将配置提交到数据库。
- 新的运行由守护进程消耗,然后使用 Jinja2 渲染训练脚本并将其提交到集群。
- 然后使用 Dask 工作者在集群上运行训练脚本,该脚本将根据需要增长。
去做
- 添加选项
--local以scoach start在本地启动运行 - 添加对上传/管理数据集的支持
- 没有 Python 脚本重复
项目详情
下载文件
下载适用于您平台的文件。如果您不确定要选择哪个,请了解有关安装包的更多信息。
源分布
scoach-0.1.9.tar.gz
(25.7 kB
查看哈希)
内置分布
scoach-0.1.9-py3-none-any.whl
(41.6 kB
查看哈希)