Skip to main content

在 SLURM 集群上训练 TensorFlow 模型的设置。

项目描述

斯科奇

在 SLURM 集群上训练 Tensorflow 模型的设置

它是如何工作的?

  • 需要的输入(参见示例目录):
    • .json带有训练参数的文件
    • .json包含模型定义的文件
    • .py包含训练代码的文件。
    • 有一个用于与 scoach 交互的 CLI 应用程序
    • 运行scoach init以设置您的配置文件,例如在config_example.yaml
    • 在 SLURM 集群的登录机器上,运行scoach start. 这将启动一个守护进程,然后根据请求启动作业。
    • 在任何机器上,您都可以scoach run submit提交作业。
    • 这会将 Python 脚本上传到 MinIO 并将配置提交到数据库。
    • 新的运行由守护进程消耗,然后使用 Jinja2 渲染训练脚本并将其提交到集群。
    • 然后使用 Dask 工作者在集群上运行训练脚本,该脚本将根据需要增长。

去做

  • 添加选项--localscoach start在本地启动运行
  • 添加对上传/管理数据集的支持
  • 没有 Python 脚本重复

项目详情


下载文件

下载适用于您平台的文件。如果您不确定要选择哪个,请了解有关安装包的更多信息。

源分布

scoach-0.1.9.tar.gz (25.7 kB 查看哈希

已上传 source

内置分布

scoach-0.1.9-py3-none-any.whl (41.6 kB 查看哈希

已上传 py3