Navigation

    Gpushare.com

    • Register
    • Login
    • Search
    • Popular
    • Categories
    • Recent
    • Tags

    自动化后台训练日志保存、数据上传和及时关机~

    技术分享📚有奖励
    2
    2
    195
    Loading More Posts
    • Oldest to Newest
    • Newest to Oldest
    • Most Votes
    Reply
    • Reply as topic
    Log in to reply
    This topic has been deleted. Only users with topic management privileges can see it.
    • 152****1082 0
      Littleor last edited by 152****1082 0

      这里是一个简单易用的一个后台全自动化训练日志记录、结果数据自动保存和自动关机的脚本。
      仓库地址:https://github.com/Littleor/HY-Auto-Trainer

      特性

      • 使用 nohup 在后台进行训练,完全可以断开 ssh 的连接,解放双手。
      • 训练完成自动打包运行结果到 OSS 上,避免结果丢失。
      • 上传完成自动关机,省钱省事~

      用法

      配置

      • 复制目录下所有的 *.sh 文件到项目目录(如 /hy-tmp)
      • 给 *.sh 文件加上权限:
            chmod a+x *.sh
        
      • 修改 run.sh 中的 logPath 来修改日志保存路径
      • 修改 end.sh 中的 resultPath 来修改需要保存的运行结果的路径
      • 如果非 Python 项目, 则需要修改 end.sh 的 python 为对应的执行命令即可

      使用

      以本项目为例,在项目中有个 Train/main.py 文件作为模拟训练的文件,并将项目文件放在 /hy-tmp 目录下。

      运行方法:

      # ./run.sh [可执行文件目录] [Tag 用于标注结果]
      ./run.sh /hy-tmp/Train/main.py Test-Trainer
      
      1 Reply Last reply Reply Quote 3
      • Alice_恒源云
        Alice_恒源云 last edited by

        有点优秀,希望更多炼丹师可以来分享这些小技巧!

        1 Reply Last reply Reply Quote 0
        • First post
          Last post