训练benchmark
支持的产品
Atlas 800 (Model 9000)
操作系统
centos7.6 & ubuntu 18.04
训练方法
- 根据实际情况修改 ./yaml/ 目录下的对应的 yaml 文件,建议备份原文件,且保持 yaml 文件名与模型名称相同。
- 在当前目录(train)下,执行:
./benchmark.sh --help查看帮助信息。 - 根据 帮助信息 或本文件中的 运行参数说明 选择配置运行参数后,执行:
./benchmark.sh
示例
- 示例1,docker 环境下启动 MobileNet 多卡(8p)训练:
./benchmark.sh -e MobileNet -hw 8p -y ./yaml/MobileNet.yaml -docker - 示例2,host 环境下启动 MobileNet 单卡(1p)训练,yaml 使用默认文件:
./benchmark.sh -e MobileNet - 示例3,host 环境下启动 ResNet50 集群(cluster)训练,yaml 使用默认文件:
./benchmark.sh -e ResNet50 -hw ct - 示例4,host 环境下启动 pytorch模型DeepMar单卡(1p)训练,yaml 使用默认文件:
./benchmark.sh -e DeepMar -hw 1p -f pytorch - 示例5,host 环境下启动 pytorch模型DeepMar多卡(8p)训练,yaml 使用默认文件:
./benchmark.sh -e DeepMar -hw 8p -f pytorch - 示例6,docker环境下启动 pytorch模型DeepMar多卡(8p)训练,yaml 使用默认文件:
./benchmark.sh -e DeepMar -hw 8p -f pytorch -docker
运行参数说明
| 参数 | 是否必填 | 参数说明 | 默认值 |
|---|---|---|---|
| --execmodel, -e | 选填 | 需要执行的模型名称 | ResNet50 |
| --hardware, -hw | 选填 | 选择 1p, 2p, 4p, 8p, cluster/ct | 1p |
| --yamlpath, -y | 选填 | yaml 文件的路径 | ./yaml/{execmodel}.yaml |
| --framework, -f | 选填 | 模型训练框架 | tensorflow |
| -docker, -host | 选填 | 选择 docker 或 host | host |
| --help, -h | 选填 | 显示帮助信息 | NA |
| --list, -l | 选填 | 显示当前支持的模型与框架 | NA |
查看日志
- 可在 train/result/ 目录下查看各个模型最后生成的含性能与精度数据的日志。
- 中间结果ckpt或其他文件存放在 device id 下。
- train_x.log 为模型训练过程日志,内容较为详细;以 hw 开头的日志为打点日志,仅记录数据。
注意事项
- yaml 文件中的值可以参考注释,根据实际情况自行修改。键不可随意修改,否则可能导致训练失败或训练结果偏离实际。
- 集群(cluster)执行时,请保证各节点环境配置相同,且包括配置文件、数据集、代码绝对路径相同。