[add]上传训练benchmark by z00560161

2020-10-19 20:22:23 +08:00
parent 22b83024f5
commit 82522e2f61
1225 changed files with 345421 additions and 0 deletions
@@ -0,0 +1,20 @@
+#!/usr/bin/env bash
+
+yamlPath=$1
+toolsPath=$2
+
+
+currentDir=$(cd "$(dirname "$0")/.."; pwd)
+export REMARK_LOG_FILE=hw_mobilenet.log
+benchmark_log_path=${currentDir%atlas_benchmark-master*}/atlas_benchmark-master/utils
+export PYTHONPATH=$PYTHONPATH:${benchmark_log_path}
+
+eval $(${toolsPath}/get_params_for_yaml.sh ${yamlPath} "common_config")
+
+cd ${ckpt_path%results*}/results
+rm -rf ./hw_mobilenet.log
+rm -rf ./eval.out
+
+python3.7 ${currentDir}/code/eval_image_classifier_mobilenet.py --dataset_dir=${data_url} \
+        --checkpoint_path=${ckpt_path}  > ./eval.out 2>&1
+
@@ -0,0 +1,66 @@
+#!/bin/bash
+
+rank_size=$1
+yamlPath=$2
+toolsPath=$3
+currentDir=$(cd "$(dirname "$0")/.."; pwd)
+
+# 从 yaml 获取配置
+eval $(${toolsPath}/get_params_for_yaml.sh ${yamlPath} "tensorflow_config")
+if [ -f /.dockerenv ];then
+        CLUSTER=$4
+        MPIRUN_ALL_IP="$5"
+        export CLUSTER=${CLUSTER}
+fi
+
+if [ x"$mode" != x"evaluate" ];then
+    currtime=`date +%Y%m%d%H%M%S`
+    mkdir -p ${currentDir%train*}/train/result/tf_mobilenet/training_job_${currtime}/
+    train_job_dir=${currentDir%train*}/train/result/tf_mobilenet/training_job_${currtime}/
+    echo "[`date +%Y%m%d-%H:%M:%S`] [INFO] ${train_job_dir} &"
+fi
+
+# device 列表, 若无指定 device 根据 rank_size 顺序选择
+eval device_group=\$device_group_${rank_size}p
+if [ x"${device_group}" == x"" ] || [ ${rank_size} -ge 8 ];then
+    device_group="$(seq 0 "$(expr $rank_size - 1)")"
+fi
+
+# get last device id in device_group, hw log in performance from the dir named last_device_id  
+device_group_str=`echo ${device_group} | sed 's/ //g'`
+first_device_id=`echo ${device_group_str: 0:1}`
+
+if [ x"${CLUSTER}" == x"True" ];then
+    # ln hw log
+    ln -snf ${currentDir%train*}/train/result/tf_mobilenet/training_job_${currtime}/0/hw_mobilenet.log ${currentDir%train*}/train/result/tf_mobilenet/training_job_${currtime}/
+
+    this_ip=$(hostname -I |awk '{print $1}')
+    for ip in $MPIRUN_ALL_IP;do
+        if [ x"$ip" != x"$this_ip" ];then
+            scp $yamlPath root@$ip:$yamlPath
+        fi
+    done
+    export PATH=$PATH:/usr/local/mpirun4.0/bin
+    mpirun -H ${mpirun_ip} \
+    --bind-to none -map-by slot\
+    --allow-run-as-root \
+    --mca btl_tcp_if_exclude lo,docker0,endvnic,virbr0,vethf40501b,docker_gwbridge,br-f42ac38052b4\
+    --prefix /usr/local/mpirun4.0/ \
+    ${currentDir}/scripts/train.sh 0 $rank_size $yamlPath $currtime ${toolsPath} ${CLUSTER}
+elif [ x"$mode" == x"train" ];then
+    # ln hw log
+    ln -snf ${currentDir%train*}/train/result/tf_mobilenet/training_job_${currtime}/${first_device_id}/hw_mobilenet.log ${currentDir%train*}/train/result/tf_mobilenet/training_job_${currtime}/
+    rank_id=0
+    for device_id in $device_group;do
+      ${currentDir}/scripts/train.sh $device_id $rank_size $yamlPath $currtime ${toolsPath} $rank_id &
+      let rank_id++
+    done
+else
+    echo "[`date +%Y%m%d-%H:%M:%S`] [INFO] ${ckpt_path%results*}/results &"
+    ln -snf ${ckpt_path%results*}/results/hw_mobilenet.log ${ckpt_path%results*}/..
+    bash ${currentDir}/scripts/eval.sh ${yamlPath} ${toolsPath}
+
+fi
+wait
+
+
@@ -0,0 +1,161 @@
+#!/usr/bin/env bash
+
+device_id=$1
+rank_size=$2
+yamlPath=$3
+currentDir=$(cd "$(dirname "$0")/.."; pwd)
+currtime=$4
+toolsPath=$5
+
+export YAML_PATH=$3
+mkdir -p ${currentDir%train*}/train/result/tf_mobilenet/training_job_${currtime}/
+export train_job_dir=${currentDir%train*}/train/result/tf_mobilenet/training_job_${currtime}/
+
+
+
+# 从 yaml 获取配置
+eval $(${toolsPath}/get_params_for_yaml.sh ${yamlPath} "tensorflow_config")
+export REMARK_LOG_FILE=hw_mobilenet.log
+benchmark_log_path=${currentDir%atlas_benchmark-master*}/atlas_benchmark-master/utils
+export PYTHONPATH=$PYTHONPATH:${benchmark_log_path}
+
+source ${currentDir}/config/npu_set_env.sh
+
+# user env
+export HCCL_CONNECT_TIMEOUT=600
+export JOB_ID=9999001
+export RANK_TABLE_FILE=${currentDir}/config/${rank_size}p.json
+export RANK_SIZE=${rank_size}
+export SLOG_PRINT_TO_STDOUT=0
+export DEVICE_ID=${device_id}
+DEVICE_INDEX=$(( DEVICE_ID + RANK_INDEX * 8 ))
+export DEVICE_INDEX=${DEVICE_INDEX}
+
+if [ ${profiling_mode} == True ];
+then
+	export PROFILING_MODE=true
+else
+	export PROFILING_MODE=false
+fi
+
+if [ ${aicpu_profiling_mode} == True ];
+then
+	export AICPU_PROFILING_MODE=true
+else
+        export AICPU_PROFILING_MODE=false
+fi
+
+export PROFILING_OPTIONS=${profiling_options}
+export FP_POINT=${fp_point}
+export BP_POINT=${bp_point}
+
+
+
+cd ${train_job_dir}
+curd_dir=${currentDir%atlas_benchmark-master*}/atlas_benchmark-master/utils/atlasboost
+export PYTHONPATH=$PYTHONPATH:${curd_dir}
+
+if [ x"$6" != x"True" ];then
+        rank_id=$6
+        export RANK_ID=$6
+else
+        device_id_mo=$(python3.7 -c "import src.tensorflow.mpi_ops as atlasboost;atlasboost.init(); \
+                device_id = atlasboost.local_rank();cluster_device_id = str(device_id); \
+                atlasboost.set_device_id(device_id);print(atlasboost.rank())")
+        device_id_mo=`echo $device_id_mo`
+        rank_id=${device_id_mo##* }
+        export RANK_ID=${rank_id}
+        device=${device_id_mo##*deviceid = }
+        device_id=${device%% phyid=*}
+        export DEVICE_ID=${device_id}
+        hccljson=${train_job_dir}/*.json
+        cp ${hccljson} ${currentDir}/config/${rank_size}p.json
+fi
+
+#mkdir exec path
+mkdir -p ${train_job_dir}/${device_id}
+cd ${train_job_dir}/${device_id}
+
+startTime=`date +%Y%m%d-%H:%M:%S`
+startTime_s=`date +%s`
+
+if [ x"${mode}" == x"evaluate" ];then
+    # 评测
+    python3.7 ${currentDir}/code/eval_image_classifier_mobilenet.py \
+        --checkpoint_path="${ckpt_path}" \
+        --dataset_dir=${data_url} > ./train.log 2>&1
+else
+    # 根据单卡/多卡区分调用参数
+    if [ x"$6" == x"True" ];then
+        export CLUSTER=True
+        python3.7 ${currentDir}/code/train.py \
+            --dataset_dir=${data_url} \
+            --max_epoch=${epoches} \
+            --model_name="mobilenet_v2" \
+            --moving_average_decay=0.9999 \
+            --label_smoothing=0.1 \
+            --preprocessing_name="inception_v2" \
+            --weight_decay='0.00004' \
+            --batch_size=${batch_size} \
+            --learning_rate_decay_type='cosine_annealing' \
+            --learning_rate=0.8 \
+            --optimizer='momentum' \
+            --momentum='0.9' \
+            --warmup_epochs=5 > ${train_job_dir}/train_${device_id}.log 2>&1
+    elif [ x"${rank_size}" == x"1" ];then
+        # 单卡
+        python3.7 ${currentDir}/code/train.py \
+            --dataset_dir=${data_url} \
+            --max_train_steps=${max_steps} \
+            --iterations_per_loop=50 \
+            --model_name="mobilenet_v2" \
+            --moving_average_decay=0.9999 \
+            --label_smoothing=0.1 \
+            --preprocessing_name="inception_v2" \
+            --weight_decay='0.00004' \
+            --batch_size=${batch_size} \
+            --learning_rate_decay_type='cosine_annealing' \
+            --learning_rate=0.4 \
+            --optimizer='momentum' \
+            --momentum='0.9' \
+            --warmup_epochs=5 > ${train_job_dir}/train_${device_id}.log 2>&1
+    elif [ ${rank_size} -le 8 ];then
+        # 多卡单机
+        python3.7 ${currentDir}/code/train.py \
+            --dataset_dir=${data_url} \
+            --max_epoch=${epoches} \
+            --model_name="mobilenet_v2" \
+            --moving_average_decay=0.9999 \
+            --label_smoothing=0.1 \
+            --preprocessing_name="inception_v2" \
+            --weight_decay='0.00004' \
+            --batch_size=${batch_size} \
+            --learning_rate_decay_type='cosine_annealing' \
+            --learning_rate=0.8 \
+            --optimizer='momentum' \
+            --momentum='0.9' \
+            --warmup_epochs=5 > ${train_job_dir}/train_${device_id}.log 2>&1
+    fi
+fi
+
+if [ $? -eq 0 ];then
+    echo ":::ABK 1.0.0 hw_mobilenet train success"
+    echo ":::ABK 1.0.0 hw_mobilenet train success" >> ${train_job_dir}/train_${device_id}.log 2
+    echo ":::ABK 1.0.0 hw_mobilenet train success" >> ./hw_mobilenet.log
+else
+    echo ":::ABK 1.0.0 hw_mobilenet train failed"
+    echo ":::ABK 1.0.0 hw_mobilenet train failed" >> ${train_job_dir}/train_${device_id}.log 2
+    echo ":::ABK 1.0.0 hw_mobilenet train failed" >> ./hw_mobilenet.log
+fi
+
+endTime=`date +%Y%m%d-%H:%M:%S`
+endTime_s=`date +%s`
+
+sumTime=$[ $endTime_s - $startTime_s ]
+
+hour=$(( $sumTime/3600 ))
+min=$(( ($sumTime-${hour}*3600)/60 ))
+sec=$(( $sumTime-${hour}*3600-${min}*60 ))
+echo ":::ABK 1.0.0 mobilenet train total time：${hour}:${min}:${sec}"
+
+echo ":::ABK 1.0.0 mobilenet train total time： ${hour}:${min}:${sec}" >> ./hw_mobilenet.log