msMonitor工具快速入门¶
下面通过msMonitor常见的使用场景介绍msMonitor工具快速入门:
- 先使用npu-monitor功能获取关键算子耗时。
- 当发现监控到关键算子耗时劣化,使用nputrace功能采集详细性能数据做分析。
前提条件
完成msMonitor工具安装,具体请参见《msMonitor工具安装指南》。
操作步骤
- 启动dynolog daemon进程。
命令示例如下:
# 命令行方式开启dynolog daemon
dynolog --enable-ipc-monitor --certs-dir /home/server_certs
# 如需使用Tensorboard展示数据,传入参数--metric_log_dir用于指定Tensorboard文件落盘路径
dynolog --enable-ipc-monitor --certs-dir /home/server_certs --metric_log_dir /tmp/metric_log_dir # dynolog daemon的日志路径为:/var/log/dynolog.log
- 配置msMonitor环境变量。
- 设置LD_PRELOAD启动MSPTI(启动npu-monitor功能设置)。
# 默认路径示例:export LD_PRELOAD=/usr/local/Ascend/ascend-toolkit/latest/lib64/libmspti.so
export LD_PRELOAD=<CANN toolkit安装路径>/ascend-toolkit/latest/lib64/libmspti.so
- 启动训练或推理任务。
- 使用dyno命令行触发npu-monitor监控关键算子耗时。
# 开启npu-monitor,上报周期30s, 上报数据类型为Kernel
dyno --certs-dir /home/client_certs npu-monitor --npu-monitor-start --report-interval-s 30 --mspti-activity-kind Kernel
# 关闭npu-monitor
dyno --certs-dir /home/client_certs npu-monitor --npu-monitor-stop
- 使用dyno命令行触发nputrace采集详细trace数据(需要关闭npu-monitor功能才能触发nputrace功能)。