跳转至

Info

本页来自 msmonitor 仓库根目录的 README.md, 构建时直接从 origin/master 导出。

MindStudio Monitor

昇腾集群在线性能监控与动态采集工具

🚀 快速入门 | 🛠️ 安装指南 | 📦 版本说明 | 📖 工具文档 | 💬 问题反馈

📢 最新消息

  • [2025.12.30] msMonitor开源

📌 简介

MindStudio Monitor(msMonitor)是面向昇腾集群场景的在线性能监控与动态采集工具, 基于 dynologMSPTI 构建,支持 npu-monitornputraceMonitor API 等能力。

支持框架 Profiler:Ascend PyTorch Profiler | MindSpore Profiler

msMonitor

核心组件如下:

组件 作用 文档
Dynolog daemon 服务端守护进程,负责接收 dyno 请求并触发监控与采集。 dynolog 使用说明
Dyno CLI 客户端命令行入口,用于下发 npu-monitornputrace 命令。 dyno 使用说明
MSPTI Monitor 基于 MSPTI 的采集模块,负责获取并上报性能数据。 -

🔍 目录结构

关键目录如下,详细目录介绍请参见 《项目目录》

├── docs                    # 项目文档目录
│   └── zh                  # 中文文档目录
├── dynolog_npu             # dynolog_npu 模块代码目录
├── plugin                  # 插件模块代码目录
├── scripts                 # 构建、测试等脚本目录
│   ├── build.sh            # dynolog_npu 构建脚本
│   ├── run_st.sh           # 系统测试脚本
│   └── run_ut.sh           # 单元测试脚本
├── test                    # 测试代码目录
│   ├── st                  # 系统测试用例
│   └── ut                  # 单元测试用例
├── third_party             # 第三方依赖库
└── README.md               # 项目说明文档

📖 功能介绍

msMonitor 提供以下核心能力:

功能名称 功能简介 说明文档
npu-monitor 轻量常驻后台,持续监控关键算子耗时,适合在线观察性能波动。 点击查看
nputrace 动态触发框架、CANN 和 Device 侧性能数据采集与解析,无需中断任务运行。 点击查看
Monitor API 提供 Python 接口,采集计算类算子、通信类算子、API、Runtime API、Mstx 等性能数据。 点击查看

[!NOTE] 由于底层资源限制,npu-monitornputrace 不能同时开启。

🛠️ 安装指南

msMonitor 当前支持软件包安装编译安装两种方式:

🚀 快速入门

首次使用 msMonitor 时,推荐直接按下面这条主线完成从安装到采集的端到端体验。 更完整的安装说明请参见 《安装指南》

  1. 选择匹配版本并下载安装包。

根据 版本配套说明 选择与当前 CANNtorch_npuMindSpore 和 CPU 架构匹配的软件包,并下载到 Linux 环境。

  1. 校验并安装 msMonitor 软件包。
# 校验下载包
sha256sum x86_8.3.0.zip

# 解压安装包
mkdir x86
unzip x86_8.3.0.zip -d x86
cd x86

# 安装 whl 包,需选择与当前 Python 版本匹配的文件
pip install \
  mindstudio_monitor-{mindstudio_version}-cp{python_version}-cp{python_version}-linux_{system_architecture}.whl

# 安装 dynolog,按服务器系统选择其一
dpkg -i --force-overwrite dynolog*.deb
# rpm -ivh dynolog*.rpm --nodeps
  1. 启动 dynolog daemon 进程。
dynolog --enable-ipc-monitor --certs-dir /home/server_certs
  1. 配置环境变量并启动训练或推理任务。
export MSMONITOR_USE_DAEMON=1
export LD_PRELOAD=<CANN安装路径>/ascend-toolkit/latest/lib64/libmspti.so

bash run_ai_task.sh
  1. 先使用 npu-monitor 观察关键算子耗时。
dyno --certs-dir /home/client_certs npu-monitor \
  --npu-monitor-start --report-interval-s 30 \
  --mspti-activity-kind Kernel
  1. 发现耗时劣化后,关闭 npu-monitor 并触发 nputrace 采集详细数据。
dyno --certs-dir /home/client_certs npu-monitor --npu-monitor-stop
dyno --certs-dir /home/client_certs nputrace \
  --start-step 10 --iterations 2 --activities CPU,NPU \
  --analyse --data-simplification false \
  --log-file /tmp/profile_data
  1. 按需查看详细说明。

  2. npu-monitor 使用说明: source/npumonitor_instruct.md

  3. nputrace 使用说明: source/nputrace_instruct.md
  4. MindSpore 适配说明: source/mindspore_adapter_instruct.md

版本配套说明

msMonitor 由以下三个交付件组成:

交付件 说明
dyno dyno 客户端二进制文件
dynolog dynolog 服务端二进制文件
mindstudio_monitor-{mindstudio_version}-cp{python_version}-cp{python_version}-linux_{system_architecture}.whl MSPTI Monitor、IPC 等公共能力工具包

当前仓库维护的软件包版本如下,完整版本说明请参见 《版本说明》

版本 架构 发布日期 CANN torch_npu MindSpore 下载 校验码
8.3.0 aarch64 2025-12-29 8.3.RC1+ v7.3.0+ 2.7.2+ aarch64_8.3.0.zip 2c675ae346dfc1c70f5e9c7103d6f8c7e53be00dca28ed5f9cc577ac59e4bc44
8.3.0 x86 2025-12-29 8.3.RC1+ v7.3.0+ 2.7.2+ x86_8.3.0.zip 1a38cc141e67c50eb09ebdc757c1fd3ed54439f227459e71292b2d18bb78e7f0
8.1.0 aarch64 2025-07-11 8.1.RC1+ v7.1.0+ 2.7.0-rc1+ aarch64_8.1.0.zip ce136120c0288291cc0a7803b1efc8c8416c6105e9d54c17ccf2e2510869fada
8.1.0 x86 2025-07-11 8.1.RC1+ v7.1.0+ 2.7.0-rc1+ x86_8.1.0.zip 097d11c7994793b6389b19259269ceb3b6b7ac5ed77da3949b3f09da2103b7f2

📝 相关说明

联系我们

欢迎大家通过 Issues 反馈问题、需求和建议,我们会尽快响应。 若希望加入社区交流,也可以通过以下入口进一步了解 MindStudio 团队。

昇腾论坛: 昇腾论坛 昇腾小助手: 昇腾小助手二维码

🤝 致谢

msMonitor 由华为公司的下列部门联合贡献:

  • 昇腾计算 MindStudio 开发部

感谢来自社区的每一个 Pull Request,欢迎贡献 msMonitor。

关于 MindStudio 团队

华为 MindStudio 全流程开发工具链团队致力于提供端到端的昇腾 AI 应用开发解决方案,帮助开发者高效完成训练开发、推理开发和性能调优。 更多信息可访问: