Info
本页来自 msmonitor 仓库根目录的 README.md,
构建时直接从 origin/master 导出。
MindStudio Monitor
📢 最新消息¶
- [2025.12.30] msMonitor开源
📌 简介¶
MindStudio Monitor(msMonitor)是面向昇腾集群场景的在线性能监控与动态采集工具,
基于 dynolog 和 MSPTI 构建,支持 npu-monitor、
nputrace 和 Monitor API 等能力。
支持框架 Profiler:Ascend PyTorch Profiler | MindSpore Profiler
核心组件如下:
| 组件 | 作用 | 文档 |
|---|---|---|
Dynolog daemon |
服务端守护进程,负责接收 dyno 请求并触发监控与采集。 | dynolog 使用说明 |
Dyno CLI |
客户端命令行入口,用于下发 npu-monitor 和 nputrace 命令。 |
dyno 使用说明 |
MSPTI Monitor |
基于 MSPTI 的采集模块,负责获取并上报性能数据。 | - |
🔍 目录结构¶
关键目录如下,详细目录介绍请参见 《项目目录》。
├── docs # 项目文档目录
│ └── zh # 中文文档目录
├── dynolog_npu # dynolog_npu 模块代码目录
├── plugin # 插件模块代码目录
├── scripts # 构建、测试等脚本目录
│ ├── build.sh # dynolog_npu 构建脚本
│ ├── run_st.sh # 系统测试脚本
│ └── run_ut.sh # 单元测试脚本
├── test # 测试代码目录
│ ├── st # 系统测试用例
│ └── ut # 单元测试用例
├── third_party # 第三方依赖库
└── README.md # 项目说明文档
📖 功能介绍¶
msMonitor 提供以下核心能力:
| 功能名称 | 功能简介 | 说明文档 |
|---|---|---|
| npu-monitor | 轻量常驻后台,持续监控关键算子耗时,适合在线观察性能波动。 | 点击查看 |
| nputrace | 动态触发框架、CANN 和 Device 侧性能数据采集与解析,无需中断任务运行。 | 点击查看 |
| Monitor API | 提供 Python 接口,采集计算类算子、通信类算子、API、Runtime API、Mstx 等性能数据。 | 点击查看 |
[!NOTE] 由于底层资源限制,
npu-monitor与nputrace不能同时开启。
🛠️ 安装指南¶
msMonitor 当前支持软件包安装和编译安装两种方式:
- 软件包安装:适合直接部署使用,推荐优先采用,详见 《msMonitor 工具安装指南》。
- 编译安装:适合源码调试、二次开发与定制构建,详见 《msMonitor 工具安装指南》。
- 升级、卸载与日志:详见 《msMonitor 工具安装指南》。
🚀 快速入门¶
首次使用 msMonitor 时,推荐直接按下面这条主线完成从安装到采集的端到端体验。 更完整的安装说明请参见 《安装指南》。
- 选择匹配版本并下载安装包。
根据 版本配套说明 选择与当前 CANN、
torch_npu、MindSpore 和 CPU 架构匹配的软件包,并下载到 Linux 环境。
- 校验并安装 msMonitor 软件包。
# 校验下载包
sha256sum x86_8.3.0.zip
# 解压安装包
mkdir x86
unzip x86_8.3.0.zip -d x86
cd x86
# 安装 whl 包,需选择与当前 Python 版本匹配的文件
pip install \
mindstudio_monitor-{mindstudio_version}-cp{python_version}-cp{python_version}-linux_{system_architecture}.whl
# 安装 dynolog,按服务器系统选择其一
dpkg -i --force-overwrite dynolog*.deb
# rpm -ivh dynolog*.rpm --nodeps
- 启动
dynologdaemon 进程。
- 配置环境变量并启动训练或推理任务。
export MSMONITOR_USE_DAEMON=1
export LD_PRELOAD=<CANN安装路径>/ascend-toolkit/latest/lib64/libmspti.so
bash run_ai_task.sh
- 先使用
npu-monitor观察关键算子耗时。
dyno --certs-dir /home/client_certs npu-monitor \
--npu-monitor-start --report-interval-s 30 \
--mspti-activity-kind Kernel
- 发现耗时劣化后,关闭
npu-monitor并触发nputrace采集详细数据。
dyno --certs-dir /home/client_certs npu-monitor --npu-monitor-stop
dyno --certs-dir /home/client_certs nputrace \
--start-step 10 --iterations 2 --activities CPU,NPU \
--analyse --data-simplification false \
--log-file /tmp/profile_data
-
按需查看详细说明。
-
npu-monitor使用说明:source/npumonitor_instruct.md nputrace使用说明:source/nputrace_instruct.mdMindSpore适配说明:source/mindspore_adapter_instruct.md
版本配套说明¶
msMonitor 由以下三个交付件组成:
| 交付件 | 说明 |
|---|---|
dyno |
dyno 客户端二进制文件 |
dynolog |
dynolog 服务端二进制文件 |
mindstudio_monitor-{mindstudio_version}-cp{python_version}-cp{python_version}-linux_{system_architecture}.whl |
MSPTI Monitor、IPC 等公共能力工具包 |
当前仓库维护的软件包版本如下,完整版本说明请参见 《版本说明》。
| 版本 | 架构 | 发布日期 | CANN | torch_npu | MindSpore | 下载 | 校验码 |
|---|---|---|---|---|---|---|---|
8.3.0 |
aarch64 |
2025-12-29 |
8.3.RC1+ |
v7.3.0+ |
2.7.2+ |
aarch64_8.3.0.zip | 2c675ae346dfc1c70f5e9c7103d6f8c7e53be00dca28ed5f9cc577ac59e4bc44 |
8.3.0 |
x86 |
2025-12-29 |
8.3.RC1+ |
v7.3.0+ |
2.7.2+ |
x86_8.3.0.zip | 1a38cc141e67c50eb09ebdc757c1fd3ed54439f227459e71292b2d18bb78e7f0 |
8.1.0 |
aarch64 |
2025-07-11 |
8.1.RC1+ |
v7.1.0+ |
2.7.0-rc1+ |
aarch64_8.1.0.zip | ce136120c0288291cc0a7803b1efc8c8416c6105e9d54c17ccf2e2510869fada |
8.1.0 |
x86 |
2025-07-11 |
8.1.RC1+ |
v7.1.0+ |
2.7.0-rc1+ |
x86_8.1.0.zip | 097d11c7994793b6389b19259269ceb3b6b7ac5ed77da3949b3f09da2103b7f2 |
📝 相关说明¶
联系我们¶
欢迎大家通过 Issues 反馈问题、需求和建议,我们会尽快响应。 若希望加入社区交流,也可以通过以下入口进一步了解 MindStudio 团队。
🤝 致谢¶
msMonitor 由华为公司的下列部门联合贡献:
- 昇腾计算 MindStudio 开发部
感谢来自社区的每一个 Pull Request,欢迎贡献 msMonitor。
关于 MindStudio 团队¶
华为 MindStudio 全流程开发工具链团队致力于提供端到端的昇腾 AI 应用开发解决方案,帮助开发者高效完成训练开发、推理开发和性能调优。 更多信息可访问:
