跳转至

简介

MindStudio Monitor(MindStudio一站式在线监控工具,msMonitor)提供用户在集群场景性能监控定位端到端能力。

msMonitor基于dynolog开发,结合AI框架(Ascend PyTorch调优工具MindSpore调优工具)的动态采集能力和MSPTI,为用户提供nputracenpu-monitor功能:

  • npu-monitor功能:轻量常驻后台,监控关键算子耗时。
  • nputrace功能:获取到框架、CANN以及device的详细性能数据。

msMonitor

如上图所示msMonitor分为三部分:

  1. Dynolog daemon:dynolog守护进程,每个节点只有一个守护进程,负责接收dyno CLI的RPC请求、触发nputrace和npu-monitor功能、上报数据的处理以及最终数据的展示,dynolog的详细介绍请参见dynolog
  2. Dyno CLI:dyno客户端,为用户提供nputrace和npu-monitor子命令,任意节点都可以安装,dyno的详细介绍请参见dyno
  3. MSPTI Monitor:基于MSPTI实现的监控子模块,通过调用MSPTI的API获取性能数据,并上报给Dynolog daemon。