本节介绍 GPU/NPU 节点列表的信息。

  • GPU 节点:是指配备了 GPU 作为核心计算资源的服务器,专注于处理需要高度并行计算能力的任务。

  • NPU 节点:是指配备了神经网络处理单元(NPU)作为核心计算资源的服务器,专门用于高效执行人工智能模型的训练和推理任务。

前提条件

  • 已部署算力节点。

  • KubeSphere 平台需要安装并启用算力设备管理扩展组件。

  • 您需要加入一个集群并在集群中具有算力节点查看权限。有关更多信息,请参阅集群成员集群角色

操作步骤

  1. 以具有算力节点查看权限的用户登录 KubeSphere Web 控制台并进入您的集群。

  2. 在左侧导航栏选择集群 > 算力节点

  3. 点击 GPU/NPU 页签查看 GPU/NPU 节点列表。

  4. 在 GPU/NPU 节点页面上方,查看集群中 GPU/NPU 节点的总数量、GPU/NPU 卡的总数量、显存总容量、以及 GPU/NPU 资源分配情况。

  5. GPU/NPU 节点列表提供以下信息:

    参数 描述

    名称

    各节点的主机名称和在子网内部的 IP 地址。

    状态

    各节点的运行状态。

    • 创建中:节点正在初始化。

    • 运行中:节点运行正常。

    • 无法调度:节点被用户手动设置为不可调度。如果节点处在此状态,容器组将不能被调度到该节点。

    • 告警:节点上存在告警。您可以在节点详情页面的运行状态 > 健康状态区域查看节点的告警类型。

    • 异常:节点出现故障。

    GPU/NPU 数量​

    节点上安装的物理 GPU/NPU 卡的总数量。

    GPU/NPU ID/型号​

    GPU/NPU 卡的 UUID 和型号。

    GPU/NPU 状态​

    GPU/NPU 卡的工作状态。

    GPU/NPU 利用率​

    GPU/NPU 的计算单元处于活跃工作状态的时间百分比,反映计算硬件是否繁忙。

    显存利用率​

    显存的使用情况,以百分比和"已用量/总量"格式显示。

    项目​

    使用 GPU/NPU 资源的容器组所属的项目。

    容器组​

    实际使用 GPU/NPU 资源的容器组名称。

    • 在列表上方点击搜索框并输入关键字,可按名称搜索节点。

    • 在列表右上角点击refresh可刷新列表信息。

    • 在列表右上角点击cogwheel可定制列表中显示的信息。