对 GPU/NPU 节点开启虚拟化后,vGPU/vNPU 页签将显示 vGPU/vNPU 节点的信息。

  • vGPU 节点:是指通过 GPU 虚拟化技术将物理 GPU 的计算资源和显存划分为多个虚拟 GPU 实例的计算节点。

  • vNPU 节点:是指通过虚拟化技术将物理 NPU 的计算核心和显存等资源进行切分,从而创建出多个独立的虚拟 NPU 实例的计算节点。

前提条件

  • KubeSphere 平台需要安装并启用算力设备管理扩展组件。

  • 您需要加入一个集群并在集群中具有算力节点查看权限。有关更多信息,请参阅集群成员集群角色

操作步骤

  1. 以具有算力节点查看权限的用户登录 KubeSphere Web 控制台并进入您的集群。

  2. 在左侧导航栏选择集群 > 算力节点

  3. 点击 vGPU/vNPU 页签查看 vGPU/vNPU 节点列表。

  4. 在 vGPU/vNPU 节点页面上方,查看集群中 vGPU/vNPU 节点的总数量、GPU/NPU 卡的总数量、以及 vGPU 分配情况。

  5. vGPU/vNPU 节点列表提供以下信息:

    参数 描述

    名称

    各节点的主机名称和在子网内部的 IP 地址。

    状态

    各节点的运行状态。

    • 创建中:节点正在初始化。

    • 运行中:节点运行正常。

    • 无法调度:节点被用户手动设置为不可调度。如果节点处在此状态,容器组将不能被调度到该节点。

    • 告警:节点上存在告警。您可以在节点详情页面的运行状态 > 健康状态区域查看节点的告警类型。

    • 异常:节点出现故障。

    GPU/NPU 数量​

    节点上安装的物理 GPU/NPU 卡的总数量。

    GPU/NPU ID/型号​

    GPU/NPU 卡的 UUID 和型号。

    GPU/NPU 状态​

    GPU/NPU 卡的工作状态。

    vGPU

    虚拟化资源分配情况:vGPU 的已分配实例数量/可创建的实例总数。

    算力

    计算能力的分配情况:已分配算力单位/总算力单位。

    显存

    显存资源的分配情况:已分配显存/显存总容量。

    • 在列表上方点击搜索框并输入关键字,可按名称搜索节点。

    • 在列表右上角点击refresh可刷新列表信息。

    • 在列表右上角点击cogwheel可定制列表中显示的信息。