查看 GPU/NPU 节点列表
本节介绍 GPU/NPU 节点列表的信息。
-
GPU 节点:是指配备了 GPU 作为核心计算资源的服务器,专注于处理需要高度并行计算能力的任务。
-
NPU 节点:是指配备了神经网络处理单元(NPU)作为核心计算资源的服务器,专门用于高效执行人工智能模型的训练和推理任务。
操作步骤
-
以具有算力节点查看权限的用户登录 KubeSphere Web 控制台并进入您的集群。
-
在左侧导航栏选择集群 > 算力节点。
-
点击 GPU/NPU 页签查看 GPU/NPU 节点列表。
-
在 GPU/NPU 节点页面上方,查看集群中 GPU/NPU 节点的总数量、GPU/NPU 卡的总数量、显存总容量、以及 GPU/NPU 资源分配情况。
-
GPU/NPU 节点列表提供以下信息:
参数 描述 名称
各节点的主机名称和在子网内部的 IP 地址。
状态
各节点的运行状态。
-
创建中:节点正在初始化。
-
运行中:节点运行正常。
-
无法调度:节点被用户手动设置为不可调度。如果节点处在此状态,容器组将不能被调度到该节点。
-
告警:节点上存在告警。您可以在节点详情页面的运行状态 > 健康状态区域查看节点的告警类型。
-
异常:节点出现故障。
GPU/NPU 数量
节点上安装的物理 GPU/NPU 卡的总数量。
GPU/NPU ID/型号
GPU/NPU 卡的 UUID 和型号。
GPU/NPU 状态
GPU/NPU 卡的工作状态。
GPU/NPU 利用率
GPU/NPU 的计算单元处于活跃工作状态的时间百分比,反映计算硬件是否繁忙。
显存利用率
显存的使用情况,以百分比和"已用量/总量"格式显示。
项目
使用 GPU/NPU 资源的容器组所属的项目。
容器组
实际使用 GPU/NPU 资源的容器组名称。
-
在列表上方点击搜索框并输入关键字,可按名称搜索节点。
-
在列表右上角点击
可刷新列表信息。
-
在列表右上角点击
可定制列表中显示的信息。
-