本节介绍算力节点列表的信息。

前提条件

  • 已部署算力节点。

  • KubeSphere 平台需要安装并启用算力设备管理扩展组件。

  • 您需要加入一个集群并在集群中具有算力节点查看权限。有关更多信息,请参阅集群成员集群角色

操作步骤

  1. 以具有算力节点查看权限的用户登录 KubeSphere Web 控制台并进入您的集群。

  2. 在左侧导航栏选择集群 > 算力节点

  3. 在算力节点页面上方,查看集群中算力节点的总数量、GPU/vGPU/NPU/vNPU 节点的数量、显卡总数量、以及显存总容量。

  4. 算力节点列表提供以下信息:

    参数 描述

    名称

    各节点的主机名称和在子网内部的 IP 地址。

    状态

    各节点的运行状态。

    • 创建中:节点正在初始化。

    • 运行中:节点运行正常。

    • 无法调度:节点被用户手动设置为不可调度。如果节点处在此状态,容器组将不能被调度到该节点。

    • 告警:节点上存在告警。您可以在节点详情页面的运行状态 > 健康状态区域查看节点的告警类型。

    • 异常:节点出现故障。

    角色

    各节点在集群中的角色,为控制平面节点工作节点

    显卡型号

    节点上安装的显卡型号。

    类型

    显卡类型。

    调度策略

    • 显卡独占:一个任务独享整张物理显卡的所有计算和显存资源,从而获得最佳且稳定的性能。

    • 隔离共享:将一张物理显卡通过虚拟化技术分割成多个 vGPU,允许多个任务同时共享该显卡,并在任务间提供资源隔离。

    显存

    显卡的显存容量大小。

    显卡状态

    ​正常和异常状态的显卡数量。

    • 在列表上方点击搜索框并输入关键字,可按名称搜索节点。

    • 在列表右上角点击refresh可刷新列表信息。

    • 在列表右上角点击cogwheel可定制列表中显示的信息。