本节介绍 vGPU/vNPU 节点详情页面的信息。

前提条件

  • KubeSphere 平台需要安装并启用算力设备管理扩展组件。

  • 您需要加入一个集群并在集群中具有算力节点查看权限。有关更多信息,请参阅集群成员集群角色

操作步骤

  1. 以具有算力节点查看权限的用户登录 KubeSphere Web 控制台并进入您的集群。

  2. 在左侧导航栏选择集群 > 算力节点

  3. 点击 vGPU/vNPU 页签查看 vGPU/vNPU 节点列表。

  4. 在节点列表中点击一个节点的名称打开其详情页面。

  5. 在节点详情页面的属性区域查看节点的资源属性。

    参数 描述

    状态

    各节点的运行状态。

    • 创建中:节点正在初始化。

    • 运行中:节点运行正常。

    • 无法调度:节点被用户手动设置为不可调度。如果节点处在此状态,容器组将不能被调度到该节点。

    • 告警:节点上存在告警。您可以在节点详情页面的运行状态 > 健康状态区域查看节点的告警类型。

    • 异常:节点出现故障。

    IP 地址

    节点的 IP 地址。

    角色

    各节点在集群中的角色,为控制平面节点工作节点

    显卡型号

    节点上安装的显卡型号。

    显存

    显卡的显存容量大小。

    类型

    显卡类型。

    调度策略

    • 显卡独占:一个任务独享整张物理显卡的所有计算和显存资源,从而获得最佳且稳定的性能。

    • 隔离共享:将一张物理显卡通过虚拟化技术分割成多个 vGPU,允许多个任务同时共享该显卡,并在任务间提供资源隔离。

    显卡数量

    节点上安装的显卡数量。

    显卡状态

    ​正常和异常状态的显卡数量。

    创建时间

    节点加入当前集群的时间。

  6. 运行状态页签查看节点的资源用量、显卡信息、已分配资源、健康状态和污点。

    功能区 描述

    资源用量

    显示算力利用率、显存利用率、算力分配率、显存分配率等。可点击查看近一小时的数据折线图。

    显卡

    显卡 UUID、状态、以及 vGPU、算力和显存的分配情况。

    已分配资源

    • 算力 Core 上限:最多可以分配使用的计算核心数量。

    • 算力显存上限:最多可以分配使用的显存总量。

    • 虚拟化数量:最多可以分配使用的 vGPU/vNPU 实例总量。

    健康状态

    显示节点的网络、内存、磁盘、进程压力和就绪状态。如果显示healthy 则表明状态正常,如果显示unhealthy 则表明出现告警。

    • 网络可用性:节点的网络状态是否正常。

    • 内存压力:节点剩余内存是否小于阈值,默认阈值为 100 MiB。

    • 磁盘压力:节点剩余磁盘空间或 inode 数量是否小于阈值,默认磁盘空间阈值为磁盘空间总量的 10%,默认 inode 数量阈值为 inode 最大数量的 5%。

    • 进程压力:节点上可创建的进程数量是否小于阈值。新安装的 KubeSphere 集群默认未设置进程数量阈值。

    • 就绪状态:节点是否已经准备好接收容器组。

    污点

    当前节点上已配置的污点。有关更多信息,请参阅编辑节点污点

  7. 点击容器组页签查看节点上运行的所有容器组。

    • 点击chevron-down可查看容器组中运行的容器的信息。

    • 点击容器组的名称可查看容器组详情。

    • 在容器组列表上方的搜索框中输入关键字,可按名称搜索容器组。

    • 在容器组列表右上角点击refresh可刷新列表信息。

  8. 点击元数据页签查看节点的标签和注解。

  9. 点击监控页签查看实时资源使用情况。

    • 在右上角点击timed-task可设置数据的时间范围。

    • 在右上角点击start/pause可开启/停止实时数据刷新。

    • 在右上角点击refresh可手动刷新数据。

  10. 点击事件页签查看节点的事件记录。

    参数 描述

    类型

    事件的类型,包括正常告警两种类型。

    原因

    事件发生的原因。

    发生时间

    事件发生的时间。

    来源

    上报事件的组件。

    消息

    事件消息的内容。