查看 vGPU/vNPU 节点详情
本节介绍 vGPU/vNPU 节点详情页面的信息。
前提条件
操作步骤
-
以具有算力节点查看权限的用户登录 KubeSphere Web 控制台并进入您的集群。
-
在左侧导航栏选择集群 > 算力节点。
-
点击 vGPU/vNPU 页签查看 vGPU/vNPU 节点列表。
-
在节点列表中点击一个节点的名称打开其详情页面。
-
在节点详情页面的属性区域查看节点的资源属性。
参数 描述 状态
各节点的运行状态。
-
创建中:节点正在初始化。
-
运行中:节点运行正常。
-
无法调度:节点被用户手动设置为不可调度。如果节点处在此状态,容器组将不能被调度到该节点。
-
告警:节点上存在告警。您可以在节点详情页面的运行状态 > 健康状态区域查看节点的告警类型。
-
异常:节点出现故障。
IP 地址
节点的 IP 地址。
角色
各节点在集群中的角色,为控制平面节点或工作节点。
显卡型号
节点上安装的显卡型号。
显存
显卡的显存容量大小。
类型
显卡类型。
调度策略
-
显卡独占:一个任务独享整张物理显卡的所有计算和显存资源,从而获得最佳且稳定的性能。
-
隔离共享:将一张物理显卡通过虚拟化技术分割成多个 vGPU,允许多个任务同时共享该显卡,并在任务间提供资源隔离。
显卡数量
节点上安装的显卡数量。
显卡状态
正常和异常状态的显卡数量。
创建时间
节点加入当前集群的时间。
-
-
在运行状态页签查看节点的资源用量、显卡信息、已分配资源、健康状态和污点。
功能区 描述 资源用量
显示算力利用率、显存利用率、算力分配率、显存分配率等。可点击查看近一小时的数据折线图。
显卡
显卡 UUID、状态、以及 vGPU、算力和显存的分配情况。
已分配资源
-
算力 Core 上限:最多可以分配使用的计算核心数量。
-
算力显存上限:最多可以分配使用的显存总量。
-
虚拟化数量:最多可以分配使用的 vGPU/vNPU 实例总量。
健康状态
显示节点的网络、内存、磁盘、进程压力和就绪状态。如果显示
则表明状态正常,如果显示
则表明出现告警。
-
网络可用性:节点的网络状态是否正常。
-
内存压力:节点剩余内存是否小于阈值,默认阈值为 100 MiB。
-
磁盘压力:节点剩余磁盘空间或 inode 数量是否小于阈值,默认磁盘空间阈值为磁盘空间总量的 10%,默认 inode 数量阈值为 inode 最大数量的 5%。
-
进程压力:节点上可创建的进程数量是否小于阈值。新安装的 KubeSphere 集群默认未设置进程数量阈值。
-
就绪状态:节点是否已经准备好接收容器组。
污点
当前节点上已配置的污点。有关更多信息,请参阅编辑节点污点。
-
-
点击容器组页签查看节点上运行的所有容器组。
-
点击
可查看容器组中运行的容器的信息。
-
点击容器组的名称可查看容器组详情。
-
在容器组列表上方的搜索框中输入关键字,可按名称搜索容器组。
-
在容器组列表右上角点击
可刷新列表信息。
-
-
点击元数据页签查看节点的标签和注解。
-
点击监控页签查看实时资源使用情况。
-
在右上角点击
可设置数据的时间范围。
-
在右上角点击
/
可开启/停止实时数据刷新。
-
在右上角点击
可手动刷新数据。
-
-
点击事件页签查看节点的事件记录。
参数 描述 类型
事件的类型,包括正常和告警两种类型。
原因
事件发生的原因。
发生时间
事件发生的时间。
来源
上报事件的组件。
消息
事件消息的内容。