编辑此页添加子页面提交文档问题整节打印

监控组件

监控组件

Prometheus

良好的监控环境为 TKEStack 高可靠性、高可用性和高性能提供重要保证。您可以方便为不同资源收集不同维度的监控数据，能方便掌握资源的使用状况，轻松定位故障。

TKEStack 使用开源的 Prometheus 作为监控组件，免去您部署和配置 Prometheus 的复杂操作，TKEStack 提供高可用性和可扩展性的细粒度监控系统，实时监控 CPU，GPU，内存，显存，网络带宽，磁盘 IO 等多种指标并自动绘制趋势曲线，帮助运维人员全维度的掌握平台运行状态。

TKEStack 使用 Prometheus 的架构和原理可以参考 Prometheus 组件

指标具体含义可参考：监控 & 告警指标列表

TKEStack 通过 Prometheus 组件监控集群状态，Prometheus 组件通过 addon 扩展组件自动完成安装和配置，使用 InfluxDB，ElasticSearch 等存储监控数据。监控数据和指标融入到平台界面中以风格统一图表的风格展示，支持以不同时间，粒度等条件，查询集群，节点，业务，Workload 以及容器等多个层级的监控数据，全维度的掌握平台运行状态。

同时针对在可用性和可扩展性方面，支持使用 Thanos 架构提供可靠的细粒度监控和警报服务，构建具有高可用性和可扩展性的细粒度监控能力。

安装 Prometheus

Prometheus 为 TKEStack 扩展组件，需要在集群的【基本信息】页下面开启 “监控告警”。

集群监控

登录 TKEStack
切换至【平台管理】控制台，选择【集群管理】
点击【监控】图标，如下图所示：

监控数据展示
通过下图中的1可以选择监控数据时间段
通过下图中的2可以选择统计粒度，以下图中“APIServer时延”为例，下图中的每个数据表示前1分钟“APIServer时延”平均数

上下滑动曲线图可以获得更多监控指标
点击曲线图，会弹出具体时间点的具体监控数据

指标具体含义可参考：监控 & 告警指标列表

节点监控

登录 TKEStack
切换至【平台管理】控制台，选择【集群管理】
点击【集群 ID】 -> 【节点管理】->【节点】->【监控】图标，如下图所示：

具体查看方式和集群监控完全一致
指标具体含义可参考：监控 & 告警指标列表
此处还可以查看节点下的 Pod 监控
1. 如下图所示，对比维度可选择节点或 Pod
2. 选择 Pod ，需要在其右侧选择 Pod 所属节点

节点下的 Pod & Container 监控

有两种方式

节点监控下选择 Pod 进行监控
在节点列表里，点击节点名，进入节点的 Pod 管理页，如下图所示，点击上方的【监控】按钮，实现对节点下的 Pod 监控

注意：此处还可以查看节点下的 Container 监控
如下图所示，对比维度可选择 Pod 或 Container
选择 Container ，需要在其右侧选择 Container 所属 Pod

指标具体含义可参考：监控 & 告警指标列表

负载监控

登录 TKEStack
切换至【平台管理】控制台，选择【集群管理】
点击【集群 ID】 -> 【工作负载】->【选择一种负载，例如 Deployment】->【监控】图标，如下图所示：
具体查看方式和集群监控完全一致
指标具体含义可参考：监控 & 告警指标列表

负载下 Pod & Container 监控

登录 TKEStack
切换至【平台管理】控制台，选择【集群管理】
点击【集群 ID】 -> 【工作负载】->【选择一种负载】，例如 Deployment】->【点击一个负载名】->【监控】图标，如下图所示：

注意：此处还可以查看负载下的 Container 监控
如下图所示，对比维度可选择 Pod 或 Container
选择 Container ，需要在其右侧选择 Container 所属 Pod 指标具体含义可参考：监控 & 告警指标列表

TKEStack 使用 Prometheus 的架构和原理可以参考 Prometheus 组件

最后修改 March 25, 2022 : Merge pull request #42 from wl-chen/chart-installer-fix (5eed232)