Documentation

监控你的集群

InfluxData 提供了一个 Grafana 操作仪表板,可以对您的 InfluxDB Cloud Dedicated 集群进行可观察性监控。使用操作仪表板监控您的集群。

并非所有集群均可用

InfluxDB Cloud Dedicated 操作仪表板并非对所有集群均可用。有关可用性的问题,联系 InfluxData 支持

InfluxDB Cloud Dedicated operational dashboard

访问您的操作仪表板

要访问您的 InfluxDB Cloud Dedicated 操作仪表盘,请在浏览器中访问您 InfluxDB Cloud Dedicated 集群的 /observability 端点:

https://cluster-id.a.influxdb.io/observability

使用 InfluxData 提供的凭据登录到您的集群操作仪表板。如果您没有登录凭据,联系 InfluxData 支持

仪表盘的部分和单元格

仪表板包含以下部分,这些部分可视化与您在 InfluxDB Cloud Dedicated 集群中组件健康相关的指标:

查询层级 Cpu/内存

查询查询层 CPU/内存部分显示了由 Kubernetes 报告的查询 Pods 的 CPU 和内存使用情况。 查询器 处理查询请求并返回查询结果。

CPU 利用率 (k8s)

由Kubernetes容器使用情况报告的查询Pod的CPU利用率。使用情况是通过Pod使用的CPU核心数量来报告的,包括分数核心。CPU限制由可视化中的顶线表示。

内存使用情况 (k8s)

Kubernetes报告的每个cgroup的查询pod容器的内存使用情况。 使用情况以字节为单位进行报告。 内存限制由可视化中的顶部线表示。


查询等级

查询层部分显示从InfluxDB gRPC查询API报告的指标。 查询者 处理查询请求并返回请求的查询结果。

gRPC 请求 (ok)

返回OK状态码的不同端点的gRPC请求率,所有查询者的请求相加得出。
请求率按每秒请求数报告。

gRPC 请求(不可以)

所有返回状态码不是 OK 的端点的 gRPC 请求速率,跨所有查询者进行汇总。请求速率以每秒请求数报告。

请求持续时间 (航班 DoGet) (成功 + 不成功)

所有请求到DoGet端点的gRPC请求持续时间热图,无论请求状态如何。

热图显示了在每个持续时间“桶”中每个时间间隔发生的请求数量,并提供了对典型查询请求所需时间的洞察。它还一目了然地显示了主要的延迟范围以及所有查询请求的最小和最大持续时间。

颜色方案是每个单元格相对于当前显示的数据的值的指示器。

成功请求持续时间(航班 DoGet)

对成功请求的DoGet端点的gRPC请求时长热图。

热图显示了每个时间间隔内每个持续时间“桶”中发生的请求数量,并提供了对典型成功查询请求所需时间的洞察。它还可以一目了然地显示主要的延迟范围以及成功查询请求的最小和最大持续时间。

颜色方案是每个单元格相对于当前显示数据的值的指示器。

获取持续时间

查询等待通过查询信号量的时间热图——一种限制可以处理的并发查询请求数量的机制,并保护免受可能在查询计划和执行期间出现的未考虑数据结构引起的内存不足(OOM)错误。此单元仅提供有关等待信号量的查询的信息,而不包括持有它的时间。

此单元格可用于衡量由于高集群负载而增加的查询延迟。


数据摄取层 CPU/内存

查询层 CPU/内存 部分显示了 Kubernetes 报告的 Ingester pod 的 CPU 和内存使用情况。 Ingester 处理在写入请求中提交的行协议,并将时间序列数据持久化到 对象存储

CPU 使用率采集器 (k8s)

由Kubernetes容器使用情况报告的Ingester pod的CPU利用率。使用情况是通过pod使用的CPU核心数量来报告的,包括小数核心。CPU限制在可视化中的顶部线条表示。

内存使用率引入者 (k8s)

由Kubernetes报告的Ingester pod容器每个cgroup的内存使用情况。
使用情况以字节为单位报告。
内存限制在可视化中由顶部线条表示。

CPU 使用率 路由器 (k8s)

由Kubernetes容器使用情况报告的Ingester路由器pod的CPU利用率。使用情况通过pods使用的CPU内核数量报告,包括部分内核。

内存使用路由器 (k8s)

Kubernetes报告的每个cgroup的Ingester路由器pod容器的内存使用情况。使用量以字节为单位报告。


摄取层

接收层 部分显示了来自 InfluxDB gRPC 和 HTTP 写入 API 报告的指标。 接收器 处理在写入请求中提交的行协议,并将时间序列数据持久化到 对象存储

写请求(在路由器上)

所有Ingester路由器完成的写操作数量。请求按状态(成功或错误)分组。请求速率以每秒请求数报告。

LP 引入(在路由器处)

每个路由器以及所有Ingester路由器接收行协议的行速率。请求速率以每秒行数报告。

LP 数据摄取(在路由器处)

每个路由器以及所有Ingester路由器接收到的行协议字节速率。请求速率以每秒字节数报告。

HTTP请求错误率(从路由器的服务器视角)

由 InfluxDB 3 HTTP 请求处理程序报告的 HTTP 请求错误率。错误率表示返回非 2xx 响应代码的总请求中所占的百分比。

每个路由器的健康上游输入源

每个路由器检测到的健康上游Ingesters的数量。 这反映了路由器的RPC请求负载均衡器或断路器状态。

这可能表示路由器无法连接到接收器,因为接收管道中存在网络问题或接收器可用性等问题。

持久队列是用于持久化或保存新parquey文件到s3的队列。

持久队列深度

尚未开始的排队持久作业的数量。 每个持久作业由从写前日志(WAL)中获取数据、 将其存储在Parquet文件中,然后将Parquet文件保存到 对象存储中组成。

如果持久化队列正在增长,这意味着数据摄取器无法跟上 incoming write load,可能会导致数据摄取器失败。

持久化任务队列持续时间

一个热图,显示了时间持久作业在执行前在队列中花费的时间。

更长的排队时间表明持久作业执行时间较慢,这可能是由于网络或内部资源限制,或是队列深度的增加。

数据导入器磁盘数据目录使用情况

每个 Pod 的磁盘使用量占 Ingesters 数据目录的百分比。 WAL 存储在附加到 Ingesters 的磁盘上。 随着 WAL 的增长,使用的磁盘空间也增加。 如果 Ingesters 的磁盘用尽,WAL 将停止工作。

摄取被阻止的时间(24小时)

摄取管道被标记为饱和并拒绝写请求的时间量。

最大持久队列深度

队列深度占配置的最大队列深度的百分比。 这显示了最饱和的Ingester的饱和级别。 一旦达到最大队列深度,写入将被拒绝。

写日志 (10个例子)

显示时间段内的10条写入日志示例。 这些并不代表最新的日志。


压缩层 CPU/内存

压缩层 CPU/内存 部分显示了 Kubernetes 报告的 Compactor pods 的 CPU 和内存使用情况。 Compactors 处理并压缩 Parquet 文件在 对象存储 中,以不断优化存储。

CPU 利用率 (k8s)

Kubernetes容器使用报告的压缩器pod的CPU利用率。使用情况是通过pods使用的CPU核心数量报告的,包括部分核心。CPU限制在可视化中由顶部线条表示。

内存使用情况 (k8s)

Kubernetes报告的每个cgroup的压缩器pod容器的内存使用情况。
使用量以字节为单位报告。
内存限制在可视化中以顶行表示。


压实机

压缩器 部分显示与 Parquet 文件的压缩相关的指标,位于 对象存储 中。压缩器 处理并压缩 Parquet 文件,以持续优化存储。

压实机:L0 文件计数(5m 桶宽度)

在压缩时L0压缩文件数量的直方图。

数据摄取器使用L0(零级)压缩创建Parquet文件。随着压缩器随时间处理和压缩Parquet文件,它们按照以下级别进行操作:

  • L0: 未压缩
  • L1: 4个L0文件合并在一起
  • L2: 4个L1文件合并在一起
  • L3: 4 个 L2 文件压缩在一起

Parquet 文件存储按时间分区的数据,并可选地标记 (见 管理数据分区)。 当一个分区的 L0 文件累积到四个时,它们就可以进行合并。 如果合并器能够跟上进入的写入负载,所有合并事件都有正好四个文件。 L0 文件合并数量的增加表明合并器没有跟上。

这个直方图有助于确定压实机是否尽可能快地开始压实。


摄取器目录操作

数据摄取器目录操作”部分显示与数据摄取器请求的目录操作相关的指标。
目录”是一个关系数据库,存储与您的时间序列数据相关的元数据,包括模式信息和对象存储中分区的物理位置。

目录运营 - 成功

由摄取者请求的每秒成功目录操作的速率。由摄取者请求的成功目录操作的更高速率表明高写入负载。

目录操作 - 错误

摄入者每秒请求的错误目录操作的比率。 摄入者请求的错误目录操作的比率较高表明,目录可能超载或没有响应。

目录操作延迟 (P90)

对目录服务每个操作的第90百分位(P90)查询延迟。 高P90值表示目录可能超负荷。


目录操作概述

概览目录操作部分显示与所有组件请求的目录操作相关的指标,您的InfluxDB Cloud专用集群。

每个操作的请求 - 成功

每秒按操作成功的目录请求率。

每个操作的请求 - 错误

每秒出错的目录请求率,按操作分类。 更高的出错目录操作率表明目录可能过载或无响应。



Flux的未来

Flux 正在进入维护模式。您可以像现在一样继续使用它,而无需对您的代码进行任何更改。

阅读更多

InfluxDB 3 开源版本现已公开Alpha测试

InfluxDB 3 Open Source is now available for alpha testing, licensed under MIT or Apache 2 licensing.

我们将发布两个产品作为测试版的一部分。

InfluxDB 3 核心,是我们新的开源产品。 它是一个用于时间序列和事件数据的实时数据引擎。 InfluxDB 3 企业版是建立在核心基础之上的商业版本,增加了历史查询能力、读取副本、高可用性、可扩展性和细粒度安全性。

有关如何开始的更多信息,请查看: