监控1.x TICK堆栈的注意事项
InfluxData的TICK栈的主要用例之一是基础设施监控,包括使用TICK栈监控自身或另一个TICK栈。这是监控您的TICK栈的两种主要方法:
- 内部监控 - 一个自我监控的TICK栈。
- “观察者的观察者”方法 - 一个被另一个TICK堆栈监控的TICK堆栈。
内部监控
默认情况下,InfluxData平台被配置为监控自身。 Telegraf收集正在运行的主机的指标,例如CPU使用率、内存使用率、磁盘使用率等,并将其存储在telegraf数据库中。 InfluxDB还报告关于自身的性能指标,例如连续查询统计、内部goroutine统计、写入统计、系列基数等,并将其存储在_internal数据库中。 有关_internal数据库的建议,请参见下面的在生产集群中禁用_internal数据库。
监控仪表盘 可用来可视化在每个数据库中提供的默认指标。您还可以 配置 Kapacitor 警报 来监控和提醒每个这些指标。
内部监控的优点
简单设置
内部监控不需要额外设置或配置更改。 TICK 堆栈开箱即用地监控自身。
内部监控的缺点
没有硬件隔离
在使用内部监控时,如果您的 TICK 堆栈离线,您的监控也会随之离线。 任何配置的警报都不会被发送,您将不会收到任何问题的通知。 因此,不推荐在生产用例中使用内部监控。
“观察者中的观察者” 方法
推荐用于生产环境。
一种“观察者的观察者”方法,用于监控 InfluxDB OSS 和 InfluxDB 集群节点,提供对您 InfluxDB 资源的监控,同时确保在数据丢失的情况下,监控统计信息可以远程访问。
这通常表现为一个由OSS TICK栈监控的企业集群。它由安装在您主要集群中每个节点上的Telegraf代理组成,向安装在单独服务器或集群上的监控TICK栈报告各自主机的指标。
有关设置外部监控TICK栈的信息,请参阅 设置外部监控器。
监控仪表盘 可用来可视化 Telegraf 代理提供的默认指标。您还可以 配置 Kapacitor 警报 来监控和警报这些指标。
外部监控的优点
硬件分离
如果监控器与您的主要 TICK 堆栈分开运行,主要堆栈中发生的问题将不会影响监控器。 如果您的主要 TICK 堆栈出现故障或有问题,监控器将能够检测到并提醒您。
外部监控的缺点
稍微多一些准备
外部监控的设置涉及更多的配置,但其带来的好处远大于所需的额外时间,特别是在生产用例中。
推荐
在生产集群中禁用 _internal 数据库
InfluxData 不 建议在生产集群中使用 _internal 数据库。
它会产生不必要的开销,特别是在繁忙的集群中,这可能会使已经负载的集群过载。
存储在 _internal 数据库中的指标主要测量工作负载性能,
这应该仅在非生产环境中进行测试。
要禁用 _internal 数据库,请在您的 influxdb.conf 的 [monitor] 部分将 store-enabled 设置为 false。
influxdb.conf
# ...
[monitor]
# ...
# Whether to record statistics internally.
store-enabled = false
#...