监控与调试#
本节介绍如何使用 Ray 的可观测性功能来 监控和调试 Ray 应用程序和集群。
什么是可观测性#
一般来说,可观测性是衡量一个系统的内部状态可以从其外部输出的知识中推断出来的程度。
在 Ray 的上下文中,可观察性指的是用户能够通过各种外部输出(如日志、指标、事件等)观察和推断 Ray 应用程序和 Ray 集群的内部状态的能力。
可观测性的重要性#
调试分布式系统可能具有挑战性,因为其规模和复杂性较大。良好的可观测性对于 Ray 用户来说非常重要,以便能够轻松监控和调试他们的 Ray 应用程序和集群。
监控和调试工作流程及工具#
监控和调试 Ray 应用程序包括 4 个主要步骤:
监控集群和应用程序。
识别表面的问题或错误。
使用各种工具和数据进行调试。
形成一个假设,实施一个修复,并验证它。
本节的其余部分涵盖了 Ray 提供的可观测性工具,以加速您的监控和调试工作流程。