One post tagged with "路线图"

AutoGen 的新功能有哪些？

March 3, 2024 · 18 min read

Chi Wang

Principal Researcher at Microsoft Research

autogen is loved

简介

AutoGen 受到了极大的关注和认可。
AutoGen 有许多令人兴奋的新功能和正在进行的研究。

自从 AutoGen 从 FLAML 分拆出来以来已经过去了五个月。我们从中学到了什么？取得了哪些里程碑？接下来又有什么计划？

背景

AutoGen 的动机源于两个重要的问题：

未来的 AI 应用会是什么样的？
我们如何赋予每个开发者构建这些应用的能力？

去年，我与来自宾夕法尼亚州立大学和华盛顿大学的同事和合作者一起，开展了一个新的多智能体框架的研究，以实现由大型语言模型驱动的下一代应用程序。我们一直在构建 AutoGen，作为一个面向智能体 AI 的编程框架，就像 PyTorch 是面向深度学习的一样。我们在一个名为 FLAML 的开源项目中开发了 AutoGen：一个用于自动机器学习和调优的快速库。在进行了一些研究，如 EcoOptiGen 和 MathChat 之后，我们在八月份发表了一份关于多智能体框架的技术报告。十月份，我们将 AutoGen 从 FLAML 移动到了 GitHub 上的一个独立仓库，并发表了一份更新的技术报告。

反馈

从那时起，我们每天都收到了各种各样的反馈。用户对 AutoGen 提供的新的能力水平表现出了极高的认可。例如，在 X（Twitter）或 YouTube 上有很多类似以下的评论。

AutoGen 给了我和第一次尝试 GPT-3 时一样的顿悟时刻。

自从尝试 ChatGPT 以来，我从未有过这样的惊喜。

许多用户对不同维度的价值有着深刻的理解，比如模块化、灵活性和简洁性。

AutoGen 的重要性与 OOP 的好处是一样的。AutoGen 将所有复杂性打包成一个我可以用一行代码创建或用另一个代码修改的智能体。

随着时间的推移，越来越多的用户分享了他们使用或为 AutoGen 做出贡献的经验。

在我们的数据科学部门，AutoGen 正在帮助我们开发一个可投入生产的多智能体框架。

Sam Khalil, VP Data Insights & FounData, Novo Nordisk

当我为学生构建一个交互式学习工具时，我寻找了一个既能简化工作流程又能提供足够灵活性的工具，以便我可以使用定制工具。AutoGen 具备这两者。它简化了工作。感谢 Chi 和他的团队与社区分享了这样一个精彩的工具。

威尔士大学机械工程系教授Yongsheng Lian

令人兴奋的消息：最新的AutoGen发布版本现在包含了我的贡献... 这次经历是学习和贡献的美妙结合，展示了技术社区的活力和合作精神。

airt联合创始人 / CISEx董事会主席Davor Runje

在图夫茨大学数据密集研究中心的支持下，我们的团队希望解决学生在从本科到研究生课程过渡时面临的一些挑战，特别是在图夫茨大学医学院的物理治疗博士课程中。我们正在尝试使用Autogen创建定制的评估、个性化的学习指南和专注的辅导。这种方法比我们使用标准聊天机器人取得了显著更好的结果。在Microsoft的Chi和他的团队的帮助下，我们目前的实验包括在连续对话中使用多个代理、可教授的代理和轮流辩论的格式。与我们探索过的其他大型语言模型相比，这些方法在生成评估和反馈方面更有效。我还在我的初级护理课程中使用了Autogen中的OpenAI助手代理，以促进学生在患者面试中的参与度，通过数字模拟。代理从一篇已发表的病例研究中获取信息，允许学生用真实的信息来练习他们的面试技巧。

图夫茨大学医学院物理治疗博士课程助理教授Benjamin D Stern

Autogen对于我们分析公司和产品的方式来说是一个改变游戏规则的工具！通过AI代理之间的协作对话，我们能够缩短研究和分析过程的时间。

BetterFutureLabs联合创始人兼技术负责人Justin Trugman

这只是一小部分例子。我们看到来自各个垂直行业的大型企业客户都对AutoGen表现出了兴趣：会计、航空公司、生物技术、咨询、消费品、电子产品、娱乐、金融、金融科技、政府、医疗保健、制造商、金属、药店、研究、零售商、社交媒体、软件、供应链、技术、电信...

AutoGen被全球各地的公司、组织、大学使用或贡献。我们看到了数百个应用实例。一些组织使用AutoGen作为构建他们的代理平台的基础。其他人则将AutoGen用于各种场景，包括研究和投资以及多个代理的新颖和创造性应用。

里程碑

AutoGen拥有庞大而活跃的开发者、研究人员和AI从业者社区。

在GitHub上获得了22K+的星标，3K+的分支
在Discord上拥有14K+的成员
每月下载量超过100K次
YouTube上有超过3百万次观看（400多个社区生成的视频）
在Google Scholar上有100多次引用

我对他们的创造力和热情感到非常惊讶。我也很欣赏AutoGen获得的认可和奖项，例如：

被TheSequence: My Five Favorite AI Papers of 2023选中
在GitHub上是十月份最热门的仓库
在Open100: Top 100 Open Source achievements中被选入，仅在分拆后的35天内

在3月1日，AutoGen在具有挑战性的GAIA基准测试中进行的初始多智能体实验取得了巨大的突破，以一次大跃进的方式在所有三个级别上实现了第一准确度。

gaia

这显示了在解决复杂任务中使用AutoGen的巨大潜力。这只是社区努力回答一些困难开放性问题的开始。

开放性问题

在AutoGen技术报告中，我们提出了一些具有挑战性的研究问题：

如何设计最优的多智能体工作流程？
如何创建高能力的智能体？
如何实现规模、安全性和人类代理？

社区一直在多个方面努力解决这些问题：

评估。方便而有洞察力的评估是取得实质性进展的基础。
接口。直观、表达力强且标准化的接口是快速实验和优化的前提条件。
优化。多智能体交互设计（例如分解）和个体智能体能力都需要优化，以满足特定应用需求。
集成。与新技术的集成是增强智能体能力的有效方式。
学习/教学。智能学习和教学是智能体优化性能、实现人类代理和增强安全性的直观方法。

新功能和正在进行的研究

评估

我们正在开发基于智能体的评估工具和基准测试工具。例如：

AgentEval。我们的研究发现，使用AutoGen构建的LLM智能体可以用于自动识别评估标准，并从任务描述和执行日志中评估性能。这在一个notebook示例中进行了演示。欢迎提供反馈和帮助将其纳入库中。
AutoGenBench. AutoGenBench 是一个命令行工具，用于下载、配置、运行代理基准测试，并报告结果。它旨在允许重复、隔离和仪器化，利用新的运行时日志记录功能。

这些工具已经被用于改进 AutoGen 库以及应用程序。例如，通过多代理解决 GAIA 基准测试所取得的最新性能，就受益于这些评估工具。

接口

我们正在迅速改进接口，以使构建代理应用程序更加容易。例如：

AutoBuild. AutoBuild 是一个正在研究中的领域，旨在自动创建或选择一组代理来完成给定的任务和目标。如果成功，它将大大减少用户或开发人员在使用多代理技术时的工作量。它还为处理复杂任务的代理分解铺平了道路。它作为一个实验性功能可用，并以两种模式进行演示：自由形式的创建和从库中进行选择。
AutoGen Studio. AutoGen Studio 是一个无代码界面，用于快速实验多代理对话。它降低了使用 AutoGen 技术的门槛。模型、代理和工作流都可以在不编写代码的情况下进行配置。在配置完成后，可以立即在游乐场中与多个代理进行对话。尽管这个示例应用程序中只提供了 pyautogen 的部分功能，但它展示了一个令人期待的体验。它在社区中引起了极大的兴趣。
对话编程+. AutoGen 论文提出了一个名为“对话编程”的关键概念，可以用于编程各种对话模式，如一对一聊天、群组聊天、层次聊天、嵌套聊天等。虽然我们提供了动态群组聊天作为高级编排的示例，但其他模式相对较不易发现。因此，我们添加了更方便的对话编程功能，可以更容易地定义其他类型的复杂工作流，例如基于有限状态机的群组聊天、顺序聊天和嵌套聊天。许多用户发现它们在实现特定模式时非常有用，尽管这些功能一直存在，但通过添加的功能更加明显。我将为此撰写另一篇博文进行深入介绍。

学习/优化/教学

这个类别中的功能允许代理记住用户或其他代理的教导，并在长期内进行改进。例如：

AgentOptimizer。这项研究找到了一种在不修改模型的情况下训练LLM代理的方法。作为一个案例研究，这种技术优化了一组Python函数，供代理在解决一组训练任务时使用。计划将其作为实验性功能提供。
EcoAssistant。这项研究发现了一种多代理教学方法，当使用不同能力的代理，由不同的LLM提供支持。例如，一个GPT-4代理可以通过示范教导一个GPT-3.5代理。通过这种方法，只需要1/3或1/2的GPT-4成本，就可以获得比GPT-4在基于编码的问答中高10-20%的成功率。不需要微调。你只需要一个GPT-4端点和一个GPT-3.5-turbo端点。我们希望能够提供这个技术作为AutoGen库的一个功能，欢迎提供帮助。
Teachability。AutoGen中的每个LLM代理都可以被教导，即可以记住与其他代理交互时的事实、偏好、技能等。例如，一个用户在用户代理代理后面可以教导一个助理代理解决一个困难的数学问题的指令。教导一次后，助理代理的问题解决率可以有显著的提高（例如，gpt-4-0613的37% -> 95%）。这个功能对于GPTAssistantAgent（使用OpenAI的助理API）和群聊也适用。教学能力+有限状态机群聊的一个有趣的用例：教导韧性。

集成

AutoGen的可扩展设计使其易于与新技术集成。例如：

自定义模型和客户端可以用作代理的后端，如Huggingface模型和推理API。
OpenAI助手可以用作代理（GPTAssistantAgent）的后端。重新实现为自定义客户端，以增加与ConversableAgent的兼容性将是一个不错的选择。
多模态。像GPT-4V这样的LMM模型可以为代理提供视觉能力，并通过与其他代理的对话完成有趣的多模态任务，包括高级图像分析、图形生成和图像生成的自动迭代改进。

multimodal

上述内容只涵盖了一部分新功能和路线图。还有许多其他有趣的新功能、集成示例或示例应用程序：

新功能，如有状态的代码执行，工具装饰器，长上下文处理，网络代理。
集成示例，例如使用指南生成结构化响应。
示例应用程序，如AutoAnny。

寻求帮助

我非常感谢 Discord 社区的 14K 多名成员给予的巨大支持。尽管取得了令人兴奋的进展，但仍有大量待解决的问题、问题和功能请求等待解决。我们需要更多的帮助来解决这些具有挑战性的问题并加速开发。欢迎大家加入我们的社区，共同定义 AI 代理的未来。

您觉得这个更新有帮助吗？您想加入我们的力量吗？请加入我们的Discord服务器进行讨论。

贡献者

背景​

反馈​

里程碑​

开放性问题​

新功能和正在进行的研究​

评估​

接口​

学习/优化/教学​

集成​

寻求帮助​

背景

反馈

里程碑

开放性问题

新功能和正在进行的研究

评估

接口

学习/优化/教学

集成

寻求帮助