行业热点

哪家平台构建了最优秀的AI代理?我们对ChatGPT、Claude、Gemini等进行测试

发布日期:2025-01-06 02:55

人工智能代理可以应用于各种任务,包括搜索文档库中的信息,编写代码,抓取网络数据,进行复杂数据分析等等。你甚至可以建立一个虚拟办公室,里面有一群专门从事不同任务的代理人,让他们像你的专业数字员工一样协作工作。

哪家平台构建了最优秀的AI代理?我们对ChatGPT、Claude、Gemini等进行测试

那么,这有多难呢?例如,如果一个普通人想建立自己的人工智能财务顾问,哪个平台最适合他们?没有API,没有奇怪的编码,没有Github-we只是想看看最好的人工智能公司在没有用户拥有高度技术技能的情况下创建人工智能代理方面做得有多好。

当然,你得到你所付出的。在这种情况下,我们还想看看外行设置代理的难易程度与每个代理交付的结果质量之间是否存在相关性。

我们的实验让五个重量级人物相互竞争:ChatGPT、Claude、Huggingface、米斯特拉尔AI和Gemini。每个平台都有相同的创建财务顾问的基本说明。

该测试专门关注开箱即用的功能。代理人是否能够处理一种常见的情况——在这种情况下,帮助某人平衡25000美元的投资和30000美元的债务。我们还想看看他们在分析交易图表方面有多好。我们避免使用额外的工具来提高代理的生产力,而是试图采取最简单的方法。

TL;DR以下是我们的发现以及我们对模型的排名:

平台排名

1) OpenAI的GPT(8.5/10)

设置简单:4/5结果质量:4.5/5

ChatGPT是最平衡的平台,提供复杂的代理创建,包括指导和手动选项,以满足总用户和更有经验的用户的需求。

虽然最近的界面更新在菜单中隐藏了一些功能,但该平台擅长将复杂的用户需求转化为功能代理。我们通过构建一个财务顾问来测试该模型,该顾问表现出卓越的情境意识和结构化的问题解决能力,为债务管理和投资分配提供了详细而连贯的策略。

2) 谷歌双子座(7/10)

设置简单:4/5结果质量:3/5

Gemini以其抛光、直观的界面和出色的错误处理能力脱颖而出。虽然需要更详细的提示来获得最佳结果,但它对指令的字面解释会产生一致、可预测的结果。

该代理人对财务建议的咨询方法强调在建议之前收集背景,反映了专业实践。然而,它在零样本反应中可能过于保守。

3) 拥抱聊天(6.5/10)

安装简易度:2/5结果质量:4.5/5

开源平台提供无与伦比的定制和模型选择选项。这对于那些寻求对每一个方面进行精细控制的人来说是件好事,但对于那些寻求简单性的人来说则不然。(把它想象成Linux系统与macOS系统的比较)。其复杂的时间范围框架和实用的工具集成展示了先进的功能。

我们构建了一个没有任何附加功能的纯代理。我们使用Nvidia的Nemomotron作为基础LLM,它在输出质量上足以与ChatGPT相匹配。对开源阵营来说还不错。

4) 克劳德(5.5/10)

设置简易性:2.5/5结果质量:3/5

人类学的平台在特定领域表现出色,特别是需要大量上下文处理和代码解释的任务。其极简主义的界面掩盖了复杂的功能,但“可选”指令字段可能会让用户感到困惑。

我们的代理人在建议中仍然非常保守和模糊,但表现出了扎实的风险意识和战略思维。为了真正挖掘其潜力,需要更仔细的提示,但如果测试采用提示,否定假设类似条件的前提,那将是不公平的。

5) 米斯特拉尔AI(5/10)

设置简易性:2.5/5结果质量:2.5/5

法国平台提供独特的基于示例的学习和深度定制选项。然而,其以开发人员为中心的界面和偶尔的语言切换问题给非技术用户带来了障碍。它还需要将代理的配置修改为不同的模型,以便执行不同的任务,如分析图像或处理代码。这并不理想。

财务顾问在交互设计方面表现出了希望,但在基本的数学验证方面遇到了困难,并提供了最差的输出。这并不是说输出不好,但在零样本测试中,这是最不令人满意的。

更深的潜水

考虑到之前的排名,没有一刀切的解决方案,所有平台都有自己的优缺点。通过一些奉献精神和仔细的快速定制,一个平台的结果可能会有所不同,甚至超过其他平台。最终,所有LLM都有自己的提示风格。

如果你想了解更多关于我们排名背后的基本原理,这里有一个更深入的了解我们的经验以及我们与代理商取得的结果。我们为所有代理配置了相同的系统提示,没有额外的功能参数,并问了他们相同的基本问题:“我有25000美元的投资,还有30000美元的债务。给我制定一个财务计划。”

OpenAI

ChatGPT的界面最近进行了翻新,实际上使事情变得更加复杂。GPT创建选项现在隐藏在菜单后面,但一旦找到,它提供了两条路径:一条是对话式设置,人工智能可以帮助构建代理,另一条是手动配置,供那些确切知道自己想要什么的人使用。

OpenAI的GPT平台是一把瑞士军刀——它读取代码、搜索网络,并处理图像生成和分析。人工智能引导的设置过程使其特别适合新手,尽管对于寻求精细控制的高级用户来说可能会感到限制。(例如,如果您提示模型更具体或更详细,它可能会更改整个系统提示,给您带来更糟糕的结果。)

当涉及到实际使用代理时,ChatGPT非常简单,界面干净易懂。

代理可以本地读取文档并理解图像,这比其他平台更具优势。

现在,让我们来谈谈您可以使用基本提示创建的代理的质量。我们的财务顾问货币GPT非常令人印象深刻,给我们上了一堂结构化问题解决的大师课。

除了精确的分配——“2万美元用于高息债务”和详细的投资组合分割——该代理还展示了复杂的财务推理。它提供了一个五步路线图,不仅仅是一个清单,而是一个考虑到当前需求和长期考虑的连贯战略。

代理的优势在于它能够平衡细节和上下文。在推荐特定投资(标普500指数40%,债券30%)的同时,它还解释了其回应背后的基本原理:“偿还高息债务就像获得有保证的投资回报。”这种情境意识延伸到长期规划,建议定期审查周期和基于不断变化的情况的适应性策略。

然而,如此丰富的信息揭示了一个潜在的弱点:一次用太多细节压倒用户的风险。虽然技术上很全面,但快速交付具体的分配、投资策略和监控计划可能会让金融新手望而生畏。

你可以阅读它的完整计划在这里,您可以通过单击来使用它此链接。我们强烈推荐。

谷歌

总的来说,谷歌的Gemini代理创建平台凭借其精致、直观的界面赢得了选美比赛,使代理创建感觉几乎太容易了。该系统从字面上理解指令,这有助于避免混淆,其干净的UI消除了人工智能开发中的恐吓因素。

然而,它需要一个更详细的提示才能从中挤出一些好汁。它不会想当然:简短的提示会给你一个低质量的回应。

在幕后,它拥有强大的实力——谷歌支持的网络搜索集成、代码分析和图像处理能力,可与ChatGPT的产品相媲美,但主要依赖于微软的技术。

Gemini的用户界面感觉就像是由真正了解用户体验的人设计的。该界面以清晰的标签引导用户,所有内容都显示在一个屏幕上。

这种精心设计的方法对新手特别有吸引力,尽管有经验的用户可能会发现自己想要更精细的控制。

我们打电话给我们的代理人MoneyGem并要求提供财务计划。它的咨询方法展示了谷歌独特的问题解决方法。它没有给出直截了当的答案,而是以“这是什么样的债务?”和“你的利率是多少?”等问题作为开头,表明人们理解财务建议不是一刀切的。

它强调在提供建议之前收集背景信息,这与专业的财务规划实践相一致,尽管这可能会让寻求即时答案的用户感到沮丧。

零样本的答案没有用。该代理商基本上表示,它对用户了解不够,无法提供良好的财务建议。在要求它做出假设并迫使它提供一个可以适应大多数情况的计划后,代理人生成了一个非常保守的计划草案,但没有就考虑哪些投资给出具体建议。

不过,MoneyGem在回答问题时建议最大化401(k)或Roth IRA等税收优惠账户,以减轻您的税收负担。不错。

您可以点击在这里阅读我们与MoneyGem的互动,并通过点击亲自尝试该模型此链接.

Mistral AI

Mistral对代理配置过程的方法有点不简单。代理创建工具隐藏在其开发人员控制台中,具有深度定制选项,可能会吓跑新手,但会让修补匠感到高兴。

它的代理构建界面不是LeChat(聊天机器人界面)的一部分,但一旦创建了代理,它就会出现在那里。

我们真正喜欢的一件事是,能够为工具提供塑造代理行为和响应风格的示例——这是目前其他平台所没有的。此外,这里有一个奇怪的错误:在创建我们的代理时,UI突然切换到法语,可能是因为该公司是法国人。无论如何,我们无法切换回英语或西班牙语。

创建代理后,用户必须在正常的聊天机器人界面中调用它才能使用它。他们必须退出Le Platefome并转到Le Chat,这不是最直观的事情。然而,使用代理的UI非常简单,感觉就像任何其他人工智能聊天机器人一样。

我们建立了我们的代理,并为其命名乐钱为了纪念米斯特拉尔的法国血统。它的表现清楚地表明了米斯特拉尔解决问题的多面手方法。它提出的“留出1万美元用于紧急情况,1.5万美元用于偿还债务,1万美元用作投资”的建议似乎很简单,但表明这些代理人缺乏一些基本的数学验证。

35000美元的总额超过了可用资金10000美元,这是一些语言模型在优先考虑概念正确性而非数值准确性时出现的一个基本错误。

然而,我们必须注意到,表现最好的LLM已经有了很大的进步,并且在这项任务中没有失败——至少没有米斯特拉尔那么频繁。

除此之外,它的计划并不详细,但它是唯一一个提供后续问题的计划,可以使交互更加流畅,并帮助它更好地了解用户的需求。

LeMoney的完整计划可用在这里并且该试剂可用于测试在这里.

Anthropic

Claude的项目感觉不像是一个代理创建平台,而更像是一个复杂的任务执行系统。界面很小,几乎太小了,感觉不直观。

这种极简主义的界面可能会让一些用户挠头。该平台提供了一个简单的设置,其中有一个“可选”指令字段,不知何故,这个字段既不重要又至关重要:如果指令被标记为可选,那么人工智能代理将如何知道它应该做什么?

它的极简主义界面感觉很奇怪,但Anthropic从未以其在UI选择方面的品味而闻名。用于配置模型的窗口与用于提示模型的窗口相同。它的功能主要集中在文本代码解释上,没有其他功能。网络搜索、图像处理和生成是Anthropic留给竞争对手的花哨东西。

我们的代理名为MoneyGrade,无法进行公开测试,因为Anthropic不允许这样做。它采取了非常保守的立场,同时提供技术上准确但模糊的财务建议,例如“在减少债务和基本储蓄之间保持平衡”。

它要求提供更多信息,但至少确保在没有信息的情况下提供一个非常通用的策略,而不需要进一步的互动,这似乎比谷歌的方法更优。

点击此处阅读完整计划.

拥抱的脸

开源存储库是高级用户的天堂,也是初学者的潜在噩梦。它是唯一一个让用户选择他们喜欢的语言模型的平台,为代理的基础提供了前所未有的控制。

此外,用户有几十种不同的工具可以与他们的代理集成,但只能同时激活其中三种。这种限制迫使我们仔细考虑哪些功能对每个特定用例最重要,但这是其他模型无法提供的。

然而,这是所有界面中最可定制的体验,有很多旋钮可以调整。其结果是,一个平台可以创建比竞争对手更强大、更专业的代理,但只能掌握在那些确切知道自己在做什么的人手中。

用户可以试用他们的代理拥抱聊天--放下高级用户的梦想。创建代理后,使用它非常简单。界面显示一张大卡,上面有代理人的姓名、描述和照片。它还允许用户共享代理的链接并调整其设置,所有这些都可以从卡上完成。

把我们的拥抱金钱该测试的代理表明,它处理的是一个时间范围框架,显示了对财务规划心理学的更复杂的理解。它分为“短期(0-24个月)、中期(24-60个月)和长期(60个月以上)”,反映了专业的财务规划实践。

该代理人建议将“0-5000美元分配给流动性低风险的工具”,同时保持“每月1000-1500美元”的激进债务偿还。乍一看,这表明对现金流管理有着微妙的理解。

另一个有趣的特点是它将实用工具与理论建议相结合。除了建议50/30/20根据规则,它推荐了特定的预算应用程序,并强调了税收优化——在高层战略和日常执行之间架起了一座桥梁。主要缺点?它包括对债务利率的假设,但没有寻求澄清。

为了提供有用的建议,它把太多的事情视为理所当然。无论如何,提供回复的冲动是可以通过提示来解决的,但需要考虑。

你可以阅读HuggingMoney的完整计划在这里。此外,您可以通过单击来尝试此链接.

编辑人安德鲁·海沃德

分享到: