State of AI Agents
我们对超过 1300 名专业人士进行了调查——包括工程师、产品经理、业务领导和高管——以了解 AI 智能体的现状。以下是数据分析,揭示了今天 AI 智能体的使用(或未被使用)情况。
引言
2024 年,AI 智能体不再是小众兴趣。各行业的公司正愈发严肃地将智能体整合到工作流程中——从自动化日常任务到协助数据分析或代码编写。但幕后到底发生了什么?AI 智能体是否实现了它们的潜力,还是只是另一个流行词?谁在部署它们,又是什么阻碍了其他人快速上手?
我们对超过 1300 名专业人士进行了调查,以了解 2024 年 AI 智能体的现状。让我们深入探讨以下数据。
洞察
首先,什么是智能体?
在 LangChain,我们将智能体定义为一个使用 LLM(大语言模型)决定应用程序控制流的系统。正如自动驾驶汽车的自主等级一样,智能体也有一个自主能力的光谱。
智能体的采用率不高,但几乎所有人都有计划
智能体的竞争日益激烈。在过去一年中,许多智能体框架迅速走红——无论是结合 LLM 推理与行动的 ReAct、多智能体编排器,还是像 LangGraph 这样的可控框架。
并非所有关于智能体的讨论都是 Twitter 上的炒作。约 51% 的受访者已在生产中使用智能体。当按公司规模分析数据时,中型公司(100-2000 名员工)最积极地将智能体投入生产(占 63%)。
令人鼓舞的是,78% 的受访者计划不久后将智能体应用到生产中。尽管对 AI 智能体的需求很强烈,但实际的生产部署对许多人来说仍是一道难关。
我们还看到公司从简单的基于聊天的实现逐步过渡到更高级的框架,这些框架强调多智能体协作和更高的自主能力
(参见下文“新兴主题”部分)。
尽管科技行业通常是早期采用者,但对智能体的兴趣正在所有行业中获得吸引力。90% 的非科技公司受访者已在生产中使用或计划使用智能体(几乎与科技公司 89% 的比例相当)。
主要智能体用例
人们用智能体做什么?智能体不仅在处理日常任务,还开启了知识工作的新可能性。
智能体的主要用例包括进行研究和摘要(58%),其次是简化个人生产力或助手任务(53.5%)。
这些用例表明,人们希望有人(或某物)帮助他们处理耗时的任务。例如,用户可以依靠 AI 智能体从大量信息中提取关键见解,而无需为文献综述或研究分析筛选无尽的数据。同样,AI 智能体通过协助日常任务(如日程安排和组织),提高了个人生产力,让用户专注于重要事务。
效率提升不仅限于个人。客户服务(45.8%)是另一个重要领域,智能体帮助公司处理询问、排除故障,并加快跨团队的客户响应时间。
您认为智能体今天最适合执行哪些任务?
安全为上:跟踪和人工监督对智能体管理至关重要
强大的能力伴随巨大的责任——或者至少需要为智能体设置一些“刹车”。跟踪和可观测性工具是必备控制措施的首选,帮助开发者了解智能体的行为和性能。大多数公司还采用了护栏机制,以防止智能体偏离轨道。
您为智能体设置了哪些控制措施?
智能体权限
很少有受访者允许其智能体自由地读取、写入和删除内容。大多数团队只允许读取工具权限,或者要求在执行更重大操作(如写入或删除)时获得人工批准。
您的智能体具有哪些工具权限?
各公司规模的权限设置
不同规模的公司对智能体控制的优先级权重不同。大型企业(2000 名员工以上)更为谨慎,主要依赖“只读”权限以避免不必要的风险。同时,他们还倾向于结合离线评估,以在客户看到任何响应之前发现问题。
小型公司和初创公司(<100 名员工)则更关注跟踪,以了解其智能体应用中的实际情况。与企业相比,小型公司更注重快速发布,通过查看数据了解结果。
智能体控制措施对比
虽然科技和非科技公司在智能体采用率上相似,但在使用智能体控制的受访者中,科技公司更有可能采用多种控制方法。51% 的科技公司受访者目前使用了两种或更多控制方法,而其他行业仅为 39%。这表明科技公司在构建可靠智能体方面可能更为先进,因为高质量的体验需要更多的控制措施。
控制或护栏使用方法的数量
推动智能体生产的障碍和挑战
保持 LLM 应用程序性能质量高——例如响应是否准确或是否符合正确风格——并不容易。
性能质量是受访者最关注的问题——其重要性超过了成本和安全等其他因素两倍以上。
您在将更多智能体投入生产时面临的最大限制是什么?
小型公司尤其如此,性能质量远比其他因素重要,45.8% 将其视为主要问题,而成本(下一个重要问题)仅占 22.4%。这一差距凸显了可靠、高质量性能对于将智能体从开发阶段推进到生产阶段的重要性。
对于企业来说,尽管质量仍是重点,但安全问题同样重要,尤其是需要遵守法规和更谨慎处理客户数据的较大公司。
按公司规模分析部署智能体的障碍
智能体成功案例:Cursor 脱颖而出
最受关注的 AI 智能体应用
Cursor 荣登我们调查中最受关注的智能体应用榜首,其次是 Perplexity 和 Replit 等知名工具。
Cursor 是一个由 AI 驱动的代码编辑器,能够通过智能自动完成和上下文支持,帮助开发者编写、调试和解析代码。Replit 通过设置环境和配置,加速软件开发生命周期,并允许用户在几分钟内构建和部署功能齐全的应用程序。Perplexity 是一个由 AI 驱动的问答引擎,可以通过网络搜索回答复杂问题,并在其响应中提供链接来源。
这些应用展示了智能体的强大能力,证明 AI 智能体已不仅仅是理论——它们正在解决生产环境中的实际问题。
AI 智能体采用中的新兴主题
从我们的调研中,我们看到组织在将 AI 智能体引入工作流程时,面临许多不断演变的期望和挑战。
AI 智能体备受赞誉的能力包括:
管理多步骤任务
智能体更擅长深度推理和上下文管理,使其能够处理更复杂的任务。自动化重复性任务
AI 智能体仍被视为自动化行政任务的关键工具,从而释放用户时间进行更具创造性的解决问题。任务分配与协作
更好的任务分配可以确保正确的智能体在正确的时间处理正确的问题——尤其是在多智能体系统中。类人推理
与传统的 LLM 不同,AI 智能体可以回溯其决策过程,包括时间穿梭、回顾和根据新信息修订过去的决策。
然而,团队在构建智能体时也面临以下挑战:
理解代理行为的障碍 一些工程师提到,他们在向公司内的其他利益相关者解释 AI 代理的能力和行为时遇到了困难。有时候,额外的步骤可视化可以解释代理响应中发生的事情,但其他时候 LLM(大语言模型)仍然是一个黑盒子。这种可解释性的额外负担落在了工程团队身上。
尽管存在这些挑战,人们仍对以下领域充满热情和关注:
对开源 AI 代理的热情
人们对开源 AI 代理表现出浓厚的兴趣,许多人提到集体智慧可以加速代理的创新。
对更强大模型的期待
许多人期待 AI 代理的下一次飞跃,由更大、更强大的模型驱动——使代理能够以更高的效率和自主性处理更复杂的任务。
结论
集成 AI 智能体的竞赛已经开始,各公司正在重新设计工作流程,以 LLM 提高决策能力和人类生产力。
虽然热情高涨,但公司也意识到必须谨慎前行,为新用例和应用场景设置适当的控制措施。团队在尝试框架时既热切又小心,以保持智能体响应的高质量并避免幻觉(错误响应)。
展望未来,那些能够破解可靠、可控智能体代码的公司将在下一波 AI 创新浪潮中抢占先机,并开始为智能自动化的未来设定标准。
方法论
前五大行业:
科技行业(占受访者的 60%)
金融服务(占受访者的 11%)
医疗健康(占受访者的 6%)
教育行业(占受访者的 5%)
消费品行业(占受访者的 4%)
公司规模:
小于 100 人(占受访者的 51%)
100-2000 人(占受访者的 22%)
2000-10,000 人(占受访者的 11%)
超过 10,000 人(占受访者的 16%)