The AI-Native Office agent-pk-by-a16z
The AI-Native Office agent-pk-by-a16z

在 AI 应用中,围绕 Office、办公场景的工具特别多,几乎每天都有新工具出现,但相比互联网时代的 Office套件, AI 原生工具目前到了什么程度?有取代 Office 的可能吗?

最近美国知名VC机构 a16z对几款 AI原生应用进行了测试,覆盖 PPT、邮件、表格、笔记等方向,从中可以看到,AI 原生应用的优势还是很明显的,不过要成为主流 Office产品,还有比较长的路要走。

具体来看看~~~

AI 不再只是一项功能,它正在成为你的队友!从起草电子邮件到设计幻灯片、研究市场或构建财务模型,一种类似于 AI 原生 Office 套件的全新“AI Agent”工具正在涌现。

但挑战在于:目前市场格局碎片化,每周都有新工具涌现。比如 Anthropic 本周刚刚为 Claude 推出了“创建和编辑文件”功能。用户不禁思考:我到底应该使用哪款工具?在哪些场景下,我可以将 AI Agent 工具融入到我的日常工作中?

为了解这些 AI原生办公工具的实际表现,我们绘制了一份市场地图,并在各种日常办公任务(例如制作电子表格、记录会议记录和撰写电子邮件)中对AI原生工具进行了基准测试。我们的基准测试发现,许多通用工具、一些出色的垂直应用表现出色,并揭​​示了一些市场发展趋势的线索。

一、AI Agent生产力工具的两条途径:通才 vs. 专才

市场正在分化为两种 AI Agent 生产力模式。一种是“一体化”的横向工具,旨在处理跨应用程序和跨任务的所有内容。另一种是垂直应用,旨在深入研究电子邮件、幻灯片或电子表格等单一工作流程。两者都在快速发展,并且各有优缺点。

通用型工具——横向工具

通用型工具的设计注重灵活性。它们可以跨不同的环境、应用和任务,但通常以牺牲精致度和精确度为代价。在这一阵营中,有三种类型的工具脱颖而出:

1、通用助手:水平网络工具,通常是多模式的、基于提示的,有时还支持记忆,以执行多种类型的任务。

  • 例如:Operator、Manus、Genspark。

2、Agentic 浏览器:在网络上自主浏览和执行任务。一些选项(例如 Comet)添加了更复杂的功能,例如通过关键字触发时重放工作流的快捷方式。

  • 例如:Dia、Perplexity Comet、Browserbase。

3、浏览器扩展应用:在现有工作流程和界面之上的轻量级助手。

  • 例如:MaxAI、Merlin、Monica。

专家工具 – 垂直工具

专家工具注重深度可靠性。这些工具并非试图包罗万象,而是专注于结构化的工作流程,其中信任、完善和用户控制至关重要。如今的垂直领域由涵盖核心专业工作流程的工具支撑。

1、电子邮件助理:起草结构化回复、管理收件箱分类和处理调度任务的助理。

  • 例如:Fyxer、Serif、Jace。

2、PPT工具:人工智能工具,可创建注重视觉设计、速度和可编辑性的幻灯片。

  • 例如:Gamma、Chronicle、Beautiful.ai。

3、笔记和文档工具:用于结构化写作、笔记记录、知识捕获和协作编辑的工具。

  • 例如:Mem、Notion、Granola。

4、电子表格工具:处理数据提取、格式化和分析的应用程序。它们可以向研究或工作流程方向扩展。

  • 例如:Paradigm、Shortcut、Meridian、Julius。

二、测试基准:这些产品真的有效吗?

为了解这些工具在实际任务中的表现,我们根据基准对它们进行了测试,以衡量它们在哪些方面成功,在哪些方面不足。

这些提示旨在涵盖六个核心维度:总结、沟通、文件理解、研究、规划和执行。

用例 1:PowerPoint

提示词:设计一个视觉丰富的 7 张幻灯片,介绍 2025 年 Z 世代互联网行为趋势。

Gamma 是一款垂直化的 AI 演示工具,内置模板和设计功能,可在两分钟内生成演示文稿。作为一款功能齐全的演示文稿编辑器,它提供了丰富的控件,方便用户在生成演示文稿后进行编辑——用户可以调整布局、更改视觉效果和字体、添加图表,并向 AI 提供文本或设计建议。

Genspark 和 Manus 作为通用助手,倾向于制作内容更丰富的演示文稿,通​​常更接近研究报告。它们的输出需要更长的生成时间,但往往展现出更深入的分析和更强的及时性。ChatGPT Agent 制作的演示文稿更简单,类似于基于文本的报告,设计能力较弱,生成时间也更长。 

Anthropic 本周刚刚在 Claude 中推出了文件创建和编辑功能。在演示文稿生成任务中,它是我们测试过最快的通用代理,尽管其设计仍需改进。

总的来说,如果您需要用于外部用途的演示文稿,并且视觉质量和后期制作控制至关重要,那么 Gamma 是最佳选择。如果您正在寻找内容丰富的演示文稿来激发研究或分析,那么 Genspark 是更好的选择。

用例 2:电子表格

提示词:从此 PDF 中提取所有数据并计算营业利润率。

电子表格是一个复杂的用例。其复杂性在诸如复杂的财务模型等输出中尤为明显,因为格式和准确性都至关重要。尽管如此,AI 电子表格工具已开始展现出在更基础和中级任务中发挥作用的迹象,例如从 PDF 中提取数据和执行基本的财务计算。

在本次测试中,我们上传了S-1文件中的一页,并要求这些工具计算公司的营业利润率。在横向代理工具中,Manus表现最佳:它将数据提取到结构化的电子表格中,并快速返回准确的结果。Claude在电子表格任务中也是速度最快的,并且给出了正确的答案,但它的输出有限——提供的分析很少,并且无法将完整的数据集提取到表格中。

Shortcut 作为一个垂直的以 Excel 为中心的代理,在原生 Excel 环境中提供了更全面的分析,尽管它运行时间更长,并且只提取与计算相关的数据而不是完整的数据集。

用例 3:电子邮件

提示词:通过电子邮件安排下周四的晚餐

Fyxer、Serif 和 Jace 是电子邮件的垂直助手。它们都能生成高质量的草稿,并跨线程维护上下文。Serif 的突出之处在于其高度的自定义:它支持剧本、电子邮件标签和首选项设置——让用户能够编码最佳实践,并在类似场景中应用一致的工作流程。

他们的调度方法各不相同,但都能够执行一个简单的调度任务:

  • Serif 支持异步协调。您可以将代理复制到电子邮件中,以处理来回的日程安排并发送日历邀请。
  • Fyxer 生成一个 Calendly 风格的链接,供其他人预订时间。
  • Jace 采取了一种更轻松的方式,生成事件但在发送之前等待用户批准。

相比之下,Comet 将通用助理功能引入了电子邮件领域。它可以撰写回复草稿、按照提示安排会议、发送邀请以及搜索收件箱。但它缺乏内置的自定义功能,例如策略、标签或偏好设置,因此与专用电子邮件助手相比,草稿的定制程度略低。

用例 4:研究

提示:在表格中总结并比较微软、亚马逊和谷歌的最新季度云收入增长情况,并提供来源,然后在一份简短的报告中分析结果背后的驱动因素。

借助人工智能工具,用户现在可以在几秒钟内生成深入的、基于研究的分析——这项工作以前可能需要花费数小时的工作和多年的经验。

我们测试的所有产品都能够提取正确的云收入增长数据并将其整理成表格。差异主要体现在细微差别和速度上,这反映了每个产品各自的底层优化和限制。

Comet 和 Dia 这两款 AI 原生浏览器速度最快。它们在 20 秒内即可返回结果,但与 Manus 相比,它们的输出分析性较弱,结构性较差。Manus 提供了更全面的表格,并对数字背后的驱动因素进行了更深入的解释。

来源质量也参差不齐。Comet 和 ChatGPT Agent 脱颖而出,因为它们直接取材于收益报告和雅虎财经等权威来源,并且通常包含内联引文,以便于验证准确性。

总的来说,权衡利弊显而易见:如果您优先考虑更深入的分析,并且对处理时间不太敏感,那么 Manus 是最好的选择。如果您注重速度,希望获得快速、可靠的结果,那么 Comet 更适合您。

用例 5:会议笔记

场景:在会议期间打开记事本

会议笔记是最常见的人工智能应用之一,它让用户专注于对话而非打字,从而节省精力。这类工具通常以记事本的形式运行,自动转录和组织讨论内容,而 ChatGPT 的记录模式则提供了更轻量级的替代方案。所有参与基准测试的产品都支持通过关键字搜索进行检索,但它们在笔记质量、自定义和协作方面的优势各不相同。

Mem 能够生成最详尽的记录,详细记录讨论和行动项目;而 ChatGPT 的记录模式则提供更高级的摘要,虽然更容易浏览,但内容不够完整。Granola 的独特之处在于其可定制的模板,能够适应不同的会议类型,让用户更好地掌控结构和输出。

Granola、Mem 和 Notion 都允许用户提前准备笔记,在会议期间添加指导,并实时转录。Notion 在协作方面表现突出:任务可以直接在笔记中分配,同步到 Notion 日历,并与更广泛的团队工作流程保持一致。

总体而言,如果您想要全面捕获,Mem 是最合适的;对于结构和定制,Granola 表现出色;对于团队协调,Notion 是最强大的选择。

三、测试观察

通过对这些 AI工具 用例进行测试,我们有几个发现:

1、差异化模式已然清晰

垂直产品凭借其设计和工作流程的精益求精脱颖而出——专注于工作“表面”或画布,并深度嵌入专业工作流程。这使得它们尤其适用于注重精细化和呈现的外部用例。

相比之下,通用产品则强调广度:它们通过叠加相邻任务,争相成为“一体化”的切入点。例如,Manus 已经涵盖了研究、演示和电子表格等功能,将自己定位为工作开始的唯一平台。

2、通用产品的竞争日益激烈,包括来自大模型的竞争

通用助手和代理浏览器正在竞相成为工作的核心用户界面。考虑到速度和准确性的重要性,更接近模型开发的公司可能更有机会实现目标。

各个大模型实验室仍在参与竞争:比如Anthropic 最近为 Claude 推出了一款浏览器工具,我们期待 OpenAI 和其他参与者做出更多尝试。

3、融合即将到来

随着垂直产品寻求“跃升”至新的类别,而通用平台则加倍投入热门用例,垂直和通用代理之间的界限开始变得模糊。

如果你正在构建垂直产品,请务必跟上并基于最新的大模型进行构建。如果您正在构建通用产品,则需要足够深入的工作流和迭代循环,这样垂直应用参与者无法挖掘到你的用例和场景。