更新时间:2026-01-20 01:39 来源:牛马见闻
2026年将是AI Agent的爆发之年AI Agent发展呈现出明显分化在AI Agent时代被赋予了新的涵义
<p id="48L0PJT5"><strong>撰文</strong>| 郝 鑫</p> <p id="48L0PJT6"><strong>编辑</strong>| 吴?先之<br></p> <p id="48L0PJTC"><strong>“真]正决定企业未来的转折点,正在发生,不是远方的AGI,而是当下的智能体。”</strong></p> <p id="48L0PJTE">这是谷歌在开年给出的最强预测,2026年将是AI Agent的爆发之年。</p> <p id="48L0PJTG">一个重要的趋势是,AI正在从回答问题,走向理解目标、制定计划,并跨系统采取行动。这意味着,未来Agent将不仅仅是对话型AI,而是能够完成复杂任务和交付的生产力工具。</p> <p class="f_center"><br></p> <p id="48L0PJTK">在中国,AI Agent发展大致可以分为两个阶段,前一阶段重对话、搜索,各类AI助手类应用层出不穷,并未分得出高下。从用户量上看,几个熟面孔包括巨头公司的代表有抖音豆包、腾讯元宝和阿里千问,创业公司的代表有DeepSeek和Kimi等。这一阶段的本质是流量入口和用户习惯的争夺。</p> <p id="48L0PJTM">时间来到2025年末和今年初,进入第二阶段后,AI Agent发展呈现出明显分化。各家依据自身的战略和资源,瞄定了不同价值方向。</p> <p id="48L0PJTO">豆包深化在语音对话、图片与视频生成领域的娱乐化应用;千问依托阿里系生态优势,聚焦生活服务,扮演“行政管家”角色;Kimi则将重心放在生产力方向,通过自研Agent模型推动AI与工作流的深度融合。</p> <p id="48L0PJTQ">回到谷歌开头的论断,从豆包、千问和Kimi身上已经初见端倪。差异化竞争的背后,是逐渐达成的共识,AI Agent的价值,最终必须由解决实际问题的能力来定义。</p> <p id="48L0PJTU"><strong><strong>输入决定交付</strong></strong></p> <p id="48L0PJU1">探究是什么原因造成了豆包、千问与Kimi们的不同选择,或许要回到一个简单的原理,即输入决定输出的质量。</p> <p id="48L0PJU3">这一法则,在AI Agent时代被赋予了新的涵义,Agent所依赖的输出,已经不仅仅是用户的简单指令,更包括了其对任务上下文的深度理解、对可用工具的精确调用以及对多步骤流程的可靠规划。</p> <p class="f_center"><br></p> <p id="48L0PJU7">从输入与输出的角度看,豆包的输入场景根植于字节的娱乐与内容生态。它的输入是开放、多模态的创意灵感。用户可以提供一段文字、一张图片、一句语音,甚至只是一个模糊的想法。这种输入的不确定性和娱乐导向,要求模型具备强大的联想能力和内容生成能力。</p> <p id="48L0PJU9">豆包更倾向于将任务边界限定在创意内容生成领域,不追求解决一个确切的问题,而是激发创意的过程,其核心指标是内容的新颖性、趣味性和传播度。</p> <p id="48L0PJUB">交付的结果往往是一个短视频脚本、一张趣味图片或一段配音,价值在于激发用户的二次创作和社交分享。在抖音火起来的“模拟站姐生图”“我想要占据你丝滑转场”等均出自于豆包,这相当于完成了从AI生成到用户交互的接力。</p> <p id="48L0PJUD">千问打造的是以服务调度为中心的输入、输出模式。千问背靠阿里覆盖衣食住行的成熟生态,输入的是结构化的生活服务需求。用户通常提出“订一张飞往上海的机票”或“买一杯奶茶”这类明确的指令。在输入中天然包含了时间、地点、商品、服务等因素。</p> <p id="48L0PJUF">千问的输入带有明显的指向性,Agent任务边界被划定在阿里生态可触及的服务当中。它的核心是将自然语言指令,转化为准确的API调用,衡量成功的指标是服务的完成率、效率和用户体验度。</p> <p id="48L0PJUH">所想即所得,千问最终交付的是已完成的服务结果,例如一张出票的订单、一份外卖、一条行程规划。千问将阿里系的流量聚到一处,其价值在于替代传统的APP交互,成为服务生态的统一智能入口,未来所能触及的边界,取决于连接生态的深度和与外界的互动。</p> <p id="48L0PJUJ">Kimi的方向代表了创业公司的一种取舍,不做生活娱乐、不做多模态生成。Agent更专注于深入研究、数据分析、PPT、网站开发等偏生产力与复杂任务的功能,这些往往需要长程规划、复杂工具调用,具备高经济价值潜力。</p> <p id="48L0PJUL">按照上面的逻辑,Kimi Agent输入是复杂的专业工作流。用户多数提交数十万字的行业文档、一个多步骤的项目需求或一套需要分析的数据集。该类型的输入具有超长上下文、高信息密度和强逻辑性的特点。</p> <p id="48L0PJUN">当Kimi将任务边界拓展至,需要深度规划、多工具调用和长链条推理的工作流时,其衡量的成功标准就变成了任务的完整交付、专业度与效率的提升。结果是,Kimi交付的是直接可用的工作成果,如一份结构完整的行业报告、一套数据分析图表等。</p> <p id="48L0PJUP">和OpenAI的Deep Research思路类似,核心价值在于能够直接替代部分重复性、低创造性的专业劳动。</p> <p id="48L0PJUT"><strong><strong>Agent的生产力向</strong></strong></p> <p id="48L0PJV0">不久前,豆包因为发行搭载AI助手版的手机引发热议,千问也在进一步打通淘系生态后刷屏。因此,这里我们想更多聊一下创业公司代表的Kimi。</p> <p id="48L0PJV2">当昔日并称为“AI六小虎”的智谱、MimiMax相继在港股上市后,外界把疑问抛到了Kimi面前,就差问一句“and you”?</p> <p id="48L0PJV4">在Kimi创始人杨植麟所发布的内部信中,他回应称,已完成约合35亿元的C轮融资,当前现金持有量超过100亿元,短期不着急上市,K3模型进一步Scaling,产品和商业化上聚焦Agent。</p> <p id="48L0PJV6">回顾去年一年,在Kimi年初转向基础模型和Agent研究后,低调的同时也收获了更多成果。</p> <p id="48L0PJV8">2025年Kimi以“Token效率(Token Efficiency)+长上下文(Long Context)”为核心技术路径,打造具备主动规划与复杂任务执行能力的Agent,并通过算法与架构创新突破现有智能上限。</p> <p id="48L0PJVA">Token Efficiency和Long Context是Kimi两个关键技术路线方向。为了提升训练效率,Kimi首次在超大规模模型的预训练中验证了二阶优化器Muon的价值,相比行业已经用了十多年的传统Adam优化器实现约2倍的Token效率提升,相当于用同等资源训练出更高智能水平的模型。</p> <p id="48L0PJVC">行业专家称,“现在还能在optimizer这样fundamental的领域,有这么大的进展,真是让人吃惊”。作为模型架构层2025年最大的进展之一,Muon优化器后续已经被包括智谱GLM和DeepSeek Engram在内的中国开源模型陆续采用,充分展现了中国开源生态的力量。</p> <p id="48L0PJVE">拓展上下文能力方面,Kimi提出基于线性注意力改进的“Kimi Linear”架构。首次在长上下文任务上性能超越全注意力Transformer,并在百万级上下文长度下实现6–10倍的端到端速度提升,同时保持更强的记忆与表达能力。</p> <p id="48L0PJVG">杨植麟提到,Kimi的K2模型是“中国第一个Agent模型”。</p> <p id="48L0PJVI">通过K2 Thinking的升级,Kimi能够完成复杂的工具调用并帮助解决高难度问题。Kimi K2在实战中可以执行两百多个步骤的复杂任务,已经能够帮助用户完成一系列高难度工作,展现出与全球头部Agent模型竞争的能力。</p> <p id="48L0PJVK">Kimi的深度研究功能更适合专业用户使用,不需要有前情提要,直接列出研究要求和可视化需求即可。Kimi能够快速get到用户想要的东西,并进一步地确认、明晰要点,尽管这有一点晦涩。紧接着Kimi会自行调取浏览器工具,边搜索边分析、确认,待结束后生成一份详细的研究报告和排版好的可视化网页。</p> <p id="48L0PJVN">基于深度研究、PPT和通用Agent模式(OK Computer)中的数据分析等能力,Kimi开启了Agent能力的商业化,以订阅制为主,不同等级的会员可以使用不同次数的Agent能力。据Kimi全员信称,全球付费用户数月增速170%,这在国内普遍免费的大背景下,迈出了艰难的第一步。</p> <p id="48L0PJVP">在刚刚知名风投机构a16z联合创始人Marc Andreessen开年演讲中,特别提到来自中国的Kimi模型是领先的开源模型之一。从基准测试来看,已基本复现了GPT-5的推理能力,除了全球范围内“超新星”的DeepSeek外,Qwen、字节、Kimi等也具有强大的竞争力。这里面,Kimi是唯一一家创业公司。</p> <p id="48L0PJVT"><strong><strong>智能的价值</strong></strong></p> <p id="48L0PK00">从豆包到Kimi,三位玩家AI Agent路径的选择,不仅仅是产品功能的差异,更是对什么是Agent核心价值,这一问题的回答。</p> <p id="48L0PK02">不同的理解,决定了他们未来的竞争维度。</p> <p id="48L0PK04">豆包定义了如何用Agent处理非结构化创意输入,交付情绪与互动价值。倒推对模型的要求,需要具备强大的多模态生成与风格模仿能力。生态决定了护城河在哪里,豆包生态是内容创作与分发的流量网络,其壁垒在于能否持续产出爆款内容并激发UGC。</p> <p id="48L0PK06">千问定义了如何用Agent理解结构化商业意图,交付交易与效率价值,这要求其模型得具备极高的意图识别准确率与API调用可靠性。千问依赖于阿里的商业操作系统,其壁垒在于对支付、物流、本地生活等服务的无缝整合深度。</p> <p id="48L0PK08">Kimi Agent正试图定义如何用Agent驾驭复杂专业任务,交付生产力与解决方案价值。这需要模型拥有深度的逻辑推理、任务规划与长程记忆能力。Kimi通过构建专业场景下“模型+工具+工作流”标准,正在加强对于垂直行业复杂需求的理解与满足能力,吸引的是付费意愿强的专业用户和组织。</p> <p id="48L0PK0A">但归结到一点,豆包、千问、Kimi以及更多的公司,都在定义和量化不同形态的智能价值,并将其产品化。</p> <p id="48L0PK0C">新的阶段,AI Agent让智能的价值,进一步得到放大。</p> <p class="f_center"><br></p> <p id="48L0PK0G">第一步是价值的Token化,各家将模糊的智能能力拆解为可标准计量的最小单元。这如同曾经为电力配置了千瓦时的单位,使智能的消耗和计价成为了可能,为商业化奠定了基础。</p> <p id="48L0PK0I">接下来是价值的流通化,当智能的价值被量化后,便能在生态中自由组合与流通,Agent就成为了智能价值的交易接口。典型如千问,流通的是交易意图和服务,Token的价值在电商、本地生活等多个场景中流转倍增。</p> <p id="48L0PK0K">最后是价值重组,也是谷歌提到的从工具层到工作与组织层的深化。</p> <p id="48L0PK0M">如果高性价比的智能也能像水电般随取随用,企业的底层逻辑有可能被改写。公司无需招聘专家团队,只需通过接入专业垂类Agent,就能获得该领域的顶级能力,从而突破原有的能力壁垒。创新也许不仅限于内部生发,也可来自于对外部智能服务的创造性组合。</p> <p id="48L0PK0O">正如a16z联合创始人所言,我们正目睹一种“超通缩”的智能单位成本,与一种“超通胀”的智能应用需求历史性地相遇。</p> <p id="48L0PK0Q">AI Agent,恰好是创造智能化价值,同时影响价值流向的关键。</p> <p class="f_center"><br></p> <p id="48L0PK17">微信号|TMTweb</p> <p id="48L0PK18">公众号|光子星球</p> <p id="48L0PK1B"><strong>别忘了扫码关注我们!</strong></p>
Copyright ® 版权 所有:吉林日报
违法和不良信息举报邮箱:dajilinwang@163.com 违法和不良信息举报: 0431-88600010
ICP备案号:吉ICP备18006035号 网络经营许可证号:吉B-2-4-20100020
地址:长春市高新技术产业开发区火炬路1518号 爆料电话:0431-88601901