界面新闻记者 | 伍洋宇
界面新闻编辑 | 文姝琪
2025年,人工智能领域的焦点正经历显著转移。自DeepSeek R1上半年引发行业热议后,纯文本推理模型的突破性成果逐渐减少,下半年市场目光明显转向多模态技术。
从技术进展来看,Sora 2已实现可交付应用,谷歌推出的Nano Banana在图像编辑能力上表现强劲;AI Agent领域同样呈现这一趋势,继Manus等文本型产品后,主打视觉创作的LoveArt成为新热点。
技术层面,文本模型迭代已进入高基线、小步提升阶段,而多模态的理解与生成能力正加速突破可用性瓶颈。一名模型训练研究人员向界面新闻指出,文本与多模态研究本质是并行而非串行关系。
经过GPT-3、GPT-4等关键节点,大模型的语言理解能力已能支撑C端应用,后续优化集中在稳态工程,如对齐、降本、延迟优化等。这些改进虽能提升用户体验和商业价值,但用户感知的冲击力已不如GPT-4发布时强烈。
以DeepSeek-OCR为例,这款10月20日推出的技术定位于文本视觉压缩能力(光学上下文压缩)。通过将长文本转化为图像识别,可大幅压缩token计算量。该技术一旦落地应用,将成为明确的降本增效方案。
相比之下,多模态领域的能力曲线仍处于可感知的上升期。不过受访者强调,多模态模型尚未实现架构级突破,主要依赖数据积累和训练技巧提升。

图源:界面新闻
以Sora 2和Nano Banana为例,两款产品虽验证了OpenAI对多模态生成的初步构想,以及谷歌对图像编辑需求的精准把握,但在生成质量上尚未实现质的飞跃。
多模态生成领域(如文生图、文生视频)的表现优化,仍以文本模型性能提升为前提。阶跃星辰创始人姜大昕曾指出,理解控制生成,而生成监督理解,二者形成闭环关系。
一级市场动态印证了这一趋势。一名AI投资人表示,今年行业投资事件增多但规模下降,反映投资重点从模型层向应用层转移。应用层市场规模和估值特点决定了这一变化。
视觉创作领域的LiblibAI成为典型案例。10月23日,该公司完成1.3亿美元B轮融资,红杉中国、CMC资本等参与,创下今年国内AI应用赛道最大融资记录,显示资本对团队产品市场匹配度(PMF)的高度认可。
未来一段时间,AI领域的“爆点”可能更多来自多模态方向。姜大昕多次强调,仅靠语言智能远不够,多模态是大模型的必经之路,而理解与生成的统一仍是当前突破重点。
多名受访者指出,视觉模态比文本模态面临更大挑战。文本数据可在语义上自闭环,但视觉信息需先与文本对齐,不存在天然自闭环数据。“可能需要几次类似ChatGPT、强化学习范式的技术变迁才能解决。”一位受访者表示。
一种观点认为,基于更强大的多模态模型,世界模型、具身智能、空间智能等才能获得长足发展,推动行业向通用人工智能(AGI)迈进。
更现实的考量是,模型能力决定应用上限。在文本模型专注降本增效的同时,多模态模型的突破有望为市场创造更多PMF机会,这将成为创业者和投资人关注的关键变化。