明略科技吴明辉：垂直领域需专属Benchmark，AI评估体系需革新

时间：2025-09-17 12:08:39　来源：界面新闻　作者：界面新闻

9月16日，2025腾讯全球数字生态大会在万众瞩目中拉开帷幕。本届大会以“智·向远大”为主题，深入探讨了全球科技与产业发展的新趋势，旨在通过自主创新技术，助力各行业挖掘智能化、国际化的新机遇，推动产业升级与可持续发展。

作为企业级大模型与智能体领域的佼佼者，明略科技创始人、CEO兼CTO吴明辉受邀出席“互联网AI应用”专场，并发表了题为《多模态大模型在营销场景的落地实践》的主题演讲，分享了明略科技在AI前沿领域的成果与落地经验。

以下是吴明辉的演讲全文：

图片来源：明略科技

明略科技创始人、CEO兼CTO 吴明辉

各位现场的朋友们，大家好！

想必大家对明略科技并不陌生。多年来，我们在大数据领域深耕细作，与腾讯等企业建立了紧密的合作关系。近年来，我们更是将重心转向了企业级大模型与智能体的研发。我本人在硕博阶段的研究方向也是AI领域，因此今天非常高兴能与大家分享明略科技在AI赛道上的探索与成果。

在深入探讨具体工作之前，我想先与大家探讨一个关键话题——Benchmark。我认为，无论是AI企业还是各细分行业的企业，都必须高度重视Benchmark的构建。但我们不应仅仅关注通用基准测试，真正有价值的是针对具体细分场景的Benchmark。如果一个企业连自己独有的Benchmark都没有，那么它不仅可能在未来科技行业中被淘汰，甚至无法称之为一家真正的科技公司。

我读硕士时主攻计算机视觉（CV），研究方向包括指纹掌纹识别、文档识别等。前阵子，我发现我家小朋友在中学AI课程上做的项目，竟然已经能够完成我当年硕士阶段的研究工作。这让我深刻意识到，如今从事IT和技术领域的我们面临着巨大的压力。普通代码的价值正在大幅降低，无论是基础类代码还是业务代码，AI都能高效完成。那么，我们真正的核心竞争力在哪里？我认为，最重要的是要拥有属于自己的独特技术体系和差异化优势。

2024年，我带领团队在澳大利亚墨尔本参加了全球顶会ACMMM。当时，大会首场主题演讲的嘉宾是香港科技大学的一位教授，他在总结智能体未来发展趋势时提到，无论是智能体还是AI模型，处理的任务都可以分为两类：客观感知（objective perception）和主观感知（subjective perception）。

那么，什么是“主观”，什么是“客观”呢？这背后涉及一个哲学问题。从Benchmark的角度出发，我们可以结合实际业务场景来分析。例如，明略科技为企业客户做广告舆情分析时，情感分析是核心环节之一——判断一篇文章、一个视频中传递的情感是正面还是负面。过去，很多全球人工智能峰会都会举办情感分析竞赛。虽然情感分析看似是典型的“主观任务”，但后来我们发现，大部分情感分析竞赛的Benchmark设计存在明显问题：虽然是主观任务，却采用了客观的评估方式。这类Benchmark通常是让标注人员判断每个内容的情感倾向（正面/负面），之后让AI模型的分析结果与人工标注结果进行比对，最终得出一个评测指标，并将其称之为“主观分数”。

然而，从哲学层面讲，“主观”的核心在于不同人对同一件事可能持有不同观点。如果所有人都遵循统一标准，那本质上就是“客观”评估。因此，当时市场上并不存在真正意义上的“主观情感分析Benchmark”，所有情感分析评测本质上都是客观评估——因为都是基于统一的“标准答案”。

斯坦福大学李飞飞教授曾经提到，无论AI模型经过多少轮训练，目前仍无法像人类一样具备真正意义上的主观情感理解能力。

如何评估“主观”，这确实是一个值得深入探讨的问题。当我们在ACMMM 2024分享论文时，充分表明了决心：我们要构建一个新的Benchmark。

图片来源：明略科技

明略科技研究成果在ACMMM2024会议现场荣获最佳论文提名奖

我们为什么要花精力做这件事情呢？核心原因是我们想解决广告营销行业的实际痛点——广告内容测试。大家可以回想一下，我们每天在视频号、抖音等平台会看到大量广告，既有图文形式，也有视频形式。对于广告客户来说，投放一支广告的成本极高。除了拍摄广告片需要投入大量资金外，后续在各大媒体平台购买流量的费用更是远超拍摄成本。因此，在广告正式投放前，客户必须先测试广告片的效果，判断广告是否能吸引潜在消费者、是否能打动目标人群。

过去，广告测试的方法非常传统。我们会把消费者请到实验室观看广告，之后让他们填写问卷，根据问卷结果决定是否修改广告或直接投放。后来，测试方法升级为消费者佩戴可穿戴设备，我们通过捕捉脑电、眼动等信号，分析消费者观看视频广告时的情感变化。在这一过程中，我们积累了大量广告片的测试信号数据，而这些信号正是“主观性”的最佳体现。因为每个人的信号都不同，完全不存在统一标准。

大模型崛起后，通过把这些脑电、眼动信号与基础大模型相结合，我们训练出一个多模态的专业领域专家模型（specialize model）。在模型训练过程中，我们采用了一种特殊的网络结构——超图（hypergraph）。这种结构与传统图论中的图形结构不同，它能高效存储广告播放过程中各个视频片段之间的相似度，最终通过超图清晰地呈现出视频的故事线和情节结构。通过超图进行训练，不仅效果好，而且训练与计算成本远低于Transformer。这项超图多模态大模型研究成果最终获得了ACMMM2024最佳论文提名。

图片来源：明略科技

目前，基于我们自研的超图多模态大模型的产品——全球广告创意优化与测试平台AdEff已经正式上线。这是一款面向全球市场的SaaS产品，核心功能是可以测试同一支广告片在不同人群中产生的情感反应差异，这对出海企业意义重大。

现在很多中国品牌都在拓展海外市场，但不同国家、不同文化背景的消费者对广告内容的理解和接受度完全不同。在成本上，过去在一个市场测试一支广告片的成本大概需要1万美元，现在大模型将测试成本大幅压缩。对企业来说，成本降低意味着他们可以进行更多的尝试。现在很多客户的广告片已经不是由广告公司拍摄，而是用AI生成。生成后通过我们的产品快速测试，就能避免因广告效果不佳导致的流量费用浪费。

更有意思的是，当企业测试完广告片后，还能与大模型进行交互。比如，在广告播放的第3秒到第5秒，消费者为什么会感到兴奋？大模型互动的逻辑其实正是动态推理，它可以用自然语言解释信号升高的原因，分析对应用户群体的想法。如果某个片段的广告效果不好，大模型还能站在广告拍摄专家的视角，给出具体的优化建议。这对客户的吸引力很大，因为过去邀请消费者到实验室测试广告，测试结束后消费者就离开了。当广告主后续想深入了解“当时消费者为什么会兴奋”时，已经无法再联系到受访者。但现在，客户随时能与模型交互，挖掘背后的深层原因。

我们最近推出的另一款智能体——“妙啊”，聚焦爆款投流素材内容生成场景。当前短视频营销竞争激烈，很多企业过去一年才发布几十个广告，现在一天就要上线几百个广告，否则很难在社媒平台获得足够流量。然而，很多企业用大模型制作广告时，最大的痛点是不知道该写什么prompt，不知道如何设计剧情脚本。我们的“妙啊”可以帮助大家解决这个问题。

通过超图多模态大模型，我们先从全网搜集海量广告素材，再通过模型拆解素材中的“爆款片段”，之后将优质片段输入到“故事脚本生成模型”中。因为我们已经预先解析了真正吸引消费者的内容素材，提炼出有效的脚本逻辑，所以真正挖掘出了消费者感兴趣的内容，同时缩短了“广告创意”到“成片投放”的周期。

总的来说，我认为一方面垂直领域有大量未被挖掘的AI应用场景。未来模型层必然是“百家争鸣”的格局，绝非只有基础模型公司。每个领域的模型都应该具备独特性，关键在于要有自己“独特的Benchmark”。对企业来说，通用Benchmark就像基础学科考试，判断模型是否具备实战能力，看的是每个行业独有的评估体系。

另一方面，AI的优化不应仅局限于模型层面，未来还将延伸到智能体，甚至多智能体层面。多个智能体组成混合智能体，进行互相博弈，最终形成端到端的优化。

我们今年的重点工作之一是将模型推向全球市场。我们将聚焦15个重点海外市场，深化模型训练，将企业客户从中国出海企业拓展至海外市场的本土企业。同时，我们将推动构建一个覆盖全球各个国家与地区的广告素材库，并与当地广告学院、广告评审专家合作，将专业反馈通过RLHF（基于人类反馈的强化学习）的方式融入到模型训练中。

目前，无论是做品牌广告测试还是效果广告的内容生成，我们都欢迎大家体验我们明略的产品。我们也将通过持续的技术创新，帮助企业创造更大价值。

谢谢大家！