据通义千问Qwen公众号9月25日发布的最新消息,阿里巴巴正式推出全新升级的Qwen3-VL系列视觉理解模型,该系列被定义为Qwen系列中迄今为止性能最强的视觉模型。此次开源的旗舰模型包含两个核心版本:Qwen3-VL-235B-A22B Instruct与Qwen3-VL-235B-A22B Thinking。
根据技术文档披露,Instruct版本在主流视觉感知评测任务中展现出显著优势,其性能指标已达到甚至超越国际知名模型Gemini 2.5 Pro的水平。而Thinking版本则专注于多模态推理能力,在多个权威评测基准中取得SOTA(State-of-the-Art)表现,标志着阿里在视觉语言联合理解领域的技术突破。
此次双版本模型的同步开源,不仅为学术界提供了高水准的研究基准,更为产业界应用视觉理解技术提供了强效支撑。模型通过结构化设计实现了指令遵循与复杂推理能力的解耦,开发者可根据具体场景需求选择适配版本。