近日,科技领域传来一则引人注目的消息:苹果公司正在秘密研发一款名为Manzano的新型多模态AI模型。
这款模型旨在实现图像理解与图像生成能力的双重突破,为AI技术在图像处理领域的应用开辟新的道路。目前,Manzano模型尚未正式发布,但苹果已经通过一篇预印本论文和部分低分辨率图像样例,向外界透露了其研发进展。
苹果公司指出,当前大多数开源模型在图像处理上往往需要在图像理解与生成之间做出取舍,这在一定程度上限制了AI技术的全面应用。而Manzano模型则采用了创新的混合图像分词器技术,其共享编码器能够同时输出连续标记和离散标记,从而有效减少任务冲突,提升模型的整体性能。
Manzano的整体架构包括混合分词器、统一语言模型和独立图像解码器三大部分。其中,解码器还提供了三个不同版本,以支持不同分辨率的图像处理需求。在训练过程中,苹果使用了大量图像文本样本,确保模型能够充分学习并理解图像与文本之间的复杂关系。
内部测试结果显示,Manzano模型在文字密集型任务中表现尤为优异,其性能随着模型规模的扩大而不断提升。苹果公司认为,Manzano模型有望成为当前图像处理领域的有力替代方案。然而,他们也坦诚地表示,目前Manzano的基础模型在性能上仍落后于行业领先者,未来版本还需进一步验证和优化。