世界快播：商汤科技发布多模态多任务通用大模型“书生2.5”

(资料图片)

本报记者李乔宇

3月14日，商汤科技发布多模态多任务通用大模型“书生（INTERN）2.5”，在多模态多任务处理能力方面实现多项全新突破，其图文跨模态开放任务处理能力可为自动驾驶、机器人等通用场景任务提供高效精准的感知和理解能力支持，向通用人工智能迈出坚实的一步。“书生（INTERN）”最初版本由商汤科技、上海人工智能实验室、清华大学、香港中文大学、上海交通大学在2021年11月首次共同发布，并持续联合研发。

“书生2.5”拥有30亿参数，不仅是世界上开源模型中ImageNet准确度最高、规模最大的模型，也是物体检测标杆数据集COCO中唯一超过65.0mAP的模型。目前，“书生2.5”多模态通用大模型已在通用视觉开源平台OpenGVLab开源，为学术界和产业界的多模态通用模型研发提供有力支撑。

当前，人工智能技术的发展正面临着大量跨模态任务的挑战，为满足快速增长的各式应用场景需求，发展更为通用的人工智能模型已成为科技前沿的核心焦点问题。此次全新发布的“书生2.5”致力于多模态多任务通用模型的构建，可接收处理各种不同模态的输入，并采用统一的模型架构和参数处理各种不同的任务，促进不同模态和任务之间在表示学习方面的协作，逐步实现通用人工智能领域的融会贯通。

“书生2.5”实现了通过文本来定义任务，从而可以灵活地定义不同场景的任务需求，并根据给定视觉图像和任务的提示性语句，给出相应的指令或作答，进而具备通用场景下的高级感知和复杂问题处理能力，比如图像描述、视觉问答、视觉推理和文字识别等。

（编辑张明富）

关键词：