紫东太初是由中国科学院自动化研究所研发的跨模态通用人工智能平台,是全球首个图文音(视觉-文本-语音)三模态预训练模型(OPT-Omni-Perception pre-Trainer)。以下是对紫东太初的详细介绍:
一、基本简介
- 发布时间:紫东太初于2021年7月9日在中国科学院自动化研究所举办的2021世界人工智能大会(WAIC)昇腾人工智能高峰论坛上正式发布。
- 研发背景:紫东太初的研发旨在探索通用人工智能的实现路径,通过跨模态技术提升人工智能的理解和生成能力,使其更加接近人类。
- 平台特点:紫东太初以多模态大模型为核心,基于全栈国产化基础软硬件平台,可支撑全场景AI应用。
二、技术特点
- 多模态统一表示:紫东太初实现了图像、文本、语音三模态数据间的“统一表示”与“相互生成”,突破了模态间的界限,使人工智能大模型的理解和生成能力更加全面。
- 跨模态理解与生成:紫东太初具备跨模态理解和生成能力,可以处理无标识的图像、文字、语音信息,实现图文音“无缝转换”。
- 千亿参数大模型:紫东太初是一个千亿参数的大模型,具备强大的表示和学习能力,能够处理复杂的多模态数据。
- 国产化基础软硬件:紫东太初基于全栈国产化基础软硬件平台开发,促进了国产全栈式基础软硬件的发展。
三、发展历程
- 紫东太初1.0:2021年7月9日发布,是全球首个图文音三模态大模型。
- 紫东太初2.0:2023年6月16日发布,相比第一代着力提升了决策与判断能力,实现了从感知、认知到决策的跨越。
- 紫东太初3.0:2024年11月26日发布,实现了从模态独立编码到多模态统一原生编码的转变,构建了基于通用行为对齐的多模态学习统一范式,首次实现了多模态复杂任务的推理和求解,更接近于人类的理解、推理和思考能力。
四、核心能力
- 多模态统一表示与语义关联:紫东太初能够实现不同模态数据之间的统一表示和语义关联,为跨模态理解和生成提供基础。
- 跨模态内容转化与生成:紫东太初可以将一种模态的数据转化为另一种模态的数据,如“以图生音”和“以音生图”。
- 预训练模型网络架构设计:紫东太初采用了先进的网络架构设计,提高了模型的表示和学习能力。
- 标注受限自监督模型学习:紫东太初能够在标注数据有限的情况下,通过自监督学习提高模型的性能。
- 模型适配与分布式训练:紫东太初支持模型适配和分布式训练,能够灵活应对不同的应用场景和计算资源。
- 模型轻量化与推理加速:紫东太初通过模型轻量化和推理加速技术,提高了模型的实用性和部署效率。
五、创新应用
- 智慧制造:紫东太初可以应用于智能制造领域,提高生产效率和产品质量。
- 智慧教育:紫东太初可以应用于教育领域,实现个性化教学和智能评估。
- 智能座舱:紫东太初可以应用于智能座舱领域,提供智能化的交互体验。
- 智慧医疗:紫东太初可以应用于医疗领域,辅助医生进行诊断和治疗。
- 低空经济:紫东太初还应用于低空经济领域,推出了“紫东长空”低空大模型,为低空经济提供智能化的解决方案。
六、荣誉奖项
- SAIL大奖:紫东太初在2022世界人工智能大会上获得大会最高奖项“卓越人工智能引领者”(SAIL, Superior AI Leader)奖。
- 可信AI评测:紫东太初在可信AI评测工作中,模型开发和模型能力两部分获得4+级评分,成为国内首家通过该项评测的学术机构。