那么,机器是否也能够像人类一样,同时处理和学习多种模态的信息呢?这就是多模态人工智能(multimodal AI)的研究目标。多模态人工智能是人工智能的一个子领域,它旨在开发能够同时处理和学习图像、文本、音频等多种模态数据的模型。多模态人工智能有助于提升机器对人类世界的理解和生成能力,从而实现更自然、更流畅、更高效的人机交互。
多模态人工智能的核心技术之一是多模态预训练大模型(multimodal pre-trained large model)。这种模型利用海量的无标注或弱标注数据进行自监督学习,从而学习到不同模态数据之间的共性和关联性,并形成一个统一的知识表示空间。在这个空间中,不同模态的数据可以相互转换和生成,比如从图像生成文本描述,或者从文本生成语音播报。这种模型可以有效地降低对数据标注的依赖性,同时提高对不同场景和任务的泛化性。
近年来,随着计算资源和数据规模的增长,多模态预训练大模型取得了令人瞩目的进展。国内外的研究机构和企业纷纷推出了各自的多模态大模型,并在各种应用场景中展示了其强大的性能和潜力。例如:
中国科学院自动化研究所发布了“紫东太初”跨模态通用人工智能平台1,该平台以三模态(视觉-文本-语音)预训练大模型为核心,可支撑全场景AI应用。该平台首次实现了“以图生音”和“以音生图”的功能,对视频配音、语音播报、标题摘要、海报创作等多元媒体业务场景提供了技术支撑。
阿里达摩院发布了万亿参数AI大模型M62,该模型是国内首个实现商业化落地的多模态大模型。M6已经作为AI助理设计师正式上岗阿里新制造平台犀牛智造2,通过结合潮流趋势进行快速设计、试穿效果模拟,有望大幅缩短快时尚新款服饰设计周期。
谷歌推出了CLIP和DALL-E两个多模态大模型,分别实现了从图像到文本和从文本到图像的转换和生成。CLIP可以根据文本提示从海量图像中检索出最相关的图像,或者给出图像的文本描述。DALL-E可以根据任意的文本输入生成逼真的图像,甚至可以创造出一些不存在的事物,比如“一个穿着西装的鳄梨”或者“一个长着猫耳朵的蛋糕”。
这些多模态大模型不仅展示了机器对多种模态数据的理解和生成能力,也体现了机器具有一定的认知和创造能力。这些能力是通向通用人工智能(AGI)的重要步骤,也是人工智能领域的前沿探索。多模态人工智能的未来必将风光无限,让我们拭目以待!