LVS2023 | 从 AIGC 到多模态媒体大模型
LiveVideoStackCon2023深圳站
🔥🔥限时8折优惠,倒计时4天!🔥🔥
机不可失,扫码立即购票
//
编者按:AIGC大模型的发展正逐渐为音视频、游戏等产业赋能,而多模态大模型作为它的下一个重要发展方向,正被业界高度关注。LiveVideoStackCon 2023 上海站邀请了来自上海交通大学的宋利教授,为大家从多模态媒体生成、多模态媒体编码和多模态媒体交互三个方面展望新一代多模态媒体的特点以及未来基于大模型的智能跨模态编码的新趋势 。
多模态媒体大模型
表示(Representation):多模态媒体大模型需要能够有效地表示和处理不同模态的媒体数据,例如文本、图像、视频、音频、3D 等。对于每种模态,需要选择适当的表示方法,以便在模型中进行进一步的处理和分析。例如,对于图像,可以使用卷积神经网络(CNN)提取特征,对于文本,可以使用词嵌入或者序列模型来表示。
对齐(Alignment):在多模态数据中,模态之间可能存在相关性和对应关系。对齐是指将不同模态的数据进行匹配和关联,以便模型可以理解它们之间的关系。例如,可以使用注意力机制(Attention)来对齐文本和图像之间的语义对应关系。
推理(Inference):多模态媒体大模型需要具备推理能力,即能够分析和理解输入数据,并从中提取有用的信息。推理可以利用语言逻辑,具备一定的泛化能力。通过将不同模态的数据结合起来进行推理,模型可以获得更全面和丰富的理解。目前通用的方式是利用预训练语言大模型进行推理任务。
生成(Generation):多模态媒体大模型也可以用于生成新的多模态数据。例如,可以通过给定一段文本描述来生成对应的图像或视频,或者通过给定一段音频生成对应的文本。我们可以对推理输出的中间表示进行解码,输出需要的模态。
评价(Evaluation):对于多模态媒体大模型,评价是一个重要的环节,用于度量模型输出的质量和性能。评价可以包括主观评估和客观评估。主观评估可以通过人工评价来衡量生成结果的质量,客观评估可以使用各种指标和度量来评估模型的性能,例如生成的多样性,音视频的质量等。
编码(Encoding):不同于数据表示中的嵌入概念,这里特指数据的压缩编码。在多模态媒体大模型中,数据的编码是指对于任何模态的信息或者中间嵌入转换为空间紧凑的数据流。对于文本、音视频等传统模态,已有成熟的编码标准,对于 3D 模态,各种技术路径还未收敛。同时,业界也在积极探索跨模态编码、嵌入信息编码和神经网络编码。
交互(Interaction):多模态媒体大模型可以支持人与模型的交互、模型与模型的交互,甚至人与人之间的交互由模型的交互来代理,这将形成一个模型的生态圈。这包括接收用户输入的多模态数据,并根据用户的需求进行推理和生成。交互也可以涉及模型与其他系统的协作,例如与传感器和驱动器交互,甚至实现广义人工智能 AGI。
-01-
多模态媒体生成
-02-
多模态媒体编码
-03-
模态媒体交互
▲扫描图中二维码 ▲
直通LiveVideoStackCon 2023深圳站 8折购票通道
微信扫码关注该文公众号作者