Redian新闻
>
「专题速递」GPU算力思考、内容生产技术实践、AI动漫、多模态可控的作曲框架

「专题速递」GPU算力思考、内容生产技术实践、AI动漫、多模态可控的作曲框架

科技


在AIGC时代,借助人工智能的力量,音视频创作者可以更加轻松地实现他们的创意构想。AI技术不仅能够提供高质量的音视频剪辑和特效处理,还能够根据用户需求智能推荐素材、调整音频效果、生成视觉效果,甚至可以通过自然语言处理技术为视频配上精彩的解说词。


通过AIGC,我们迎来了一个充满可能性的音视频创作时代。创作者和生产者可以借助AI的力量,创作出更具创意和想象力的音视频作品,满足不断变化的市场需求,推动整个音视频产业链的持续发展与创新。



01

AIGC基石思考之算力哲学——论GPU的过去,现在和未来




王闻宇 

PPIO派欧云 联合创始人&CTO


当前,GPU已成为元宇宙、人工智能、大语言模型、AIGC发展的必备基础设施之一。本次分享,我将从历史、硬件发展、软件发展、股价等多个维度分析GPU的前世今生,同时,剖析英伟达、AMD和Intel之间的恩怨情仇,探讨美国GPU出口限制的破解思路,并思考这一切背后的第一性原理(哲学),对未来英伟达等公司股价做出预测。



02

AIGC时代下,阿里云视频云

媒体内容生产技术实践




邹娟

阿里云智能 资深技术专家


视频化的趋势与AIGC的浪潮相互碰撞,为媒体内容生产领域带来了不少变化,媒体层的性能挑战越来越突出,媒体内容生产的应用场景和体验需求也愈发多样。


本次演讲将分享AIGC时代下,阿里云视频云媒体服务的整体技术架构,建设融合AI与传统媒体处理的一体化媒体引擎的关键技术,还将分享阿里云视频云如何重构媒体内容生产三大模块—内容创作、媒体处理、媒资管理,将AIGC技术落地相关场景和应用的实践。



03

美图AI动漫功能的落地探索




李骈臻

美图 高级计算机视觉专家


随着AI在视觉领域的快速发展,美图希望通过AI技术帮助用户更好地生产内容。自从diffusion模型提出以后,业界出现了如DALLE,Midjourney等基于简单描述文本生成图像的模型和工具。今年也逐渐出现了诸如Runway GEN, PIKA等的视频内容生产工具。针对视频的内容的AIGC应用,对于视频生成稳定性以及落地部署方面面临着诸多的挑战。


本次分享将分为三个部分,第一部分主要介绍美图在AIGC方面的应用;第二部分介绍美图在23年4月初发布的一个视频AIGC应用“AI动漫”并分析其中的对用户动画内容创作的意义和挑战,第三部分介绍美图对于生成稳定性以及功能体验等问题的一些探索经验。


04

XMusic:多模态可控的

高质量通用作曲框架




田思达

腾讯 多媒体实验室 智能媒体技术负责人


近年来AIGC在文本和图像领域取得了巨大突破,AI生成的内容已经可以和人为创作的内容相媲美,但在音乐生成方面还无法达到人类水平。一方面它们无法灵活地控制情感的表达,另一方面它们无法保证输出的音乐质量。


在本次分享中,我们将介绍XMusic,它支持图片、视频、文字、标签、哼唱等模态内容作为提示词生成情感可控的高质量音乐。XMusic通过构建XProjector实现了多模态内容的解析和条件控制,又通过训练XComposer实现了音乐的生成和筛选,最终实现了一个多模态可控的高质量通用作曲框架。目前,XMusic已上架腾讯云并上线官方小程序,欢迎大家前来体验。




LiveVideoStackCon 2023音视频技术大会深圳站

诚邀您参与!


时间:2023年11月24日-25日

地点:深圳圣淘沙酒店(翡翠店)

获票方式:扫码购票,团体参会还有优惠!

咨询:13520771810(微信同号),[email protected]


立即购票




▼点击下方阅读原文 ▼

进入LiveVideoStackCon 2023深圳站官网 了解更多精彩演讲


微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
详解CPU、内存、GPU知识「专题速递」嵌入式物联网、RTC技术、实时通讯终端、混合现实影像传谷歌开始小范围测试Gemini:比训练GPT-4算力大5倍,多模态能力大提升重磅课程再次升级,一次性搞定大模型多模态AIGC与强化学习 --《2023秋季AIGC大模型与强化学习前沿技术实战》 招生简章只愿君心似我心实现输入到输出「模态自由」, NUS华人团队开源NExT-GPT,最接近AGI的大一统多模态大模型来了GPT-4完成正确率仅6%!北大等提出首个「多轮、多模态」PPT任务完成基准PPTC晚明科技翻译:实践、解释与启蒙「专题速递」JPEG AI、端到端图像编码的标准化及产品落地、深度学习刘亚东:大语言模型引领内容生产方式变革第五章第三节 共产国际和中国共产党2023 三联人文城市奖揭晓:西扎、都市实践、UAL等团队获奖「专题速递」边缘降本、智能语音降本、提高压缩率、极速高清实践兔展智能:以视觉为核心大模型“兔灵”首次揭开面纱,聚焦内容生产精准可控「专题速递」AR协作、智能NPC、数字人的应用与未来你我他,就是个无,纯没有。MiniGPT-4升级到MiniGPT-v2了,不用GPT-4照样完成多模态任务DeepMind创始人:AI将让人类远离心理问题,13亿美元GPU算力打造最强个人助理|附实测记录「专题速递」数字人直播带货、传统行业数字化升级、远程协作中的低延时视频、地产物业中的通讯终端「专题速递」水下图像的画质增强、HDRVivid生态、视觉质量评价模型、音乐可视化效果上海内推 | 小红书多模态算法组招聘多模态CV/NLP算法实习生Nat. Commun. | 高歌课题组提出跨平台、多模态空间组学比对与整合方法「专题速递」RTC云网端联合优化、弱网对抗策略、QUIC协议的能力和实践微软亚研院段楠团队开展视觉内容生成研究,助力解决多模态生成式AI核心难题动漫、游戏迷不要错过!密西沙加漫展就在本周末~别再「浪费」GPU了,FlashAttention重磅升级,实现长文本推理速度8倍提升网易数读招聘线上内容作者、内容实习生盘点大模型、多模态和视觉能投的会议期刊第五章第二节 列宁主义是什么UC伯克利团队开源MemGPT大模型上下文内存管理方案;AgentLM、多模态Fuyu-8B、数学LLEMMA等专用大模型开源6004 血壮山河之随枣会战 “和平运动 ”4​AAAI 2024 | 首个多模态实体集扩展数据集MESED和多模态模型MultiExpan「专题速递」数据驱动赋能、赛事直播优化、RTC技术、低延时传输引擎、多媒体处理框架、GPU加速弃用 MySQL 后存储成本降低 85%,携程业务系统数据库升级技术实践大语言模型引领内容生产方式变革
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。