达摩院基础视觉智能团队招聘：2023届校招补录、2024届实习生、研究型实习生

2023-03-31 06:03

「TalentAI」将持续带来人工智能相关在招职位信息，欢迎正在找工作与看新机会的朋友关注，也欢迎企业伙伴与我们联系合作。

团队介绍

达摩院-基础视觉智能团队长期致力于构建视觉基础模型底座、践行模型即服务的发展理念、促进实现视觉AI技术实用化和产业化。团队在基于多模态的视觉理解和生成技术方向，发表CVPR/NeurIPS/ICML/ICLR等顶会上发表论文50+。我们的同学均来自海内外知名高校或者实验室，在这里大家可以和不同技术方向的优秀同学共同交流共同进步。同时我们具有充足的计算资源和数据资源，欢迎基础知识扎实、有进取心、希望做出有世界影响力算法的同学加入。

我们在做什么？

文生图：我们专注于视觉生成领域，包括但不限于基础生成模型的理论研究、文生图大模型研发、组合式生成大模型、视觉生成新范式研发，以及依托基础生成大模型的定制化生成、图像编辑、垂类模型拓展等。

文生图体验链接：https://decoder.modelscope.cn/pcIndex

组合式生成模型Composer：https://damo-vilab.github.io/composer-page/

代表论文：

《Dimensionality-Varying Diffusion Process CVPR2023》
《Composer: Creative and Controllable Image Synthesis with Composable Conditions arXiv》
《Cones: Concept Neurons in Diffusion Models for Customized Generation arXiv》

视频生成/编辑：不同于文生图，视频生成是一项更具挑战性的任务，要同时考虑content和motion的建模。团队开源了社区第一个Text2Video大模型：https://modelscope.cn/models/damo/text-to-video-synthesis/summary，欢迎试玩拍砖。除了通用场景，特定场景下的视频生成：数字人也是我们研究的重点方向，如何准确捕捉人脸口型、表情，如何实现通用化，等你来解决。

代表论文：

《VideoFusion: Decomposed Diffusion Models for High-Quality Video Generation CVPR2023》
《LipFormer: High-fidelity and Generalizable Talking Face Generation with A Pre-learned Facial Codebook CVPR2023》

多模态大模型：大规模自然语言模型GPT系列和ChatGPT最近发展火热，然而文本仅是其中一种交互媒介，研发多模态大模型MLLM来支持除文本外的多种模态输入和生成输出成为下一步发展趋势。团队在多模态图文表征模型和图文生成、视频生成方面有足够积累，对标或超越GPT4的多模态能力，自研创新框架将图像文本等模态统一建模，支持生成图文并茂结果，加入我们一起打造有国际影响力的AI系统！

代表论文：