达摩院基础视觉智能团队招聘:2023届校招补录、2024届实习生、研究型实习生
「TalentAI」将持续带来人工智能相关在招职位信息,欢迎正在找工作与看新机会的朋友关注,也欢迎企业伙伴与我们联系合作。
团队介绍
达摩院-基础视觉智能团队长期致力于构建视觉基础模型底座、践行模型即服务的发展理念、促进实现视觉AI技术实用化和产业化。团队在基于多模态的视觉理解和生成技术方向,发表CVPR/NeurIPS/ICML/ICLR等顶会上发表论文50+。我们的同学均来自海内外知名高校或者实验室,在这里大家可以和不同技术方向的优秀同学共同交流共同进步。同时我们具有充足的计算资源和数据资源,欢迎基础知识扎实、有进取心、希望做出有世界影响力算法的同学加入。
我们在做什么?
文生图:我们专注于视觉生成领域,包括但不限于基础生成模型的理论研究、文生图大模型研发、组合式生成大模型、视觉生成新范式研发,以及依托基础生成大模型的定制化生成、图像编辑、垂类模型拓展等。
文生图体验链接:https://decoder.modelscope.cn/pcIndex
组合式生成模型Composer:https://damo-vilab.github.io/composer-page/
《Dimensionality-Varying Diffusion Process CVPR2023》 《Composer: Creative and Controllable Image Synthesis with Composable Conditions arXiv》 《Cones: Concept Neurons in Diffusion Models for Customized Generation arXiv》
视频生成/编辑:不同于文生图,视频生成是一项更具挑战性的任务,要同时考虑content和motion的建模。团队开源了社区第一个Text2Video大模型:https://modelscope.cn/models/damo/text-to-video-synthesis/summary,欢迎试玩拍砖。除了通用场景,特定场景下的视频生成:数字人也是我们研究的重点方向,如何准确捕捉人脸口型、表情,如何实现通用化,等你来解决。
代表论文:
《VideoFusion: Decomposed Diffusion Models for High-Quality Video Generation CVPR2023》
《LipFormer: High-fidelity and Generalizable Talking Face Generation with A Pre-learned Facial Codebook CVPR2023》
多模态大模型:大规模自然语言模型GPT系列和ChatGPT最近发展火热,然而文本仅是其中一种交互媒介,研发多模态大模型MLLM来支持除文本外的多种模态输入和生成输出成为下一步发展趋势。团队在多模态图文表征模型和图文生成、视频生成方面有足够积累,对标或超越GPT4的多模态能力,自研创新框架将图像文本等模态统一建模,支持生成图文并茂结果,加入我们一起打造有国际影响力的AI系统!
《RA-CLIP: Retrieval Augmented Contrastive Language-Image Pre-training CVPR2023》
计算机视觉算法工程师
岗位说明:岗位同时面向2023届校招补录、2024届实习生、研究型实习生。
工作城市:杭州、北京
岗位要求:
1.具有扎实的计算机视觉或机器学习算法基础,有成果发表在CVPR、ICCV、ECCV、NeurIPS、ICML、ICLR、TPAMI等国际顶级会议期刊者优先;
2.熟练掌握Python、C/C++等至少一门语言 ,ACM/ICPC、topcoder等编程比赛获奖者优先;
3.乐于沟通、分享、交流,有激情,责任心强,具备良好的团队合作、沟通能力。
微信扫码关注该文公众号作者