Redian新闻
>
7 Papers & Radios | LeCun世界模型首次尝试;Meta开源文本音乐生成模型

7 Papers & Radios | LeCun世界模型首次尝试;Meta开源文本音乐生成模型

公众号新闻

机器之心 & ArXiv Weekly 

参与:楚航、罗若天、梅洪源

本周重要论文包括图灵奖得主 Yann LeCun 世界模型的首项研究,以及 Meta 开源的文本生成音乐模型 MusicGen。


目录:

  1. Self-Supervised Learning from Images with a Joint-Embedding Predictive Architecture
  2. Adversarial Example Does Good: Preventing Painting Imitation from Diffusion Models via Adversarial Examples
  3. Disentangling Writer and Character Styles for Handwriting Generation
  4. INSTRUCTEVAL: Towards Holistic Evaluation of Instruction-Tuned Large Language Models
  5. Reverse Engineering Self-Supervised Learning
  6. VideoComposer: Compositional Video Synthesis with Motion Controllability
  7. Simple and Controllable Music Generation 
  8. ArXiv Weekly Radiostation:NLP、CV、ML 更多精选论文(附音频)

论文 1:Self-Supervised Learning from Images with a Joint-Embedding Predictive Architecture

  • 作者:Mahmoud Assran 等
  • 论文链接:https://arxiv.org/pdf/2301.08243.pdf

摘要:让 AI 像人类一样学习和推理,这是人工智能迈向人类智能的重要一步。图灵奖得主 Yann LeCun 曾提出自监督 + 世界模型的解决方案,如今终于有了第一个实实在在的视觉模型 ——I-JEPA。如下图所示,I-JEPA 使用单个上下文块来预测源自同一图像的各种目标块的表征。



推荐:LeCun 世界模型首项研究来了:自监督视觉,像人一样学习和推理,已开源。

论文 2:Adversarial Example Does Good: Preventing Painting Imitation from Diffusion Models via Adversarial Examples

  • 作者:Chumeng Liang 等
  • 论文链接:https://arxiv.org/abs/2302.04578

摘要:本文介绍的是一篇收录于 ICML 2023 Oral 的论文,论文由位于上海交通大学的上海市可扩展计算与系统重点实验室、纽约大学和贝尔法斯特女王大学的华扬老师共同完成。论文的共同一作是即将攻读南加州大学博士学位的梁楚盟和上海交通大学的研究生吴晓宇。



推荐:给图片悄悄加上像素级水印:防止 AI「抄袭」艺术作品的方法找到了。

论文 3:Disentangling Writer and Character Styles for Handwriting Generation


  • 作者:Gang Dai 等
  • 论文链接:https://arxiv.org/abs/2303.14736

摘要:本文中,来自华南理工大学、新加坡国立大学、香港理工大学以及琶洲实验室的研究者们联合提出一种有趣的手写文字生成方法,仅需提供少量的参考样本即可临摹用户的书写风格,进而生成符合该风格的任意文字。



推荐:会模仿笔迹的 AI,为你创造专属字体,入选 CVPR 2023。

论文 4:INSTRUCTEVAL: Towards Holistic Evaluation of Instruction-Tuned Large Language Models

  • 作者:Yew Ken Chia 等
  • 论文链接:https://arxiv.org/abs/2306.04757

摘要:这么多年来,指令调优大语言模型的性能到底怎么样呢?本研究提出了一个全新的评估套件,对它们在解决问题、写作和对齐人类价值观等方面进行了全面评估,结果可能超乎你的预料。研究者在下表 3 中提供了开源指令模型的整体概述。



推荐:四年了,基础开源模型没有真正进步,指令调优大模型评估惊人发现。

论文 5:Reverse Engineering Self-Supervised Learning

  • 作者:Ido Ben-Shaul 等
  • 论文链接:https://arxiv.org/abs/2305.15614v2

摘要:自监督学习可以利用辅助任务(pretext)无监督数据中挖掘自身的监督信息,通过这种构造的监督信息对网络进行训练,从而可以学习到对下游任务有价值的表征。近日,图灵奖得主 Yann LeCun 在内的多位研究者发布了一项研究,宣称对自监督学习进行了逆向工程,让我们得以了解其训练过程的内部行为。

为了直观地理解 SSL 训练,下图 1 通过 UMAP 可视化展示了网络的训练样本的嵌入空间,其中包含训练前后的情况并分了不同层级。



推荐:Yann LeCun 团队新研究成果:对自监督学习逆向工程,原来聚类是这样实现的。

论文 6:VideoComposer: Compositional Video Synthesis with Motion Controllability

  • 作者:Xiang Wang 等
  • 论文链接:https://arxiv.org/abs/2306.02018

摘要:在 AI 绘画领域,阿里提出的 Composer 和斯坦福提出的基于 Stable diffusion 的 ControlNet 引领了可控图像生成的理论发展。但是,业界在可控视频生成上的探索依旧处于相对空白的状态。相比于图像生成,可控的视频更加复杂,因为除了视频内容的空间的可控性之外,还需要满足时间维度的可控性。基于此,阿里巴巴和蚂蚁集团的研究团队率先做出尝试并提出了 VideoComposer,即通过组合式生成范式同时实现视频在时间和空间两个维度上的可控性。

该研究在 9 个不同的经典任务上直接测试 VideoComposer 的性能,均获得满意的结果,证明了 VideoComposer 通用性。



推荐:时间、空间可控的视频生成走进现实,阿里大模型新作 VideoComposer 火了。

论文 7:Simple and Controllable Music Generation

  • 作者:Jade Copet 等
  • 论文链接:https://arxiv.org/pdf/2306.05284.pdf

摘要:年初,谷歌推出了音乐生成大模型 MusicLM,效果非常不错。有人称这比大火的 ChatGPT 还重要,几乎解决了音乐生成问题。近日,Meta 也推出了自己的文本音乐生成模型 MusicGen,并且非商业用途免费使用。

如下输入周杰伦《七里香》歌词中的前两句「窗外的麻雀在电线杆上多嘴,你说这一句 很有夏天的感觉」(支持中文)。



推荐:Meta 开源文本生成音乐大模型,我们用《七里香》歌词试了下。


ArXiv Weekly Radiostation

机器之心联合由楚航、罗若天、梅洪源发起的ArXiv Weekly Radiostation,在 7 Papers 的基础上,精选本周更多重要论文,包括NLP、CV、ML领域各10篇精选,并提供音频形式的论文摘要简介,详情如下:


本周 10 篇 NLP 精选论文是:

1. Can Large Language Models Infer Causation from Correlation?.  (from Bernhard Schölkopf)
2. Developing Speech Processing Pipelines for Police Accountability.  (from Dan Jurafsky)
3. SqueezeLLM: Dense-and-Sparse Quantization.  (from Michael W. Mahoney, Kurt Keutzer)
4. Morphosyntactic probing of multilingual BERT models.  (from Noah A. Smith)
5. ChatGPT for Us: Preserving Data Privacy in ChatGPT via Dialogue Text Ambiguation to Expand Mental Health Care Delivery.  (from Kai-Wei Chang, Majid Sarrafzadeh)
6. Language models are not naysayers: An analysis of language models on negation benchmarks.  (from Timothy Baldwin)
7. Modality Adaption or Regularization? A Case Study on End-to-End Speech Translation.  (from Jingbo Zhu)
8. Xiezhi: An Ever-Updating Benchmark for Holistic Domain Knowledge Evaluation.  (from Rui Xu)
9. Word sense extension.  (from Lei Yu)
10. Instruction Tuned Models are Quick Learners.  (from Chitta Baral)



本周 10 篇 CV 精选论文是:

1. Multi-Modal Classifiers for Open-Vocabulary Object Detection.  (from Andrew Zisserman)
2. AVIS: Autonomous Visual Information Seeking with Large Language Models.  (from Kai-Wei Chang, Cordelia Schmid)
3. SMC-UDA: Structure-Modal Constraint for Unsupervised Cross-Domain Renal Segmentation.  (from Rama Chellappa, Xinbo Gao)
4. Aladdin: Zero-Shot Hallucination of Stylized 3D Assets from Abstract Scene Descriptions.  (from Leonidas Guibas)
5. Adding 3D Geometry Control to Diffusion Models.  (from Alan Yuille)
6. Compositor: Bottom-up Clustering and Compositing for Robust Part and Object Segmentation.  (from Alan Yuille)
7. Teaching AI to Teach: Leveraging Limited Human Salience Data Into Unlimited Saliency-Based Training.  (from Kevin Bowyer)
8. Instant Multi-View Head Capture through Learnable Registration.  (from Michael J. Black)
9. FlowFormer: A Transformer Architecture and Its Masked Cost Volume Autoencoding for Optical Flow.  (from Xiaogang Wang)
10. MOFI: Learning Image Representations from Noisy Entity Annotated Images.  (from Jon Shlens)


本周 10 篇 ML 精选论文是:

1. A Comprehensive Survey on Applications of Transformers for Deep Learning Tasks.  (from Witold Pedrycz)
2. Inductive Linear Probing for Few-shot Node Classification.  (from Huan Liu)
3. Virtual Node Tuning for Few-shot Node Classification.  (from Huan Liu)
4. Understanding How Consistency Works in Federated Learning via Stage-wise Relaxed Initialization.  (from Dacheng Tao)
5. Extending Kernel PCA through Dualization: Sparsity, Robustness and Fast Algorithms.  (from Johan A. K. Suykens)
6. Variational Positive-incentive Noise: How Noise Benefits Models.  (from Xuelong Li)
7. Privacy Preserving Bayesian Federated Learning in Heterogeneous Settings.  (from Joydeep Ghosh)
8. One-for-All: Generalized LoRA for Parameter-Efficient Fine-tuning.  (from Eric Xing)
9. Identification of Nonlinear Latent Hierarchical Models.  (from Eric Xing)
10. Composing Efficient, Robust Tests for Policy Selection.  (from Peter Stone)


© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:[email protected]

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
OpenAI再发3D生成模型Shap-E,传Midjourney入局3D模型生成天猫精灵 Sound智能音箱 - 让你的音乐生活更加智能化LeCun力挺,马毅教授五年集大成之作:完全数学可解释的白盒Transformer,性能不输ViTGPT-4最强平替更新!UC伯克利发布Vicuna v1.5,支持4K和16K上下文,刷新SOTA,LeCun转赞大模型不是未来?你需要学习下图灵奖得主Yann LeCun选择的「世界模型」LeCun世界模型出场!Meta震撼发布首个「类人」模型,理解世界后补全半张图,自监督学习众望所归我有多大的酒量?久石让音乐会来了!为宫崎骏注入音乐生命,满满回忆杀Meta开源文本生成音乐大模型,我们用《七里香》歌词试了下Meta音频AI三件套爆火:一句话生成流行音乐&音效,还能高保真压缩音频|开源【美国春天母亲节5年回顾原创三部曲六一钢琴节】我为柳宗元《小石潭记》作曲 &《让我们唱在夏天里》&《卖火柴的小女孩》真人濒临极限!澳联储恐5月再次加息!悉墨多地成“房贷监狱”!大批民众因房贷入不敷出,还有人多次尝试自杀!2023回国 大受教育+上海素食馆(图)发射台不挖导流槽?准备用水冷大钢板,马斯克:预计1~2 个月内再次尝试发射星舰Meta为什么要发布开源Llama 2大模型;2027上市,Meta AR眼镜放弃MicroLED技术给大模型生成文本发身份证:针对大模型生成文本的可编码水印技术LeCun高徒超详笔记曝光,Meta世界模型首揭秘!首个「类人」模型怎么来的?Stability AI开源文生图模型;莫言找ChatGPT代写颁奖辞;云从发布AI大模型丨AIGC大事日报【美国春天母亲节献礼4女高音三部曲 舞台艺术节255】春天原创现场舞台:《妈妈是天使》&《游子吟:三春晖》&《春天摇篮》LeCun世界模型首项研究来了:自监督视觉,像人一样学习和推理,已开源前Meta AI高管离职创业,做教育ChatGPT ,LeCun 点赞【君在我心】之【云深情也深 】& 【今夜想起你 】& 【爱在我心中】恶毒!悉尼妈妈残忍杀害自己宝宝!多次尝试淹死孩子!太可怕了!CVPR 2023 | LeCun世界模型首个研究!自监督视觉像人一样学习和推理!微软 Office copilot 定价每月 30 美元;腾讯否认推公务员版微信;Meta 发布新一代开源大模型 | 极客早知道【美国春天母亲节5原创钢琴三部曲 “粉衣蓝裙”不表白庆六一艺术节】《美丽夏天温柔的雨》&《爱的童话》&《雷雨之后》ChatGPT能写长篇小说了,ETH提出RecurrentGPT实现交互式超长文本生成差距怎么这么大呀遭Llama 2诋毁,LSTM之父暴怒!Meta盗用32年前idea训模型,喊话让LeCun负责In Hainan’s FTZ, China Lets Foreign Universities Operate Solo小米 AI 大模型首次曝光:64 亿参数;马斯克:敲定意大利「决斗」地点;美国防部成立生成式 AI 工作组 | 极客早知道LeCun力挺!马毅教授五年集大成之作:数学可解释的白盒Transformer,性能不输ViT东西方社会的母女情与亲情一个开源库搞定各类文本到音频生成,Meta发布AudioCraft【LEAP-BREC-Meetup】Limp Forward with Dr. Libo Meyers无题Holiday Special 七月上 望七月 ~~ poem & song by 盈盈 & AP​SIGIR 2023 | 基于图的预训练和提示来增强低资源文本分类开源文生图模型再进化,Stable Diffusion XL 1.0登场,出图效果不输Midjourney7 Papers & Radios | OpenAI用GPT-4解释GPT-2;Meta开源多感官基础模型
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。