重思贝叶斯学习：稀疏建模中先验与推断的艺术

2022-12-21 15:12

©作者 | 尹峰

单位 | 香港中文大学（深圳）

论文引用：

L. Cheng, F. Yin, S. Theodoridis, S. Chatzis and T. -H. Chang, "Rethinking Bayesian Learning for Data Analysis: The art of prior and inference in sparsity-aware modeling," in IEEE Signal Processing Magazine, vol. 39, no. 6, pp. 18-52, Nov. 2022, doi: 10.1109/MSP.2022.3198201.

免费下载地址：

https://arxiv.org/abs/2205.14283

论文关键词：

Bayesian machine learning, Bayesian deep learning, Gaussian processes, tensor decompositions, sparsity-aware modeling

导读

“稀疏”这一概念，自压缩感知提出已深刻影响了信号处理与机器学习学界 20 多年。很多学者都在讨论，“压缩感知”还有什么研究可以做。其实，“稀疏建模”与“压缩感知”的思想，依然活跃在现代人工智能（AI）模型与算法的设计中。它们变得更加灵活，与神经网络的架构、核函数的频率分量、张量低秩性联系在一起，成为了更加广义的稀疏感知学习。

贝叶斯学习，提供了统计的框架去描述广义的稀疏建模与逆问题推断的全过程，具有模型复杂度的自动选择与不确实性量化等亮点特性。本文将以教学式的方式，展现“贝叶斯公式”这一近 260 岁的定理在 AI 时代蓬勃的生机与活力。

论文介绍

在过去的二十多年里，信号处理和机器学习中的稀疏建模一直是科学研究的焦点。其中，有监督的稀疏感知学习包括两条主要路径：a）基于正则化代价函数建立直接的输入-输出映射，即判别方法；b）学习底层数据分布的生成机理，即贝叶斯方法。

贝叶斯方法能够对所执行的预测进行不确定性评估，可以更好地利用相关的先验信息，并且自然地将鲁棒性引入模型。此外，通过贝叶斯学习，模型的超参数可以直接从训练数据中学习得到，而不用像判别方法那样通过使用耗时耗力的交叉验证技术来获得。

要实现稀疏感知学习，关键在于如何正确选取/设计判别方法中的正则函数以及贝叶斯学习中的先验分布。过去十年，由于对深度学习的深入研究，学界的研究重点放在了判别方法上。然而，贝叶斯方法正在卷土重来。它为深度神经网络的架构设计与高斯过程的核函数设计提供了新的思路，并启发了张量分解等无监督学习的新路径。

本文有以下两个目标。首先，以统一的视角介绍三个非常流行的数据建模/分析工具（深度神经网络、高斯过程和张量分解）中先验模型的设计范式。其次，从不同方面回顾他们相关的推理技术，包括采用优化和变分推理方法来最大化模型证据。本文还讨论了诸如小数据困境、自动模型结构搜索，和预测不确定性评估等挑战。本文以典型的信号处理和机器学习任务为例，包括时间序列预测、对抗性学习、社会群体聚类和图像补全，说明贝叶斯学习在以上挑战下的优越性能。

本文的叙述结构如图 1 所示。在第二节中，我们介绍一些贝叶斯学习背景和基础知识，旨在让读者轻松掌握主要概念、术语和数学符号。在第三节中，我们首先回顾了两种不同的路径（正则化优化路径和贝叶斯学习路径），并进一步介绍了一些能有效促进稀疏性的先验模型。在第四节中，我们演示如何为三个流行的数据分析工具，即：深度神经网络、高斯过程和张量分解，定制化设计稀疏先验模型。第五节将进一步介绍与它们相关的统计推理方法。第六节呈现多个信号处理与机器学习的热点案例。第七节提出了一些潜在的未来研究方向。

▲ 图1：论文整体结构与各章节关联关系

贝叶斯深度学习：网络架构学习

2010 年前后，具有多隐层（超过3层）的神经网络，即深度神经网络，因其卓越的表征能力和对各种学习任务的杰出性能，在机器学习领域占据了主导地位。深度学习网络架构设计的主要任务之一就是“剪枝”，即删除冗余的节点和连接，以减少模型参数的数量，避免过拟合。近年来，贝叶斯方法将“稀疏”建模的思想拓展到了神经网络的架构学习，实现了深度学习模型架构的自适应剪枝。

本文将重点回顾论文合作者 S. Theodoridis 与 S. Chatzis 近三年提出的基于Indian Buffet Process（IBP）的非参稀疏建模与推断方法（ICML19, NeurIPS21, AISTAT21）。IBP 可用于建模无穷维的 0/1 序列

，其生成模型如图 2 所示。

▲ 图2：Indian Buffet Process生成模型

IBP 可以建模无穷长度的序列的特性，可被利用来建模每一层具有无数节点的“无穷宽”神经网络。而 IBP 自带的稀疏促进性（即大多数）可保证只有少数有效节点会被保留。基于 IBP 的神经网络稀疏建模如图 3 所示。其核心思想是将神经网络的每一条连接（link）与一个来自 IBP 的 0/1 变量相耦合。该建模思想可拓展到卷积神经网络架构与近期流行的 local winner-takes-all（LWTA）架构。

▲ 图3：基于IBP的神经网络稀疏建模

▲ 图4：基于IBP的LWTA神经网络架构

基于 IBP 稀疏建模的贝叶斯 LWTA 神经网络架构，不仅可以实现自动的模型架构学习（即丢弃冗余的神经元/节点与连接），而且在对抗学习上呈现了卓越的性能，如图 5 所示。

▲ 图5：贝叶斯LWTA神经网络架构在对抗学习中的卓越表现

高斯过程：核函数学习

近年来，以高斯过程模型为代表的机器学习方法在通信、控制和统计信号处理等方面得到了广泛认可和应用。和基于深度学习模型的算法相比，高斯过程属于贝叶斯类的核方法，因此它能够很自然地给出基于数据的后验点估计和相应的置信区间。

对于贝叶斯非参数模型的研究最早可追溯到 20 世纪 90 年代；英国剑桥大学的 David MacKay 在 1992 年发表了关于贝叶斯神经网络（Bayesian Neural Network）的开创性工作，他发现一个具有无限长隐藏层的贝叶斯神经网络，当神经元权重具备独立同分布的高斯先验分布时，可以被等效地表示为一个高斯过程（Gaussian Process，简称 GP）模型，从而开启了高斯过程模型在机器学习领域的广泛研究。

高斯过程模型表示数据的能力和预测准确性很大程度上由核函数 k(x,x') 决定。传统的核函数（例如：SE, Matern）通常无法精准捕捉数据中潜藏模式，因此不具有最优性。设计富含表示力、可解释性以及自适应特性的核函数是当前最主流的研究方向。近年来，贝叶斯方法也将“稀疏”建模的思想拓展到了高斯过程模型核函数的学习。

本文重点回顾了论文合作者 F. Yin, S. Theodoridis，TH. Chang 等人近三年在栅格谱密度混合核函数、具有可解释性的深度神经网络核函数，以及它们在时序序列分析、无线通信等领域的应用（IEEE JSAC19, IEEE TSP20, UAI21, ICLR22）。

以栅格谱密度混合核函数（GSM kernel）作为核心展示，它的本质是一组具有低秩特性的子核函数的线性叠加，可以从理论上证明其在频域可以无限逼近任意一个稳态核函数。原始的谱混合核函数（SM kernel）（Wilson2014）的设计思路是在频域用一个具有高模数的高斯混合谱密度去近似稳态核函数的功率谱密度，如下图 6 所示。

与 SM 核函数相比，GSM 核函数表达式中的个栅格点被固定在一些随机采样的候选点上，进而构造了个低秩的子核函数；更重要的是，GSM 核函数参数可借助于最大化边缘对数似然函数进行估计，无需利用 ELBO 近似（详见本文第五节的统计推理部分）。

栅格化使得边缘对数似然函数具有良好的凸差特性，鉴于此我们提出利用 majorization-minimization 算法对核函数的参数（即个子核函数的权重）进行高效优化求解。在对应的 IEEE TSP20 文章中, 我们还证明了最优解的稀䟽性，也就是说在个候选栅格点中只有很小一部分在起作用，如图 6 所示，它有能力自动识别数据中的有效频段。

▲ 图6：可自动识别有效数据频段的谱混合核函数示意图

在应用方面（详见第 6 节），本文首先在时序序列预测任务呈现了 GSM 核函数的中长期数据预测能力、超参数优化稳定性、优化时间等核心指标相比其他核函数的显著优势，部分结果如下图 7 所示。

本文随后呈现了高斯过程回归模型在真实 5G 无线流量预测任务的性能，如图 8 所示；和 LSTM, Informer，SMGP 等基线算法相比，基于 GSM 核函数的 GP 回归模型（简称 GSMGP）不但可以给出更好的预测精度（MAPE=0.28），还给出了更合理的置信区间，如图 8 所示。

▲ 图7：基于GSM核函数的GP回归模型在经典时序数据集上的预测表现（以MSE为测度）

▲ 图8：基于GSM核函数的GP回归模型在真实5G无线流量任务的预测MAPE以及置信区间。

张量分解：秩学习

前面我们介绍了深度神经网络与高斯过程这两类主流的监督学习模型的稀疏感知建模。它们的共性建模思想，可以运用到张量分解这一非监督学习模型上。我们以最基础的张量分解模型 CPD 模型为例。

张量 CPD 模型假设一个多维张量可以分解为有限个非零的秩 -1 张量的和。每一个非零的秩 -1 张量可以解读为数据的组成部分。因此，张量 CPD 的物理含义在于从一个多维数据中分离出有限个组成部分，即盲信号分离。非零秩 -1 张量的个数又称为张量秩。

在张量 CPD 任务中，我们希望能同时估计出数据组分的个数（即张量秩），与每一个秩 -1 张量的参数（即源信号参数）。由于张量秩是离散变量，因此整个问题是 NP 困难的。为了解决这一难题，贝叶斯稀疏建模提供了一条智能的张量秩与张量参数联合学习路径。

具体来说，我们假设有非常多的秩 -1 张量。针对每一个秩 -1 张量，如图 9 所示，我们假设其秩 -1 张量“拼接”而成的“长向量”是稀疏的。我们用高斯尺度混合（Gaussian scale mixture, GSM）家族来建模该“长向量”的稀疏性。代表性的 GSM 分布如图 10 所示。在该稀疏建模的协助下，贝叶斯推断的过程会令很多秩 -1 张量的值全部为 0，而剩下非零的秩 -1 张量的个数即学习到的张量秩。

同样的稀疏建模思想可以拓展到更复杂的张量分解模型，包括 Tucker 分解，Tensor train 分解等。相关工作可参考论文合作者 L. Cheng 与 S. Theodoridis 近五年相关的基础研究工作（IEEE TSP 22, 20, 18, 17; ICDM 21）, 及其在通信、阵列与水声信号处理的应用研究工作（IEEE JSTSP 21, 19, JASA 22）。

▲ 图9：基于GSM的张量CPD稀疏建模

▲ 图10：代表性的GSM分布：(a) Student’s 分布；(b) Horseshoe分布

本文以社交网络聚类（基于 CPD 模型）与图像补全（基于 TTD 模型）为例，说明在稀疏建模辅助下，贝叶斯张量分解方法无需调整张量秩等超参数，能自动识别出邮件数据中用户的类别（如图 11 所示），以及调整模型复杂度以避免图像补全过程中的噪声过拟合（如图 12 所示）。

▲ 图11：贝叶斯张量CPD应用于邮件数据聚类

▲ 图12：贝叶斯 Tensor train decomposition（TTD）应用于图像补全任务：（a）原图；（b）缺失图（80%缺失）；（c）Bayesian TTD；（d）TTC-TV；（e）TMAC-TT；（f）STTO.

代码开源

本文涉及的模型与算法代码已全部开源：

贝叶斯深度学习：

https://github.com/konpanousis/SB-LWTA

高斯过程：

https://github.com/Paalis/MATLAB_GSM

贝叶斯张量分解：

https://github.com/leicheng-tensor?tab=repositories

作者简介

程磊

（[email protected]）

程磊，浙江大学百人计划研究员，博士生导师，启真优秀青年学者。他2013年于浙江大学获得学士学位，2018年于香港大学获得博士学位。2018年-2021年，他于香港中文大学（深圳）-深圳市大数据研究院担任研究科学家。2021年，他通过浙江大学百人计划引入信息与电子工程学院。他主要的研究兴趣是贝叶斯机器学习与张量方法, 及其在通信与感知系统的应用。

Feng Yin

（[email protected]）

Feng Yin is currently an Assistant Professor with the School of Science and Engineering, The Chinese University of Hong Kong, Shenzhen, China. He received the Ph.D. degree from Technische Universitaet Darmstadt, Germany, in 2014. His research interests include statistical signal processing, Bayesian learning and optimization, and sensory data fusion. He was a recipient of the Chinese Government Award for Outstanding Self-Financed Students Abroad in 2013 and the European Union Marie Curie Fellowship in 2014. He is currently serving as an Associate Editor of the Elsevier Signal Processing journal. He is a Senior Member of IEEE.

Sergios Theodoridis

（[email protected]）

Sergios Theodoridis received his Ph.D. degree from the Department of Electronics and Electrical Engineering, University of Birmingham, U.K, in 1978. He is currently a professor emeritus in the Department of Informatics and Telecommunications, National and Kapodistrian University of Athens, Athens 15784, Greece, and a distinguished professor at Aalborg University, Aalborg 9220, Denmark. His research interests lie in the cross-section of signal processing and machine learning. He is the author of the book, Machine Learning: A Bayesian and Optimization Perspective, second edition, published by Academic Press in 2020, the coauthor of the best-selling book, Pattern Recognition, fourth edition, published by Academic Press in 2009, and co-author of the book, Introduction to Pattern Recognition: A MATLAB Approach, published by Academic Press in 2010. He is the co-author of seven papers that have received the Best Paper Awards, including the 2014 IEEE Signal Processing Magazine Best Paper award and the 2009 IEEE Computational Intelligence Society Transactions on Neural Networks Outstanding Paper Award. He is the recipient of the 2021 IEEE SP Society Norbert Wiener Award, the 2017 EURASIP Athanasios Papoulis Award, the 2014 IEEE Signal Processing Society Carl Friedrich Gauss Education Award, and the 2014 EURASIP Meritorious Service Award. He has served as the vice president of the IEEE Signal Processing Society, editor-in-chief of the IEEE Transactions on Signal Processing, and president of the European Association for Signal Processing (EURASIP). He currently serves as the chair of the IEEE SPS awards committee. He is a Fellow of EURASIP and a Life Fellow of IEEE.

Sotirios Chatzis

（[email protected]）

Sotirios Chatzis received his M.Eng. degree in electrical and computer engineering and his Ph.D. degree inmachine learning from the National Technical University of Athens in 2005 and2008, respectively. He is currently an associate professor in the Departmentof Electrical Engineering, Computer Engineering, and Informatics at the CyprusUniversity of Technology, Limassol 3036, Cyprus, and serves as the elected department chair. He currently serves as PI of several research projects funded by the European Commission and Cyprus Research and Innovation Foundation. His research interests lie in the fields of Bayesian deep learning. Characteristic application areas include recommendation systems, natural language understanding, video understanding, inference from financial data, as well as unbiasedness, exploitability and trustworthiness in the era of machine learning.

张纵辉

（[email protected]）

张纵辉，台湾清华大学博士，国家高层次青年人才，现为香港中文大学（深圳）副教授、助理院长（主管教育）、广东省大数据计算基础理论与方法重点实验室副主任、深圳市大数据研究院研究员。目前与过去分别担任国际信号处理顶级期刊《IEEE Transactions on Signal Processing》资深编委，网络信号处理顶级期刊《IEEE Transactions on Signal and Information Processing over Networks》、《IEEE Open Journal of Signal Processing》编委，IEEE信号处理协会（SPS）通信网络信号处理技术委员会委员、感知通信一体化工作组发起人与首届主席和IEEE SPS 董事会亚太区独立主席。张纵辉教授专注于面向无线通信、机器学习的关键信号处理和优化方法的基础研究，已发表IEEE 国际顶级期刊/会议论文130余篇，包括5篇ESI高被引论文，总计被引6000余次。“以优化及信号处理技术对无线通信的贡献”获得2015年IEEE通信学会亚太区杰出青年学者奖；与合作者在鲁棒波束赋形优化方面的基础性工作于2018年获得国际信号处理领域最具影响力的IEEE信号处理协会最佳论文奖；2021年以高效分布式优化方法的开创性工作第二次获得IEEE信号处理协会最佳论文奖（全球获奖超过2次以上仅10人）;他也获得香港中文大学（深圳）理工学院首届卓越科研奖。近年来主持和参与包括国家自然科学基金重点项目、面上项目、广东省重点项目、深圳市杰出青年项目以及华为、中兴等企业的横向项目10余项。其中“分布式基带架构的新型信道估计算法”获得华为2022年技术成果转化二等奖。

代表性论文

贝叶斯深度学习：

[1] K. Panousis, S. Chatzis, and S. Theodoridis, “Stochastic local winner-takes-all networks enable profound adversarial robustness,” in Proc. Advances in Neural Information Processing Systems (NeurIPS), 2021.

[2] K. Panousis, S. Chatzis, A. Alexos, and S. Theodoridis, “Local competition and stochasticity for adversarial robustness in deep learning,” in Proc. International Conference on Artificial Intelligence and Statistics (AISTAT), vol. 130, 2021, pp. 3862–3870.

[3] K. Panousis, S. Chatzis, and S. Theodoridis, “Nonparametric Bayesian deep networks with local competition,” in Proc. International Conference on Machine Learning (ICML), 2019, pp. 4980–4988.

高斯过程：

[1] F. Yin, L. Pan, T. Chen, S. Theodoridis, and Z.-Q. Luo, “Linear multiple low-rank kernel based stationary Gaussian processes regression for time series,” IEEE Transactions on Signal Processing, vol. 68, pp. 5260–5275, 2020.

[2] Y. Dai, T. Zhang, Z. Lin, F. Yin, S. Theodoridis, and S. Cui, “An interpretable and sample efficient deep kernel for Gaussian process,” in Proc. International Conference on Uncertainty in Artificial Intelligence (UAI), 2020, pp. 759–768.

[3] Y. Xu, F. Yin, W. Xu, J. Lin, and S. Cui, “Wireless traffic prediction with scalable Gaussian process: Framework, algorithms, and verification,” IEEE Journal on Selected Areas in Communications, vol. 37, no. 6, pp. 1291–1306, June 2019.

贝叶斯张量分解：

[1] L. Cheng, Z. Chen, Q. Shi, Y.-C. Wu, and S. Theodoridis, “Towards flexible sparsity-aware modeling: Automatic tensor rank learning using the generalized hyperbolic prior,” IEEE Transactions on Signal Processing, vol. 70, pp. 1834-1849, 2022.

[2] L. Xu, L. Cheng, N. Wong, and Y.-C. Wu, “Overfitting avoidance in tensor train factorization and completion: Prior analysis and inference,” in 2021 IEEE International Conference on Data Mining (ICDM). IEEE, 2021, pp. 1439–1444.

[3] L. Cheng, X. Tong, S. Wang, Y.-C. Wu, and H. V. Poor, “Learning nonnegative factors from tensor data: Probabilistic modeling and inference algorithm,” IEEE Transactions on Signal Processing, vol. 68, pp. 1792–1806, 2020.

更多阅读