在高维空间中学习

02 May 2016

David Beyer: 作为最近正在进行的尖端前沿机器智能采访专题的一部分，我约见了Anima Anandkumar，Anandkumar是加州大学欧文分校电气工程及计算机科学系的教员，她研究的课题是高维学习概率隐性变量模型(probabilistic latent variable models)及张量算法的设计分析。

Key takeaways 关键要点

现代机器学习包含了大量的数据和大量的变量，这使它成为了一个高维问题。
张量算法在应对这样的复杂高维问题时相当有效，并已经在社交网络分析、文档识别归类、基因学以及脑神经元行为分析研究等诸多领域有了广泛的应用。
随着现在的研究者们越来越多的面临复杂高维问题，他们必须依赖于一些非凸优化的新技术，凸优化的技术在许多情况下是有局限性的。

David Beyer：让我们先来聊聊你的背景吧。

Anima Anandkumar:我童年时，数学，以其解释这个复杂世界的能力令我深深着迷。上大学期间，我领略到在了计算机科学及工程中算法思维方式的力量。由此，我先后在康奈尔大学读博，并在麻省理工攻读博士后学位。之后我来到欧文，任教六年至今。

读博期间，我研究的方向是分布式学习算法，更确切的说，当多个设备或传感器收集数据时，我们如何设计通讯模式及线路规划，通过网内聚合来减少数据传输量，同时，对信息的预处理要求实现一些特定的功能，如异常检测。我以数理统计的角度研究了这些问题，组合概率图模型，并设计了能够显著降低通讯需求的算法，此后，我的兴趣一直放在机器学习的问题上。

现代机器学习生来就与高维空间有不可分割的联系，我们要解决的问题中包含大量多变量数据，而且夹杂着大量的噪声。如何从海量的噪声中找到有用的信息是个富有挑战性的课题，不如说这简直像大海捞针一样。

解决问题的第一步是找到观测数据和隐变量的关系，并构建其模型，让我来用一个例子解释这一点。如在一个推荐系统中，我们所说的内含信息在这里表示了用户的兴趣，而观测数据则表示他们至今为止的购买记录。如果一个用户最近刚购买了一辆自行车，这说明她对户外运动或骑行是感兴趣的，并更有可能在近期购买单车配件。我们把这作为一个隐变量，并由此推测她未来的购买模式。然而，为了找到这样的关系，我们需要获取大量用户的决策数据，这就变成了一个大数据的问题。

我最近主要的研究方向是如何从这种大规模数据中训练得到其隐变量模型。无监督学习可以自动找出那些驱动观测数据的隐藏因素。总得来说，在机器学习研究领域，这还是一个亟待解决的关键难题。

我采用了一种新方法来试图解决这种难题，并证明了张量函数是怎么无监督的找出这些隐藏的结构化的模式。张量是矩阵的高维扩展。正如矩阵可以体现二阶的相关性，张量可以体现更高阶的相关性。我的研究表明，操作高阶张量可以有效的学习多种不同的概率潜变量模型。

DB:你的方法要怎样去应用呢？

AA: 我们方法可以在许多场景中应用，比如，在不知道主题的情况下对文档进行自动分类。在这种情况下，主题本身是隐变量，需要从我们待测的文本中去找寻。一个可能的解决办法是利用词频来推测主题，但这种方法过于简单，没有把在短短一段上下文中多次出现单个词的情况考虑进去。

那么如果我们观察成对出现的词呢？这显然是一个比检测单个词词频要更加鲁棒的策略。既然已经想到两个词了，那么我们继续上升到检测三个词的同时出现，并把它继续延伸下去到更高的维数。这些高阶关系将会透露出什么新的信息？我们研究证明，如使用流行的隐含狄利克雷分布方法来对主题进行分类，需要至少三阶的关系，仅仅二阶的关系是不够的。

上述的推断在许多场合适用。我们再举一个网络上的例子。你可能尝试过通过观察成员之间的联络或交互信息来识别团体，比如在一个社交网络中的朋友关系，推荐系统中的购买行为特征。或大脑中的神经元联系。我的研究表明要弄清楚这样的关系至少要在“朋友的朋友”，甚至更高阶的关系层面进行研究。尽管这样的功能已经在此前被广泛应用，我们是第一个得出它们所包含的准确信息，并能提出一个有效的计算方法来提取这些信息的。

我们可以更进一步扩展隐变量模型的概念，我们用一种隐变量的层次结构来代替之前试图发现某一个隐层的方法。这种方法特别适合于某些应用，比如建立物种进化树，或理解人体疾病发生的层次。研究这种方法的目标在于两点，一为学习隐变量的结构层次结构，二为找到量化给定观测数据中隐变量的参数。

所得到的结构揭示了，在叶节点观察到的数据的层级分组形式和用于量化观察叶节点数据时分组作用的“强度”的参数，我们把这个问题简化为寻找一个层次张量的分解，为此我们已经开发出了有效的算法。

DB: 那么，在这些应用中为什么说张量是决定性的一点呢？

AA: 首先，我需要说明这些张量方法并不只局限于理论。从我们的观察来看，在实际应用中他们效率更高，也更准确。罗格斯大学的Kevin Chen在最近的神经信息处理系统会议（NIPS）上，就张量方法在基因研究中的优越性进行了一次备受关注的演说：它提供了更好的生物学解释并比传统的期望最大化（EM）方法要高效百倍。

张量的方法非常有效，因为它们可以利用高度优化的线性代数库，并且可以在现代系统大规模计算运行。在这方面，我的学生黄芙蓉正在spark（一种开源运行框架）应用张量方法，这种方法比默认的训练概率模型——变推理算法要快得多。总而言之，张量方法的并行能力令人惊异，并容易实现在大规模的多个硬件平台上运行。

DB: 是什么使得张量算法在解决高维问题上如此出众？

AA: 张量可以拟合多种种类的数据，这使我们可以同时得到空间和时间上的多关系型数据。张量的不同模式、不同方向代表不同类型的数据。

从本质上来说，张量可以描述比矩阵更丰富的代数结构，从而能够对更多的信息进行编码。从上下文来说，想象矩阵的行和列——这是一个二维阵列。张量把这个概念扩展——可以表示多维的阵列。

一个矩阵就其本身而言，并不能单纯看成行和列的组合。你可以通过数学上的线性运算方法把它们变换为你需要的形式，这就是线性代数的研究。张量的研究建立在这种形式的拓展和其研究基础之上，通过扩展线性代数，得到了多重线性代数。

当我们得到这样一个数学结构的时候，要如何获得其中蕴含的信息呢？我们可以设计和分析张量运算的算法么？要解决这个问题，我们需要建立非凸优化的证明方法。

DB:凸优化和非凸优化是什么意思？

AA: 在过去的几十年里，我们在凸优化理论和技术上有长足的发展，然而问题在于，大多数优化问题的性质是非凸的。

现在用一个例子来拓展的讨论凸性问题。假设你在拟合一个一维的最小化抛物线函数：你做了一系列你认为可以获得最佳结果的局部优化（从抛物线的任意起点）。因此进行局部优化可以最终得到全局优化。这种性质甚至适用于高维的凸问题，而利用如梯度下降等技术可以使局部优化的实现比较容易。

然而在实际应用中，我们面对的情况远比任何抛物线要复杂，它包含了超级多的形式，这使实际得到的“抛物线”和他们理想的形式相去甚远，要远远复杂的多：任何优化算法在进行局部优化时总会不可避免的遇到山脊，山谷和平地；他经常陷入山谷或者由于其它什么路障而无法获得全局最优。

随着变量数增加，这种山脊和山谷的复杂度爆炸性的增长。事实上，这样局部算法会带来指数级增长的运算量，这时像梯度下降这样的算法将无法适用。而大多数问题，包括我最近在研究的，都会遇到这个障碍。

DB: 你是如何解决非凸优化的问题的？

AA: 传统的机器学习是这么做的：首先定义学习的目标，然后用标准优化流程框架来解决问题。例如，当学习概率潜在变量模型（probabilistic latent variable models）时，标准的方法是先最大似然，然后用最大期望（EM）算法对目标函数进行局部搜索。然而，这无法保证EM算法就能得到一个好的解决方案了，当它对目标函数进行搜索后，一个看起来像是全区最优的结果可能仅仅只是一个局部最优。这是许多种用机器学习算法来分析的方法，包括神经网络算法中的反向传播算法的通病：我们无法确保算法最终得出的结果是一个好结果。

为了解决这些问题，我开始寻找替代方案，要对任何给定目标函数都能易于优化。如当学习潜变量模型，为了代替最大似然函数方法，我试图找到矩阵和张量的较优的频谱分解，就现有工具技术而言，这种方法要更易于实现。更确切的说，矩阵的频谱分解是标准奇异值分解(SVD)，而我们已经有了有效的相关算法。

由于矩阵问题即使在非凸的情况下也可以有效解决，而给定矩阵是张量的一种特殊形式，我们定下了一个新的研究方向：我们可不可以设计一个相似的算法来分解张量？事实证明，分析张量要困难得多，而且有时会涉及到非确定性多项式问题。因此，我们采取了不同的方法来描述这种分解可以被最优解决的情况。幸运的是，在机器学习的情况下这并不十分艰巨。

张量方法实际上是怎样帮助解决机器学习问题的？乍一看，张量看起来和这样的任务并无关联，将他们和机器学习联系在一起的，是关系。就像我之前提到的，我们可以用张量来表示变量间的高阶关系，研究这些关系可以有效的帮助我们获取潜变量模型的参数。

DB:那么现在，你可以得到一个更好的模型来表示高维数据，这对所有的机器学习形式都适用么？

AA:我觉得我们还只探索了冰山一角，张量方法可以用来训练一个广泛领域上的潜变量模型，如识别文件的主题，辨别网络中的社团，高斯混合，排名模型混合等等。这些模型从表面看似乎没有联系。然而当他们转换到统计性质的角度上，如变量的条件独立性，张量的代数约束等等，他们又是存在一致性的。一般由分解适合矩张量（经常是三阶或四阶相关）来估计模型参数。此外，我们可以证明这只需要少量（精确地说，一个低阶多项式）的样本和少量的计算就可以得到很好地结果。

到目前为止，我讨论了利用张量进行无监督学习，我们还证明了由张量方法可以完美的训练神经网络，这让其在有监督学习也有用武之地。目前我们正在解决更困难的问题——强化学习，这种方法里，被训练者会与外界交互，并且我们可能会改变他或她正在试图理解的环境。一般情况下，我们认为用更高阶的关系和张量代数级数可以胜任这一系列有挑战性的学习问题。

DB: 接下来机器学习的理论性热点在哪里？

AA:这正是成为一个机器学习研究者所令人兴奋的地方，我们要面对一个完整的问题，从基础研究到现实世界中的大规模部署。我一直在追求多学科协同研究的盛况，将张量代数和概率模型相结合，我们已经开发出一种全新的有可靠理论保证的学习算法我相信这样不甚明显的联系正式打破机器学习瓶颈的关键所在。

Twitter Facebook Google+