10月8日,国际学术期刊《美国国家科学院院刊》(PNAS)在线发表了中国科学院生物化学与细胞生物学研究所陈洛南研究组与苏州大学副教授马欢飞、东京大学教授Kazuyuki
Aihara、复旦大学教授林伟合作的题为Randomly Distributed Embedding
Making
Short-term High-dimensional Data
Predictable
(《高维短序列数据预测的随机嵌入分布方法》)的最新研究成果。该成果提出了基于非线性动力学的全新随机嵌入理论和方法(随机嵌入分布方法RDE:
Randomly Distributed
Embedding),通过低维嵌入映射获得目标变量预测值的分布,最终使得高维短序列时间序列数据的预测成为可能。即建立了由短时间观测的高维数据,预测目标变量动态行为的全新理论和方法。

摘要:
将文本转化为向量,深度挖掘变量间的联系,构建更为精确的推荐系统。

姓名:吴兆阳  学号:14020199009

在时间序列分析中,一般认为在获得低维系统的大量时间样本后,系统的重构或者预测是可行的,而短的时间样本数据一般不可预测。但是在大数据时代,人们往往获得大量的变量和有限的时间样本(如影像数据或组学数据),一方面高维变量使得系统的拟合所需要的参数快速增长带来维度灾难,另一方面较短的时间样本往往不能获得完整的系统动力学行为或统计规律,这就对数据分析方法提出了新的挑战。

深度学习在诸多方面,如图像分割、时序预测和自然语言处理,都优于其他机器学习方法。嵌入(embedding),即用连续向量表示离散变量的方法,在其中起到了不可或缺的作用。像机器翻译中的词嵌入和分类变量中的实体嵌入,都是嵌入的成功应用。

转自雷克世界

基于这个问题,研究人员建立全新随机嵌入理论
和短时间数据预测方法,使用低维嵌入映射来构造弱预测器,在大量弱预测器的基础上构造强预测器,从而避免了维度灾难,并由高维系统中不同变量间的交互作用构建目标变量的动态信息,弥补了短时间样本的信息不足。研究人员从理论上给出了该框架的可行性分析,并通过基因表达数据、空气污染、疾病数据与气象数据等实际数据的预测进一步验证了该方法的可行性和优越性。特别是,随机嵌入分布方法转换高维数据为目标变量的动态信息,实现短序列数据的预测,同时RDE可看作是由高维小样本构建目标变量的大样本数据方法。

本文将围绕什么是神经网络嵌入、为什么要使用神经网络嵌入以及神经网络嵌入如何学习这三方面进行详细地讲解。相关概念已在之前的工作——将Wikipedia中所有图书转变为向量并构建图书推荐系统中进行了详细讲解。

嵌牛导读:我们一直在研究用于机器人控制的神经网络的基于学习的样本高效方法。对于复杂的、接触点丰富的模拟机器人以及实际应用中的机器人(图1),我们的方法能够学习轨迹跟踪的运动技能,而这一过程仅使用收集自机器人在环境中的随机行为的数分钟数据。在本文中,我们将对该方法和结果进行简要概述。

即使学习数据只是吸引子的一部分样本,但RDE可预测那些没有学习过的动态行为,见图2。

88必发官方唯一网站 1

嵌牛鼻子:机器人运动

该工作对于大数据的分析,特别是高维短序列的时间序列数据分析提供了全新的概念和理论,不仅可用于时间序列的预测,也可应用于人工智能及脑科学中的大样本数据构建和全新学习建立等。

Neural Network Embedding of all books on Wikipedia. (From Jupyter
Notebook on GitHub).

嵌牛提问:机器人如何实现自主运动?

该研究得到中科院B类先导专项、国家重点研发计划和国家自然科学基金的经费支持。

在神经网络中,嵌入后的数据维度较低,它能将离散的序列映射为连续的向量。

嵌牛正文:

文章链接

神经网络嵌入的主要用途有三种:

样本效率:无模型的VS基于模型的

88必发官方唯一网站 2

  1. 在嵌入空间中找到最近邻。
  2. 作为有监督的机器学习模型的输入。
  3. 挖掘变量间的关系。

从经验中学习机器人技能通常属于强化学习的范畴。强化学习算法一般可以分为两类:无模型,即学习策略或值函数;以及基于模型的,即学习动力学模型。虽然无模型深度强化学习算法能够学习广泛的机器人技能,但它们往往会受到高昂的样本复杂性的限制,通常需要数百万个样本才能获得良好的性能表现,而且一次只能学习一项任务。尽管之前的一些研究已经将这些无模型算法应用于现实世界的操作任务中,但这些算法的高度复杂性和不灵活性已经阻碍了它们在现实世界中用于学习运动技能的应用。

图1
随机嵌入分布方法转换高维数据为目标变量的动态信息,实现短序列数据的预测,同时RDE可看作是由高维小样本构建目标变量的大样本数据方法

利用神经网络嵌入,我们能将Wikipedia中的37000多本书转换为至多包含50个数值的向量。

基于模型的强化学习算法通常被认为是更有效的样本。然而,为了获得良好的采样效率,这些基于模型的算法通常使用相对简单的函数逼近器,其不能很好地推广到复杂的任务,或者使用高斯过程这样的概率动力学模型,其概括性好,但复杂和高三维的领域,如摩擦接触,会导致不连续的动力学系统。相反,我们使用中等大小的神经网络作为函数逼近器,可以实现出色的样本效率,同时仍然具有足够的表现力,可以用于各种复杂和高维运动任务的推广和应用。

88必发官方唯一网站 3

神经网络嵌入还克服了独热编码的局限性。

基于模型深度强化学习的神经网络动力学

图2
即使学习数据只是吸引子的一部分样本,但RDE可预测那些没有学习过的动态行为

独热编码用于处理类别变量的最简单的嵌入方法,能够将不同的类别映射为不同的向量。独热编码保证了每一个取值只会使得一种状态处于“激活态”,也就是说这N种状态中只有一个状态位值为1,其他状态位都是0。

在我们的研究中,我们的目标是将深度神经网络模型在其他领域中的成功扩展到基于模型的强化学习中。近年来,先前那些将神经网络与基于模型的强化学习相结合的努力还没有实现能够与较简单的模型(例如高斯过程)相媲美的结果。例如,Gu等人观察到,即使是线性模型在合成经验生成方面也能够获得较好的性能表现,而Heess等人则在将涵盖神经网络在内的模型纳入到无模型学习系统中看到了相对适度的益处。我们的方法依赖于一些关键的决策:首先,我们在一个模型预测控制框架内使用已学习的神经网络模型,其中系统可以迭代地重新规划并修正错误;其次,我们使用相对较短的范围预测,以便我们不必依靠这个模型对未来做出非常准确的预测。这两个相对简单的设计决策使得我们的方法能够执行各种各样的运动任务,其中,这些运动任务之前没有使用通用的基于模型的强化学习方法进行演示,即可以直接在原始状态观察中操作。

独热编码有两大缺陷:

我们的基于模型的强化学习方法如图2所示。我们保持一个迭代增加的轨迹数据集,并使用该数据集对动态模型进行训练。这个数据集是用随机轨迹进行初始化的。然后,我们通过在使用数据集对神经网络动态模型进行训练、使用模型预测控制器(MPC)和已学习的动态模型收集附加的轨迹以聚合到数据集上之间交替,从而执行强化学习。我们在下面将对这两个组成部分进行讨论。

  1. 当类别的数量很多时,特征空间会变得非常大。映射后的向量容易产生维数灾难。
  2. “相似”的类别映射在嵌入空间后并不相邻。

88必发官方唯一网站 4

第一个问题很容易理解:多一个类别,在进行独热编码的时候就会多一维向量。Wikipedia中共包含37000本书,对于每本书来说,向量的维度都为37000,这将无法对任何机器学习模型进行训练。

图2.基于模型的强化学习算法概述

第二个问题同样带来了很大的局限性:独热编码并没有让相似的类别在嵌入空间中相邻。在进行独热编码后,利用余弦相似度计算出的向量间的相似度均为0。

动力学模型

也就是说,如果使用独热编码,电影《战争与和平》和《安娜卡列尼娜》之间的相似性并不会比《战争与和平》和《银河系漫游指南》相似性强,但这与实际不符。

我们将已学习的动力学函数参数化为一个深度神经网络,可以通过一些需要学习的权重进行参数化。我们的动力学函数以当前状态st和动作at作为输入,然后输出预测的状态差st
+
1-st
。动力学模型本身可以在监督学习环境中进行训练,其中收集的训练数据以成对的输入(st,at)和相应的输出标注(*st

88必发官方唯一网站 5

  • 1,st*)。

考虑到上述局限性,在类别变量不多的情况下,可优先考虑独热编码。

需要注意的是,我们上面所提到的“状态”可以随着智能体的变化而变化,并且可以包括诸如质心位置、质心速度、关节位置以及其他任何我们想选择的可测量数值。

88必发官方唯一网站 6

控制器

为了更好的处理类别变量,我们将使用嵌入神经网络和有监督的方法来学习嵌入。

为了使用一个已学习的动力学模型来完成任务,我们需要定义一个对任务进行编码的奖励函数。例如,标准的“x_vel”奖励可以编码一个前进的任务。对于轨迹追踪的任务,我们制定了一个奖励函数,能够激励靠近轨迹,并沿着轨迹前进。

独热编码的主要问题是转换不受任何监督。通过在有监督的任务中使用神经网络学习嵌入,可以大大提高嵌入能力。权重是学习嵌入过程中的重要参数,起调节作用以最小化损失函数。

使用已学习的动力学模型和任务奖励函数,我们建立了一个基于模型的控制器。在每个时间步骤中,智能体通过随机生成K个候选动作序列,使用已学习的动力学模型预测那些动作序列的结果,并选择对应于最高累积奖励的序列(图3),做出到达未来所需H步的规划。然后,我们只执行动作序列中的第一个动作,继而在下一个时间步骤中重复规划过程。这种重新规划使得该方法在学习动力学模型中能够对抗不准确性。

举个例子,在电影评论中收集到50000个单词,每一个单词我们都可以使用100维的向量对其进行表示,进而使用嵌入神经网络对其进行训练以获取评论的情感倾向。如“brilliant”或“excellent”均与“positive”评价有很强的关联,在嵌入空间的位置便会更为邻近。

88必发官方唯一网站 7

88必发官方唯一网站 8Movie
Sentiment Word Embeddings ([88必发官方唯一网站,source]

图3.使用已学习动力学模型模拟多个候选动作序列的过程示意图,预测其结果,并根据奖励函数选择最佳动作序列。

在上述图书推荐的示例中,有监督的任务可以是“确定一本书是否由列夫托尔斯泰撰写”,在嵌入空间上,托尔斯泰所写的书彼此更为邻近。嵌入中最为棘手的问题是:如何创建有监督的任务模型并得出通用单词或句子的表征。

结果

在Wikipedia图书推荐项目中,有监督的学习任务是:预测某个Wikipedia页面的链接是否出现在一本书的某一章节中。输入成对的训练示例,格式为(book
title,link),其中的匹配有positive-true以及negative-false两种形式。初始化设置基于这样的假设:链接到相似的Wikipedia页面的两本书也是相似的,并且相似的书目在向量空间上更为邻近。

我们首先在各种MuJoCo智能体上评估了我们的方法,包括游泳者、half-cheetah和蚂蚁。图4显示,使用我们的已学习动力学模型和MPC控制器,智能体能够遵循一组稀疏的路标所定义的路径。此外,我们的方法只用了几分钟的随机数据对已学习的动力学模型进行训练,显示了它的样本效率。

我们使用包含两个并行嵌入层的神经网络,它能够将书和wikilink映射为50维向量,还有一个点积层,将嵌入结果整合为单个数字以实现预测。

请注意,使用这种方法的话,我们只需要对模型进行一次训练,且仅需要改变奖励函数,就可以在运行时将模型应用于各种不同的期望轨迹,而不需要单独的特定于任务的训练。

部分代码如下:

88必发官方唯一网站 9

# Both inputs are 1-dimensionalbook = Input(name = 'book', shape = [1])link = Input(name = 'link', shape = [1])# Embedding the book (shape will be (None, 1, 50))book_embedding = Embedding(name = 'book_embedding', input_dim = len(book_index), output_dim = embedding_size)# Embedding the link (shape will be (None, 1, 50))link_embedding = Embedding(name = 'link_embedding', input_dim = len(link_index), output_dim = embedding_size)# Merge the layers with a dot product along the second axis (shape will be (None, 1, 1))merged = Dot(name = 'dot_product', normalize = True, axes = 2)([book_embedding, link_embedding])# Reshape to be a single number (shape will be merged = Reshape(target_shape = [1])# Output neuronout = Dense(1, activation = 'sigmoid')model = Model(inputs = [book, link], outputs = out)# Minimize binary cross entropymodel.compile(optimizer = 'Adam', loss = 'binary_crossentropy', metrics = ['accuracy'])

图4:蚂蚁、游泳者和猎豹的移动轨迹结果。每个智能体为了执行这些不同的轨迹而使用的动力学模型仅经过一次训练,且仅使用随机收集的训练数据。

尽管有监督的机器学习任务的目的在于训练模型后能运用于新的数据集,在本文的嵌入模型中,这些预测只是达到目的的一种手段。我们想要的是那些能够将书本和链接转化为连续向量的权重。

我们方法中的哪些方面对取得良好的性能表现至关重要?我们首先考察了MPC规划范围H的变化。图5表明,如果范围太短的话性能会受到影响,可能是由于不可恢复的贪婪行为。对于half-cheetah而言,如果范围太长的话性能也会受到影响,主要是因为已学习动力学模型中的不准确性。图6显示了一个用于单一100步预测的已学习动力学模型,显示某些状态元素的开环预测最终偏离了基本事实。因此,一个中等的规划范围最好避免贪婪行为,同时最小化不准确模型所带来的不利影响。

嵌入本身并不是那么有趣,它们只是一些向量:

我们还改变了用来训练动力学模型的初始随机轨迹的数量。图7显示,虽然较多数量的初始训练数据能够导致较高的初始性能,但是数据聚合能够使得即使是低数据初始化实验也能运行以至达到较高的最终性能水平。这突出显示了强化学习的策略数据是如何提高采样效率的。

88必发官方唯一网站 10

88必发官方唯一网站 11

对于这个项目,我们探究的是如何根据最近邻推荐书籍。为了计算相似度,我们选择一本书,计算它与所有书目的点积。(如果我们的嵌入是标准化的,点积为向量之间的余弦距离从-1,即最不相似,到+1,即最相似。此外还可以使用欧几里德距离来测量相似度)。

图7:通过使用不同数量的初始随机数据进行训练的动力学模型所获得的任务性能表现曲线图。

下图是我所构建的图书推荐系统的结果:

值得注意的是,基于模型的控制器的最终性能仍然远低于无模型学习器(当无模型学习器经过数千次的经验训练时)。这种次优的性能表现有时被称为“模型偏差(model
bias)”,并且是基于模型的强化学习中的一个已知问题。为了解决这个问题,我们还提出了一种混合的方法,结合了基于模型和无模型的学习,以消除收敛的渐近偏差(asymptotic
bias),尽管这是要以附加的经验为代价的。这种混合的方法,以及其他分析,论文中皆有详述。

88必发官方唯一网站 12

学习在现实世界中运行

下图为图书降低维度后的结果:

88必发官方唯一网站 13

88必发官方唯一网站 14

图8:VelociRoACH的长度为10厘米,重量约为30克,每秒可以移动27个身体长度,并使用两个电机来控制所具有的六条腿。

Embedding Books with Closest Neighbors

由于我们的基于模型的强化学习算法可以使用比无模型算法更少的经验来学习运动步态,因此可以直接在真实世界中的机器人平台上对其进行评估。在其他研究中,我们研究了这种方法是如何完全从现实世界的经验中进行学习的,从而完全从零开始获取一个millirobots(图8)的运动步态的。

Wikipedia上的每一本书都能用50位数字进行表示,相似图书彼此之间更接近。

对于许多应用来说,Millirobots由于其体积小和制造成本低而成为十分具有前途的机器人平台。然而,控制这些millirobots是非常困难的,主要是由于它们的动力不足、功率限制和大小等局限性。虽然手动控制器有时可以控制这些millirobots,但是它们往往在动力学机动和复杂的地形上遇到困难。因此,我们利用上面的基于模型的学习技术来使VelociRoach
millirobot进行轨迹追踪。图9显示,我们的基于模型的控制器在经过17分钟的随机数据训练后,可以精确地遵循高速轨迹。

嵌入的优点是可以将所学到的嵌入进行可视化,以显示哪些类别是相似的。将这些权重的维度降低为
2-D 或
3-D。然后,在散点图上可视化这些点,以查看它们在空间中的分离情况。目前最流行的降维方法是——t-Distributed
Stochastic Neighbor Embedding 。

88必发官方唯一网站 15

我们将37000维的图书通过神经网络嵌入映射为50维,接着使用TSNE将维数将至为2。

图9:使用我们的基于模型的学习方法,VelociRoACH能够遵循各种期望轨迹。

88必发官方唯一网站 16

为了分析模型的泛化能力,我们收集了地毯和聚苯乙烯泡沫塑料地形上的数据,继而对该方法进行了评估,如表1所示。正如预期的那样,当基于模型的控制器在与训练期间相同的地形上执行时表现得非常好,表明模型将地形的知识结合在内。然而,当模型在来自两个地形的数据中进行训练时,性能会下降,这可能表明,我们需要进行更多的研究从而开发出能够用于学习适用于多种任务环境的模型的算法。表2显示,随着越来越多的数据被用于训练动力学模型,性能将会不断提高,这是一个令人鼓舞的迹象,表明我们的方法将会随着时间的推移而不断改进(与手动解决方案不同)。

Embedding of all 37,000 books on Wikipedia

88必发官方唯一网站 17

TSNE是一种流形学习方法,用来降低高维数据的维度,进而对数据可视化,了解数据的分布,发现可能存在的规律。除了TSNE,UMAP(Uniform
Manifold Approximation and Projection)也是目前较为流行的降维方法。

表1:用不同类型的数据进行训练以及在不同表面上执行轨迹追踪的模型的成本

下图展示了降维后图书在向量空间中的分布情况:

我们希望这些结果展示了基于模型的方法在采样效率机器人学习领域的未来前景,并鼓励在这一方面进行更多的研究。

88必发官方唯一网站 18

通过颜色对书本类型进行区分,可以快速的找出相似流派的书籍。

Wikipedia图书推荐的示例说明了神经网络嵌入的价值:能够以低维向量的形式表示分类对象,并且在嵌入空间中相似的实体彼此相邻。

交互式可视化(Interactive Visualizations)

刚才所展示的图片均为静态效果,为了更好的查看变量之间的关系,点击此处以获取动态效果。

88必发官方唯一网站 19

神经网络嵌入能够将离散的数据表示为连续的低维向量,克服了传统编码方法的局限性,能查找最近邻,作为另一个模型的输入以及进行可视化,是处理离散变量的有效工具,也是深度学习的有效应用。

本文作者:

阅读原文

本文为云栖社区原创内容,未经允许不得转载。