利用人类和机器智能创建ML模型,人机回圈竟在这些领域大展手脚

机器之心分析师 络

一直以来,人们致力于使用 AI、ML 实现各种流程或任务的自动化(Automation)。然而,人们总是忽略这样一个问题,即这种全面的自动化、由机器接管全部任务的方式意味着什么?例如,在我们考虑向制造业、汽车行业、一般分析或预测等数据处理行业中引入 AI 时,我们并不关心这些任务是如何完成的,我们总是关注引入智能模型后的结果(Product):一般用成本、速度、质量、安全等来衡量这些结果。我们并没有深入考虑过更深层次的问题:这一过程(Process)有什么意义?如果我们换一个角度来考虑 AI 的应用,并不是要把引入人工智能、机器学习的模型后实现自动化的目标看作是将人类从完成任务的过程中剔除出去,而是转变为使人类可以有选择的参与进去,即 Human-in-the-Loop learning,那会怎样?这种角度会不会能够实现一个既利用智能自动化的效率,又接受人类反馈的过程,同时使整个过程和结果都更有意义。

人机回圈(Human-in-the-loop,HITL)是人工智能的一个分支,它利用人类和机器智能来创建机器学习模型。从本质上讲,人机回圈将自动化的问题重新定义为了人机交互(Human-Computer Interaction,HCI)设计问题。人机回圈将 「如何构建一个更智能的系统?」 的问题扩大到「如何将有用的、有意义的人机交互纳入系统中?」这种系统设计的目的是实现能够增强或提高人类完成任务的能力的交互式机器学习(Interactive Machine Learning),人机回圈作为一种工具通过智能地跟踪随时间的变化和中间结果,可以实现快速迭代、快速响应的反馈、内省和调试以及后台执行和自动化。

由于机器学习模型性能的不可预测性,传统模型的开发依赖于反复的实验验证,这是一个循序渐进的过程。开发过程通常从简单的数据预处理和建模开始。然后,基于对结果模型的分析,开发人员增加新的数据资源、更新数据特征、修改模型的架构和参数、更改评估指标等以提高性能。人机回圈是指将这些训练、调优和测试任务中的每一项都集成到算法中,这样整个方法就变得更智能、更可信、更精确。特别的,当模型能够主动选择接下来需要学习的内容(类似于主动学习)并将这些数据发送给人类(完成标注或发出其它指令)进行训练时,这一点尤其有效。

总的来说,人机回圈方法可以具有下述有益作用:

首先,它意味着整个系统透明度的显著提高。每一个包含人类互动的步骤都要求系统的设计能够被人类理解,以便采取下一个行动,并且在确定关键步骤必须保证人的主观能动性发挥作用。最终人类和人工智能共同承担任务,降低整个过程的隐蔽性。

其次,它有效引入了人类的判断。AI 系统的应用目的是帮助人类,因此,我们不能进从有效性、正确率这些角度去评价 AI 系统,而更应该考虑人类的倾向性和主观能动性。「Human-in-the-Loop learning」方法令人类能够在整个系统中的有关于决策的关键环节发挥作用。

第三,人机回圈的目标不再是构建一个「完美的」算法。通过引入人类的智力、判断和交互,整个 AI 系统的自动化过程不再致力于「使所有的问题一下子能够正确解决」。因为整个系统的工作过程是在人类的引导下完成的,系统只需要根据交互指令进行下一步的工作。

最后,人机回圈方法往往更加有效。与纯自动化或是纯手工的相比,「Human-in-the-Loop learning」方法的性能往往更优。在系统允许的情况下,人可以随时听从系统其他部分的指挥,而正确的人机交互则可以使系统从根本上更好地完成它所要做的事情。

实际上,机器学习中的其他一些方法也有一些思想与人机回圈是重叠的,例如强化学习(Reinforcement Learning)、主动学习(Active Learning)、迭代模型(Iterative Model),模型管理(Model Management),数据集版本化(Dataset Versioning)以及模型共享(Model Sharing)等等。不过,这些方法更多的是强调在单个 / 一次执行环境(流程)中进行优化,而不是迭代处理过程中的交互,即人机回圈中强调的Loop

目前,还没有关于人机回圈的典型定义和严格的方法界定。在 NeurIPS 2020 的 Workshop(Human in the loop dialogue systems Workshop)中,接收关于对话系统的人机回圈论文内容范围包括了:Online and offline reinforcement learning、Active learning 和 Visual and language learning。因此,涵盖训练过程中的人机交互、在经典方法中引入人类的辅助或反馈等方法都可以看做是人机回圈的实现。

第一篇文章为哈佛大学约翰 ·A· 保尔森工程与应用科学学院(Harvard John A. Paulson School of Engineering and Applied and Sciences,SEAS)和威斯研究所(Wyss Institute for Biologically Inspired Engineering)的工作,具体介绍了一种能够快速设计定制化控制方案来制造柔性可穿的动力服的方法。通过引入人机回圈优化,能够根据人类反馈的生理信号指导算法进行参数优化,最终使得动力服能够在最优的情况下满足髋部的延展需求。

第二篇文章是人机回圈在人机对话领域中的应用,通过引入一个 teacher-student 对话数据集使得人机对话机器人能够根据环境具体反馈的情况进行不断学习和调整以改进对话效果。

第三篇为人机回圈在设计领域中的应用,在受试者观看图像时从原始信号中提取人脑 EEG 特征的编码器,然后根据编码后的脑电特征训练 GAN 模型生成设计图像,最后利用训练后的模型根据人在思考设计的认知过程中的脑电活动,生成设计图像。

一、Human-in-the-loop optimization of hip assistance with a soft exosuit during walking [3]

图 1. HIL-Bayesian 优化实验装置。采用贝叶斯优化方法调整辅助装置的控制参数,使步行的代谢成本最小化。根据呼吸测量估计代谢率,并用于计算代谢率相对于自由对照参数的后验分布。后验曲线最初是通过评估 6 个预先确定的控制参数生成的。在给定当前迭代的后验条件下,选择具有最大 EI 的控制参数,并将其应用于可穿戴设备中。这个过程反复进行,直到收敛。在这一过程中,配置的力剖面通过一个带系链驱动系统的软髋外衣裤传递

图 2. 柔性外衣裤和辅助髋关节力量剖面。(A) 臀部柔软的外衣裤。髋关节伸展力矩是通过拉动内部缆绳在两个锚点之间产生张力而产生的。(B) 髋关节力剖面参数化。髋关节力剖面确定为两个参数化正弦曲线在峰值处连接的组合。最大力设定为体重的 30%,起效时间固定为最大髋关节屈曲时间。通过优化来主动调整峰值和偏移时间,以确定力剖面的形状作为步态百分比的函数。带阴影的紫色和蓝色条分别表示峰值和偏移计时的范围。(C) 可行性髋关节力剖面图示例

1.1 实验介绍

1.1.1 实验设计

本次实验是没有进行先期训练的单日测试。为了尽量减少适应性的影响,实验共招募了 8 名受试者,他们之前至少有两次穿着可穿戴设备外衣裤行走的经历。受试者戴着呼吸测量装置,以 1.25 ms^?1 的速度在跑步机上无负荷行走。选择这些条件是为了减轻长时间步行和恒定步行速度带来的疲劳影响。每个受试者都经历了五个状态阶段:(i)5 分钟安静站立状态,(ii)5 分钟无适应性状态,(iii)40 分钟的优化条件,穿插两个 3 分钟的热身期和 5 分钟的休息期,(iv)5 分钟的最佳时间验证条件,(v)5 分钟无适应性状态。两个热身阶段都是辅助步行,其中的辅助概要信息在优化条件的后续迭代中使用。在无适应性状态下,受试者穿着一条普通的裤子(质量,715g),这条裤子用于评估在主动协助下行走和穿着正常衣服行走的代谢区别。在优化条件下,除休息时间外,所有状态阶段之间都给出了休息时间。考虑到步行时间相对较长(61 分钟),在研究方案的开始和结束时分别设计了两个无适应性状态,作为对受试者 告的疲劳状态的目视检查。

1.1.2 受试者

8 名健康成年男性参加了本研究。这项研究得到了哈佛大学朗伍德医学区机构评审委员会(Harvard Longwood Medical Area Institutional Review Board)的批准,所有方法都是按照批准的研究方案进行的。同时,向所有受试者在参与之前,以及向其解释研究的性质和可能的后果之后都提供了书面知情同意书。

1.1.3 柔性外衣裤

在这项研究中使用的柔性外衣裤是专为帮助髋关节伸展而设计的。臀部外衣裤的纺织部件包括一个氨纶基层(重量,181g)、一个腰带(重量,275g)、两个大腿支撑(重量,2×69g)和两个用于安装惯性测量装置(IMUs;重量,2×13g)的弹性带(重量,2×46g)。鲍登线(Bowden Cable)和传感器导线,包括每个支腿的可膨胀编织电缆套管(重量,2×328 g)系在一起,并连接到驱动平台。受试者支撑着鲍登线总重量的一半。中等尺寸衣服的所有纺织部件以及鲍登线重量的一半加在一起总重量为 0.859 kg。

1.1.4 驱动平台

采用带有两个模块化执行器的栓系驱动系统来生成辅助力。每个执行器包括一个定制的无框架无刷电机,一个定制的螺旋齿轮组,一个直径为 90 mm 的滑轮和其他支撑结构。鲍登线用于将力从执行器传递到髋部关节。执行器侧,连接到皮带轮盖框架的鲍登线护套和连接到皮带轮的内部。外衣裤侧,鲍登线护套连接到腰带底部的锚点,内部线缆连接到大腿片顶部的锚点。当执行器缩回时,两个锚点之间的距离缩短,产生一个力来协助髋关节伸展。

1.1.5 传感和控制

两个惯性测量单元(Inertial Measurement Unit,IMU)连接在每只大腿的前部,检测到最大的大腿弯曲角度来分割步幅。使用两个连续最大髋关节屈曲事件之间的时间作为步幅时间。通过使用前两个状态阶段测量得到的平均步幅时间,为后续每个步幅确定缩放处理后的参考力剖面。实际力信号由两个称重传感器(LSB200,FUTEK Advanced Sensor Technology)测量,每个传感器都与腿部的鲍登线相连接。结合安装在定制无刷电机背面的编码器(AS5134,Ams)测量的执行器位置信号,实现了一种具有前馈模型的导纳控制器来跟踪力分布。

1.1.6 瞬时代谢估计

式中,Z(s)表示测量的代谢代价,R(s)表示频域中的瞬时代谢代价 f^inst,H(s)为时间常数τ=42s 的一阶动态模型 H(s)=1/(τs+1)。离散时间域中,公式 (1) 可写作:

式中,i 表示测量的呼吸次数,dt(i)表示第 i 次和第 (i+1) 次呼吸之间的持续时间。在测量得到 z 和 dt 的值 2 分钟后,首先计算最后一个条件下瞬时代谢率的变化,然后用最小二乘法最小化模型估计值与测量值之间的误差,从而得到 f^inst。

1.1.7 贝叶斯优化

使用高斯过程表征代谢图景,使用零均值和各向异性指数平方核作为协方差函数:

其中,σ^2 表示代谢率(信号)方差,M 是由峰值和偏移时间的长度尺度参数 l_1 和 l_2 组成的对角矩阵。信号方差捕获了代价函数变化的总体大小,长度尺度捕获了代谢率对峰值和偏移时间变化的敏感性。假设代谢代价有一个加性的、独立同分布的噪声,样本可以表示为:

其中,(σ_noise)^2 表示噪声方差。给定高斯过程和数据集 D,后验代谢代价分布(f_)^inst 计算为:

优化超参θ=[σ l_1 l_2 σ_noise],每次迭代通过最大化 log 边际概率来实现。峰值和偏移时间 xp、xo 是通过在先前评估的最佳时间内最大限度地降低代谢成本 (f_best – (f_)^inst , 0) 来计算的。EI 用于在预测最小值和高不确定性之间保持平衡,EI 计算方式如下:

在每次迭代中,通过最大化 EI 来确定下一个采样时间,同时强制要求偏移时间至少比峰值时间晚 15%,即 xo?xp≥15%。

1.1.8 代谢测量与分析

在整个研究过程中收集了受试者的呼吸数据。从安静站立、第一次无适应状态、验证和第二次无适应状态的情况下,根据最后 2 分钟的二氧化碳和氧气速率,使用修正的布罗克韦方程(Brockway Equation)计算代谢率。对于优化过程,还收集了每个 2 分钟测量周期的瞬时代谢估计值。净代谢率和净代谢图景是通过减去安静的站立代谢率,然后根据每个参与者的体重进行标准化处理后得到的。通过从第二个无适应状态的净代谢率中减去验证条件的净代谢率,然后将结果除以第二个无适应状态的净代谢率,得到验证条件的代谢还原。选择第二个无适应状态来比较代谢还原,因为它是最接近验证条件的无适应状态。使用同样的计算方法,将验证条件的净代谢率替换为优化产生的净代谢图景中的最小值,从而获得最佳条件的代谢还原。一名受试者的数据未被纳入最终的代谢分析,因为该名受试者在实验期间 告其处于疲劳状态,他的第二种无适应状态的净代谢率比第一种无适应状态增加了 32.4%。

1.2 实验结果分析

针对受试者的最佳辅助通过将最佳和验证条件下的步行净代谢代价从无适应状态的 2.75±0.18W kg^-1 分别降低至 2.26±0.13 W kg^?1 和 2.27±0.18 W kg^?1(平均值 ±SEM)来实现。验证条件下的净代谢减少在 6.7% 至 33.9% 之间,平均减少 17.4±3.2%(平均值 ±SEM;配对 t 检验,P=0.003;如图 3A 所示)。

受试者特定的最佳峰值和偏移时间分布在控制参数的大约一半的可行区域的范围中(图 3B 所示)。大多数最佳时间都在参数范围的边界上,三个受试者在最新的峰值和偏移时间上分别达到了最优值。

对于验证条件,平均传递峰值力为 215.6±10.1 N(2.84±0.02 N kg-1,平均值 ±SEM)。验证条件下最优辅助力跟踪的平均均方误差为 4.1%。为了清楚地表示,图 4C 中只示出了三个具有代表性的最佳力跟踪样本,它们具有与验证条件最大不同的最佳时间。

图 3. 实验结果。(A) 每种情况下的净代谢率。最佳:后验分布(代谢图景)的最小平均值。验证:优化辅助下步行 5 分钟的代谢率。无适应状态:穿着普通裤子步行 5 分钟的新陈代谢率。条块表示平均值,误差条块表示 SEM,星号表示统计显著性。(B) 所有受试者的可行参数区域和最佳时间值。在同一时间段,受试者给出了最新的三个最佳时间。(C) 参与者 3、4 和 6 的最佳辅助力量配置。虚线和实线是参考力和测得的力,按体重标准化,在验证条件的最后一分钟内平均跨过 10 步。在本研究中,最大髋关节屈曲事件被用来初始化步态周期

1.3 讨论和小结

二、Dialogue Learning With Human-In-The-Loop [4]

一个好的对话智能体(Agency)(有时也称之为学习者 (Learner) 或机器人(Bot))应该具有根据教师的在线反馈进行学习的能力:在发现出现错误时调整其模型,而在接收到积极反馈时进一步加强其模型。在应用发布之前,机器人都是在一个固定的特定领域或预先构建的数据库上接受有监督的训练而得到的。应用发布后,机器人将会暴露在不同的环境使用中,例如,与真实人类进行交谈时,自然语言的使用会更加多样化。目前,大量的研究主要集中在如何基于固定的标签数据库训练机器人,而关于机器人如何通过与人类的在线互动来改进模型的研究则很少。实际上,人类是通过交流来学习语言的,而不是从固定的标签数据库中进行学习的。这一点对于改进对话机器人的性能是非常重要的。

2.1 方法介绍

2.1.1 模型结构

第一步,将查询 x 转换成向量表示 u_0,方法是将其组成词的嵌入量相加:u_0=Ax。输入 x 是词袋向量,A 是 d x V 维度的词嵌入矩阵,其中 d 表示嵌入维度,V 表示词汇量大小。每个内存 c_i 也类似地转换为向量 m_i。模型通过比较输入表示 u_0 和使用 softmax 权重的存储器向量 m_i 从存储器读取信息:

这个过程选择与最后一个语句 x 相关的记忆,即(p_i)^1 值较大的记忆。返回的存储向量 o_1 是存储向量的加权和。可以重复该过程来查询存储器 N 次(所谓的「跳(hops)」),方法是将 o_n 附加到原始输入后面 u_1=o_1+u_0,或是将 o_n 附加到前一个状态的后面 u_n=o_n+u_n-1,然后使用 u_n 再次查询存储器。最后,将 u_N 输入到 softmax 函数以进行最终预测:

2.1.2 强化学习

在处理真实的人类对话时,例如通过 Mechanical Turk 收集数据,设置一个任务更容易,即可以部署一个机器人来响应大量的语句。不过这种部署方式难以管理和扩展,因为它需要在与每个人交互的模型副本之间进行某种形式的同步。这与现实世界中的情况类似,教师既可以问学生一个问题然后立即给出反馈,也可以设置一个包含许多问题的测试,并同时对所有问题进行评分。只有在学生完成所有问题后,才能得到老师的反馈。

2.1.2.1 基于奖励的模仿(REWARD-BASED IMITATION,RBI))

RBI 依赖于教师提供的积极奖励,该方法训练模型来模仿学习者给出的正确行为(对话语句的正确答案)。该方法通过使用一个 MemN2N 来实现,MemN2N 将输入的对话映射到一个预测中。

2.1.2.2 增强(REINFORCE)

其中,b 为基线值。使用线性回归模型估计得到 b,该模型将最后一跳后的存储器 络的输出作为输入,模型输出则为表征对未来奖励估计的 b。基线模型通过最小化估计奖励 b 和实际奖励 r 之间的均方损失 ||r-b||^2 进行训练。

RBI 和 REINFORCE 的主要区别在于:(i)在 RBI 中,学习者只尝试模仿正确的行为,而在 REINFORCE 中,学习者也利用了不正确的行为进行学习;(ii)在 RBI 中,学习者使用ε- 贪婪策略,而在 REINFORCE 中,学习者使用的是模型自身产生的行为分布。

2.1.2.3 前向预测(FORWARD PREDICTION,FP)

FP 处理的是机器人答案奖励未知的情况,这意味着学习者说话后没有 + 1 或 0 标签。相反,该模型假设教师以对话语句的形式对机器人的答案给出文本形式的反馈 t,而模型则试图预测该文本反馈 t。假设 x 表示教师的问题,C=c_1, c_2, …, c_N 表示对话历史。在 FP 中,该模型首先利用多跳记忆 络将教师的初始问题 x 和对话历史 C 映射到向量表示 u。然后,模型将对 A 中所有可能的学生答案进行另一跳关注处理,同时添加包含对话中实际选择的候选人(例如 a)的信息:

其中,y_(a^)表示学习者候选回答 a^ 的向量表示。β为表示学习者选择的实际动作 a 的 d 维向量。然后令 o 与 u 结合使用 softmax 预测教师的反馈 t:

ε- 贪婪探索:学生给出随机答案的概率为ε,学生给出其模型分配最大概率的答案的概率为 1-ε。这种方法使模型能够探索行为空间并发现潜在的正确答案。

数据平衡:将教师给出的回答集中在一起,然后在不同的聚类之间进行平衡训练。这是一种经验重演的方法,不过其采样是均匀分布的。例如,如果模型没有接收到足够的正反馈和负反馈,或是一个类过度占据主导地位,那么整个学习过程会退化为一个不管输入是什么、总是预测相同输出的模型。

2.2 实验介绍

2.2.1 实验设置

图 4. bAbI(左)和 WikiMovies(右)的模拟器对话样本,教师的对话是黑色的,机器人的回答是红色的,(+)表示获得正面奖励

图 5. 使用 Mechanical Turk 的人类对话(基于 WikiMovies),人类教师的对话是黑色的,机器人是红色的,图中给出机器人正确回答(左)和错误回答(右)的示例

2.2.2 实验结果分析

图 6. bAbI(任务 6)不同探索概率ε和批量大小的训练周期与测试准确度数据。随机探索对于基于奖励的(RBI)和正向预测(FP)都很重要。性能在很大程度上与批量大小无关,RBI 的性能与 REINFORCE 类似。在有监督的情况下,而不是强化学习,使用黄金标准标签可以实现 100% 的预测准确率。

图 7. WikiMovies 中实验结果,训练时间与任务 6 测试准确度的比较,RBI 的探索概率为ε批次大小为 32(左上角面板),FP(右上角面板),RBI 的批次大小设置(左下角),RBI 的批次大小与 RBI、REINFORCE 和探索概率为ε=0.5 的 FP 的比较(右下角)。该模型对批次大小的选择具有鲁棒性。RBI 与 REINFORCE 表现相当。在有监督的情况下,而不是强化学习,使用黄金标准标签可以实现 80% 的预测准确率

具体实验结果见表 1。实验结果表明 RBI 和 FP 都是有效的。当存在稀疏奖励时,FP 仍然能够通过文本反馈工作,而 RBI 只能在 r=0 时使用前 1000 个样本示例进行工作。由于 FP 根本不使用数字奖励,所以它对参数 r 是具有不变性的。FP 和 RBI 的组合结果优于单独使用 FP 和 RBI。

表 1. 通过 Turkers 引入来自人类的反馈。为 10000 个模型预测提供文本反馈以及额外的稀疏二进制奖励。FP 和 RBI 的效果都很好,而 FP+RBI 的效果最优

2.3 小结

三、human-in-the-loop design with machine learning [6]

图 8. 脑信号条件设计图像生成过程

提出了一种人机回圈智能设计方法,通过使用脑电测量的脑活动来生成考虑受试者偏好的设计;

提出了一种用于传达对客户需求的认知理解的新的框架,例如,使设计师能够通过图片而不是文字,直观地了解客户的需求或想法。

3.1 方法介绍

在训练阶段,当受试者观看设计的「真实」图像时,记录其脑电图信号。随后,基于 LSTM 的脑电编码器将脑信号 B_i 编码到与所见图像的设计语义相关的 EEG 特征中。将脑电特征作为生成条件嵌入到基于 GAN 的生成器中,生成模型重构出与原始图像具有相同设计语义的图像 D_i。在设计阶段,要求受试者想象一个他们喜欢的产品或设计的例子,然后将测量到的可能包含受试者偏好的设计特征的 EEG 信号编码输入到训练得到的生成器中。生成器生成包含与受试者想象相对应的设计特征的样本设计。图 9 给出了训练 EEG 编码器和图像生成器的过程。

图 9. 脑电条件生成模型的训练过程

声明:本站部分文章内容及图片转载于互联 、内容不代表本站观点,如有内容涉及侵权,请您立即联系本站处理,非常感谢!

(0)
上一篇 2020年11月7日
下一篇 2020年11月7日

相关推荐