DeepMind 最近在 Nature 发表了一篇论文 AlphaDev[2, 3],一个利用强化学习来探索更优排序算法的AI系统。
【资料图】
AlphaDev 系统直接从 CPU 汇编指令的层面入手去探索更优的排序算法,因为相对于高级编程语言来说,在汇编指令层级对存储和寄存器的操作可以更加的灵活,所以能发现更多潜在的调优策略。
在 AlphaDev 的论文中,只关注探索短序列排序:
定长序列排序(比如 sort3 算法只能对长度为3的序列进行排序)变长序列排序(比如 variable sort5 算法可以对长度为1~5的变长序列进行排序)而对于长序列的排序,可以被分解为短序列的排序。
DeepMind 通过 AlphaDev 发现了比目前人工调优算法更优的定长短序列排序算法 sort3,sort4 和 sort5 ,并且已经将代码提交到了 LLVM 标准 C++ 库[4]。
简单来说,AlphaDev 将探索更高效排序算法的过程,建模为一个单玩家的汇编游戏(single-player game, AssemblyGame)。
游戏的过程就是玩家从 CPU 汇编指令集合中,选取一系列的指令组合得到一个新的排序算法。不过这个过程是非常有挑战的,玩家需要考虑,汇编指令的组合空间并最终得得到一个正确和高效的算法。
该游戏主要包括以下难点:
汇编游戏的搜索空间和围棋类似(10^700)只要有一条指令没弄对,可能就会导致整个算法错误AlphaDev 系统详解将排序算法表示为 CPU 汇编指令首先来看一个简单的变长(variable sort2)短排序函数的 C 代码实现,排序结果从小到大:
voidvariable_sort_2(intlength,int*a){switch(length){case0:case1:return;case2:inttmp=a[0];//a[0]保存两者之间的最小值a[0]=(a[1]通过 gcc生成对应的汇编代码,我用的 gcc版本是 11.3.0,命令 gcc -S -O1 -o sort2.s sort2.c
汇编代码只保留了核心部分,生成的结果和论文中的示例有些许不同但是原理是一致的:
variable_sort_2: .LFB0:; %edi 寄存器保存参数 length 的值; cmpl 指令对比 %edi 和 常量 2cmpl$2, %edi ; 相等就跳转到 .L3 标签处, ; 对应 C 代码的 case 2je.L3.L1:; 不等于 2 就直接返回, ; 对应 C 代码 case 0 和 1ret .L3:; 将 a[0] 赋值给寄存器 %edx movl(%rsi), %edx; 将 a[1] 赋值给寄存器 %eax movl4(%rsi), %eax; 对比 %edx 和 %eaxcmpl%edx, %eax; 将 %edx 赋值给 %ecxmovl%edx, %ecx; cmov 是条件移动指令根据 cmpl ; 指令的结果判断是否执行; 如果 %eax <= %edx ; 则将 %eax 赋值给 %ecxcmovle%eax, %ecx; 此时 %ecx 保存了最小值; 将 %ecx 赋值给 a[0]movl%ecx, (%rsi); 如果 %eax 小于 %edx; 则将 %edx 赋值给 %eaxcmovl%edx, %eax; 此时 %eax 保存了最大值; 将 %eax 赋值给 a[1]movl%eax, 4(%rsi)jmp.L1一般来说汇编程序所做的事情基本都是,将内存的值复制到寄存器,然后对寄存器的值作修改,再将寄存器的值写回到内存中。
而 AlphaDev 系统只关注 x86 处理器架构所支持的汇编指令集合的一个子集。
每条汇编指令的格式均为:操作码<操作数A, 操作数B>比如:
cmp比较指令,相当于 执行 A - B 操作,但是不会对 A 和 B 做修改,而是根据相减的结果设置特殊的 flag 寄存器,更多内容可以参考[5]
将探索更优排序算法表示为强化学习问题AlphaDev 将 CPU 汇编指令层面的算法优化过程转化为一个单玩家的游戏。
游戏每一步的状态定义为 : St =
。 其中, Pt表示游戏到至今为止所生成的算法,Zt则表示在给定输入的前提下执行完 Pt里的指令之后,内存和寄存器的状态。
如上图所示,在时间步 t,AlphaDev 接受到当前状态 St和 所要执行的动作 at(比如 mov),也就是往当前生成的算法 Pt中添加的合法汇编指令。
在添加完指令之后,就是计算奖励分数 rt(包括评估算法的正确性和延迟)。
算法正确性评估正确性评估就是将 N组测试序列输入到算法 Pt中,得到N组输出,和正确的排序结果最比较来计算奖励分数。
论文中给出了3种正确性评估函数,首先定义 P为输入序列长度, PCt为在时间步 t序列中,位置正确的值的个数,这里我理解应该是和正确的排序结果逐个位置对比,统计相等的个数。
三个函数分别定义如下:
func1 = (P - PCt) / Pfunc2 = sqrt(func1)func3 = sqrt(PCt)论文中提到采用第三个函数效果最好。
延迟评估延迟分数的计算可以是:
对系统增加代码长度计算惩罚,因为代码的长度一般都是和耗时高度相关直接计算算法的真实耗时整个强化学习的游戏在执行有限步骤之后就会被终止。只有生成正确而又低延迟的汇编代码才算赢得游戏。而不管是生成了错误的代码还是正确但低效的实现都视为游戏输了。
AlphaDev 采用的强化学习算法是对 AlphqaZero 算法的扩展,也是采用深度神经网络来引导蒙特卡洛树搜索(MCTS)的规划过程。网络模型的输入是 St,输出是对动作策略和奖励的预测。
整个游戏过程简单来说就是,用一个固定参数的网络模型,通过给定的当前状态执行一个蒙特卡洛树搜索过程,然后采取下一步动作。然后可以用生成的游戏过程(包含每一步的状态和奖励)去训练和更新网络的参数。
网络模型结构模型包含两部分:
一个 Transformer 编码器模块,用于建模算法,输入是至今为止生成的汇编指令序列一个 CPU 状态编码器 MLP 模块,输入当前寄存器和内存的状态两个网络的输出 embedding 会合并在一起来表示当前的状态。
网络模型整体的结构如下:
Transformer 编码器模块具体图示
如上图所示,把当前生成的汇编代码序列的每一条指令的操作码和操作数都转换为 one-hot 编码序列,然后输入到网络中。
但是具体的 one-hot 编码规则、词表怎么设置、还有对于 CPU 状态编码网络寄存器和内存的状态是怎么表示为网络的输入的等等,这些细节我在论文里没找到。
然后两个网络的输出 embedding 会合并到一起接着输入到几个函数头里计算,分别是预测下一步策略的函数头,预测算法正确性的函数头和预测算法真实延迟的函数头。
网络参数超参设置
论文的补充资料中提供了网络的参数和三个函数头的具体配置。
而对于策略的预测,论文中提到为了简化问题和提高收敛性,而对动作空间做了一些限制,规则如下:
必须按照升序方式读取内存寄存器按照升序分配cmp和 cmovX指令的操作数不能出现内存地址对每个内存位置,只能读取和写入一次每个寄存器在使用之前,必须初始化不能连续调用 cmp指令训练细节
AlphaDev 的训练采用了 TPU v3,每个 TPU 核的 batch size 是 1024 ,总共用了 16 个 TPU 核,总共训练了 100 万次迭代。而在对于玩游戏积累训练数据来说,则是在 TPU v4 上进行,总共用了 512 个 TPU 核。
实验结果表明,最多只需2天模型就能训收敛。
实验结果生成的算法和人工调优对比从实验结果表格可以看到,对于短序列排序算法 AlphaDev 生成的代码长度更短,而且平均耗时也更低。
对生成算法延迟的评估方式,比如对于 sort3则是在 100 台机器上做评估,每台机器随机生成 1000 条 3个数的序列,然后每条序列输入到算法中,对这 1000 次评估取第5百分位数作为最终的评估结果(排除 cache miss 和 任务抢占 等因素)。
耗时采用的是 CPU_CLK_UNHALTED.CORE这个计数器结果, 其计数值表示在一个特定时间段内,处理器内核的时钟周期数。这个值越高,意味着处理器内核在该时间段内执行了更多的指令。
AlphaDev 发现新的算法对于定长序列排序,当应用到排序网络算法[6](sorting network algorithm)的时候 AlphaDev 生成的代码中包含了一些有趣指令序列,相对于原始指令序列可以减少一条汇编指令,论文中称之为:
AlphaDev swap moveAlphaDev copy move啥是排序网络算法?
排序网络算法(Sorting Network Algorithm)是一种能够对一组输入数据进行排序的并行算法,其具有较好的并行性能适用于多处理器或多核心系统。
该算法的特点是,它将所有的比较和交换操作预先规划好形成一个固定的结构,然后将输入数据按照这个结构进行排序。
排序网络由比较器(comparator)和线(wire)组成,如下图所示:
水平线表示 wire,每条水平线持有一个待排序的值。两条 wire 之间的垂直线段就表示一个比较器,比较器对比两条水平线的值,如果比较器下方的值小于上方的值则交换两条横线的值,否则则不交换。
一个优化过的排序网络可以以最少的比较器,并将这些比较器放置在特定位置上,来实现对任意序列进行排序。
下图是对一个构造好的排序网络,输入真实待排序序列的例子:
可见初始输入是 [2, 3, 1, 4],这些随机数从左到右按顺序经过这些比较器之后,就得到了排序好的序列 [1, 2, 3, 4]。
AlphaDev swap move
先来看这个排序网络,只看红圈部分的功能就是对给定的输入 [A, B, C]将其转换为 [min(A,B,C), max(min(A,C),B), max(A,C)]。
然后经过 AlphaDev 优化之后,可以将第一个输出的 min(A,B,C)改为只计算 min(A,B),原因是因为前面的 B和 C横线之间经过比较器之后已经有了前置条件 B <= C。
而通过这个优化就能省去一条汇编指令,下图是红圈部分的伪代码实现:
左边是原始伪代码实现,右边是经过 AlphaDev 优化之后的实现,可以看到少了一条汇编指令 mov S P。
AlphaDev copy move
接下来看对4个元素进行排序的排序网络,是在对 sort8这个算法优化过程中发现的。该排序网络对于输入序列 [A, B, C, D]转换为 [min(A, B, C, D), max(B, min(A, C, D), max(C, min(A, D)), max(A, D) ]。
该排序网络是 sort8的一个子排序网络,而根据比较器的放置位置来看,A和 D比较之后后续就不再和其他元素比较了,所以D出来的结果就是四个元素中最大的,所以隐含了一个条件就是 D >= min(A, C)。
因此对第二个输出元素的计算可以从 max(B, min(A, C, D))改为 max(B, min(A, C)),就可以节省一条汇编指令。
伪代码如下:
左边是原始伪代码实现,右边是经过 AlphaDev 优化之后的实现,可以看到少了一条汇编指令 mov P T。
总结这篇文章只是对 AlphaDev 论文中的主要内容作解读,对于更多的内容和细节感兴趣的读者可以查阅原论文和论文的补充资料 [2,3],DeepMind 也也开源了一份伪代码实现 [7]。
参考资料[1] https://ee.usc.edu/~redekopp/cs356/slides/CS356Unit5_x86_Control[2] https://www.nature.com/articles/s41586-023-06004-9#MOESM1[3] https://static-content.springer.com/esm/art%3A10.1038%2Fs41586-023-06004-9/MediaObjects/41586_2023_6004_MOESM1_ESM.pdf[4] ⚙ D118029 Introduce branchless sorting functions for sort3, sort4 and sort5. (llvm.org)[5] 小信豬的原始部落: PC Assembly Language 學習筆記(5) - Control Structures (godleon.blogspot.com)[6] https://en.wikipedia.org/wiki/Sorting_network#:~:text=as%20the%20contrapositive.-,Constructing%20sorting%20networks,are%20often%20used%20in%20practice.[7] https://github.com/deepmind/alphadev关键词:
DeepMind 新作 AlphaDev ---- 强化学习探索更优排序算法 世界最新
焦点速读:草色入帘青书法_草色入帘青
周明带队检查端午节前安全生产工作 环球关注
焦点速递!甲醛中毒的初期症状怎么治疗_甲醛中毒的初期症状
她决定再次雇凶杀己
【环球时快讯】百余名考生摸老师光头解压,寓意“中考不用愁”,当事老师回应:没感觉被冒犯
宁德时代:为更好地吸引与保留公司所需优秀人才,支持 焦点快播
邵阳选手暂居第一!“最美外卖配送员”正在PK中|环球速看料
受持续高温影响,有臭氧中度污染风险!河北6月下旬“空气质量预报”来了_时快讯
《2023年中国智慧教育区域发展研究报告》研讨会在重庆两江新区召开
【热闻】造船业超级周期要来了?中国船舶有生产线排到2028年,股价暴涨超40%
赛龙舟、包粽子......各地如何过端午?热闹场面来啦
极地试炼开启!《英雄联盟手游》熊羊对决限时开放
全球最资讯丨外汇局:5月外汇市场总计成交21.58万亿元人民币
【世界报资讯】现场|从拉斐尔到怀斯,提森博物馆在沪呈现“六百年巨匠”
如何清除癌细胞_每日简讯
建筑装饰构造与施工技术
关爱新就业群体,快递小哥、外卖员、网约车司机一起过端午
风电场改造升级出台新办法
【速看料】2024年开始,这些新能源车需要缴纳车辆购置税!
宋四子抄释-环球快报
老年爱情题材新片《我爱你!》曝宣传推广曲MV 宝石老舅热烈诠释生命活力-当前速递
正方形面积等于对角线的平方除以2_正方形面积
官方:第48届美洲杯将于2024年6月20日至7月14日进行,美国举办|世界报道
如何使用谷歌聊天 天天短讯
刚刚发布!福建高考志愿填报时间确定!
根据Vastu购买房屋的5条黄金法则 今日最新
长城微纪录 | 北庄一家人|焦点简讯
万里股份董秘回复: 目前公司暂未开通微博、微信、抖音等新媒体沟通平台-全球快资讯
全球微资讯!电力板块6月20日跌0.44%,*ST惠天领跌,主力资金净流出7.77亿元
国家疾控局发布高温热浪公众健康防护指南
花都区加快数字文化产业发展扶持办法 试行 快讯
世界最新:聚焦筹资模式更新与范式迭代:第五届“双一流”高校基金会创新发展论坛举行
怎么限制访问网站 世界今亮点
环球今日报丨打造一流营商环境,赋能山东高质量发展
吐槽eva剧场版第三部-每日热点
相关新闻