海内外多方伸援手各地侨界助力战“疫”

中新社北京2月3日电 新型冠状病毒感染的肺炎疫情来势汹汹,中国多地出现了医疗物资短缺的情况。对此,来自海内外的多方力量纷纷伸出援手,助力战胜疫情。

2月2日,由阿联酋海南商会暨同乡会捐赠的9.7万余个口罩和3.5万只医用手套被送达海南海口,并移交给海南省红十字会。这是自新型冠状病毒感染的肺炎疫情暴发以来,海外琼籍华人社团捐赠的医疗物资中单批数量最大的一批。图为海南省红十字会的工作人员搬运医疗物资。 中新社记者 骆云飞 摄

中旅投资以成为“一流旅游目的地投资与运营服务商”为目标,全方位实施“精品战略”,潜心提升场景、内容和体验,聚焦创造市场认可和可持续发展的行业标杆,未来将倾力打造“中旅景区”和“中旅地产”两大业务品牌,大力推动景区业务和地产业务融合发展。

由于学习者无法区分新轨迹和重分析的轨迹,这使得新轨迹与重分析轨迹的比例更改变得简单。

MCTS是一种迭代的,最佳优先的树搜索过程。最佳优先意味着搜索树的扩展依赖于搜索树的值估计。与经典方法(如广度优先或深度优先)相比,最佳优先搜索利用启发式估计(如神经网络),这使其在很大的搜索空间中也可以找到有效的解决方案。

1月31日,由南航北方分公司CZ628航班搭载的日本川崎市向沈阳市捐赠的8万只医用口罩抵达沈阳桃仙国际机场。南航为这批爱心物资提供免费运输,并开辟绿色通道优先保障。 中新社发 李天娇 摄

与AlphaGo和AlphaZero相似,MuZero也使用蒙特卡洛树搜索方法(MCTS)汇总神经网络预测并选择适合当前环境的动作。

具体问言,MuZero估计量的训练损失为:

此次,两家重量级文旅行业头部集团强强联手,提振市场信心,促进行业发展。充分发挥自身优势,共同将“开元森泊度假乐园”系列产品打造成为旅游目的地投资和运营的行业标杆,全力以赴,为国民打造更多文旅度假精品!

另悉,宁夏政协常委、宁夏侨联副主席郑俊武捐赠5万元人民币,用于宁夏新型冠状病毒感染的肺炎疫情防控。作为香港宁夏同乡会副会长,郑俊武表示,尽自己所能贡献力量,希望疫情早日结束。

另外机器人的身体是黑色的,也与星战漫画《阿芙拉博士》中的杀手型3PO非常相似,所以这可能是致敬漫画里的场景。

重复执行以下过程可实现上述MCTS:

由于总体奖励可以时任意量级的,因此在将其与先验奖励组合之前,我们将奖励/值估计归一化为区间[0,1]:

本文由游民星空制作发布,未经允许禁止转载。

更研究一些,Mu还有其他丰富的含义:

AI研习社是AI学术青年和AI开发者技术交流的在线社区。我们与高校、学术机构和产业界合作,通过提供学习、实战和求职服务,为AI学术青年和开发者的交流互助和职业发展打造一站式平台,致力成为中国最大的科技创新人才聚集地。

设置两组异步通信任务:

重分析适用于MuZero训练,一般训练循环如下:

MuZero的命名基于AlphaZero,其中Zero表示是在没有模仿人类数据的情况下进行训练的,Mu取代Alpha表示使用学习模型进行规划。

当日,泰国海南会馆和马来西亚海南会馆联合总会分别捐赠的1.3万个口罩和10万只医用手套也送抵海口。

其中c是比例因子,随着值估计准确性的增加,减少先验的影响。

模拟:从树的根节点出发(图顶部的淡蓝色圆圈),即环境或游戏的当前位置。在每个节点(状态s),使用评分函数U(s,a)比较不同的动作a,并选择最优动作。MuZero中使用的评分函数是将先前的估计p(s,a)与v(s’)的值结合起来,即

细心的读者可能已经注意到,上图还包括r的预测。某一情况(如棋盘游戏)在完全结束后提供反馈(获胜/失败结果),这样可以通过值估计进行建模。但在另外一些情况下,会存在频繁的反馈,即每次从一种状态转换到另一种状态后,都会得到回报r。

同时,澳洲宁夏同乡会多方联系,筹集疫情防控医疗物资,目前在当地已购买到1万只医用手套、150个医用防护口罩,将于近日运回宁夏,用于支持疫情防控。(刘贤 张茜翼 范宇斌 李佩珊参与报道)

在深入研究之前,首先对该搜索树及逆行介绍,包括MuZero做出的神经网络预测:

孙雍容举例道,欧洲杭州总商会捐赠的10000只口罩,香港杭州政协之友联谊会会长胡惠康先生捐赠的10000只口罩,共计20000只,已于2月1日上午全部发放到杭州市各区、县(市)卫生健康局。杭州台商协会捐赠的48桶消毒液已于1月30日发放到萧山国际机场。

每选择一个动作,我们都会增加其相关的访问计数n(s,a),以用于UCB比例因子c以及之后的动作选择。

保持轨迹(观测、动作和奖励)不变,重新运行MCTS,就可以生成新的搜索统计信息,从而提供策略和值预测的新目标。

在一般训练过程中,通过与环境的相互作用,我们会生成许多轨迹,并将其存储在重播缓冲区用于训练。那么,我们可以从该数据中获得更多信息吗?

很难。由于需要与环境交互,我们无法更改存储数据的状态、动作或奖励。在《黑客帝国》中可能做到,但在现实世界中则不可能。

如果,你也是位热爱分享的AI爱好者。欢迎与译站一起,学习新知,分享成长。

夢,日语中读作mu,表示“梦”的意思, 就像MuZero通过学习的模型来想象未来状况一样; 希腊字母μ(发音为mu)也可以表示学习的模型; 無, 日语发音为mu,表示“无、没有”,这强调从头学习的概念:不仅无需模仿人类数据,甚至不需提供规则。

最后,分享给你一些其他研究人员的文章,博客和GitHub项目:

今年疫情影响下,我们聚焦国内市场,“中旅景区”推出的宁夏沙坡头星星酒店一房难求、广西奇妙·夜德天开创夜游新体验、咸阳海泉湾温泉世界全面焕新创造业绩25%的增长,我们的“精品战略”探索和实践受到市场认可。

“开元森泊”是开元旅业集团重磅升级的全新周边游酒店+乐园品牌,目前已开业的有杭州森泊乐园和莫干山森泊乐园两个项目,森泊第三个项目已落户山东日照,江苏、浙江、重庆、天津 、厦门、武汉等多个拓展项目也正在有序进行中。森泊因地制宜地将度假酒店、特色木屋、室内外水上乐园、自然游乐、儿童城堡、会展、教育等多重业态组合升级,已成为全新的多业态度假综合体IP。

宁夏侨资企业——宁夏日盛高新产业股份有限公司加班加点紧急生产消毒用次氯酸钠原液40吨,移交给相关部门助力疫情防控。

为简单起见,在MuZero中仅使用单个网络进行预测。 根据Rémi Coulom在2006年发表的Efficient Selectivity and Backup Operators in Monte-Carlo Tree Search,MCTS为解决围棋问题提供可能。具体而言,MCTS中的“蒙特卡洛”指在围棋比赛中的随机模拟数,通过计算每次随机移动得获胜概率从而选择合适位置。 MuZero中使用的比例因子为∑bn(s,b)√1+n(s,a)⋅(c1+log(∑bn(s,b)+c2+1c2)),其中n(s,a)表示从状态s到动作a的访问次数,常数c1和c2分别为1.25和19652,它们决定先验对于值估计得重要性。请注意,当c2远大于n时,c2的确切值不再重要,对数项此时为0。在这种情况下,公式简化为c1⋅∑bn(s,b)√1+n(s,a)c1。 就像AlphaGo之前的许多Go程序使用的随机卷展,随机评估函数有一定作用。但如果评估函数是确定性的(如标准神经网络),那么对同一节点多次评估没什么意义。 在棋盘游戏中,折扣因子γ为1,TD步数趋于无限,因此,这仅适用于对蒙特卡洛奖励(游戏获胜者)的预测。 在运行MuZero时,无需单独对行动者进行重分析:由于只有一组行动者,在每次行动之前决定是与环境交互生成新轨迹还是对存储轨迹进行重分析。

开元旅业集团是一家持续追求价值领先的旅游产业投资与运营集团,以酒店业为主导产业,同时拥有房产、乐园、商业、工业、文旅等产业。集团入列“中国民营企业500强”、“中国旅游集团20强”、全球酒店集团第18位。

其中,r(s,a)是指在状态s时执行动作a后观察到的奖励,而折扣因子γ是指对未来奖励的关注程度。

重庆市商务委员会2月2日向媒体通报称,为做好医疗物资保障工作,当地开启全球采购模式,扩大医疗物资进口。重庆市商务委员会对接国外驻华使馆、海外金融分支机构、境外商协会和大型贸易经销商,拓展防疫物资供应渠道;每日动态推荐数十家企业、机构与重庆市级专项小组对接进口渠道。重庆对外经贸集团等企业和商会也扩大当前紧缺医疗物资采购进口。采购国别涵盖德国、英国、美国、日本、澳大利亚、泰国、俄罗斯、巴西等五大洲各国。当地开设金融与通关绿色通道。境外医疗物资可快速便捷抵达。

MCTS具有三个主要阶段:模拟,扩展和反向传播。通过重复执行这些阶段,MCTS根据节点可能的动作序列逐步构建搜索树。在该树中,每个节点表示未来状态,而节点间的边缘表示从一个状态到下一个状态的动作。

在Reddit上这一有趣场景引爆话题,许多人开始将C-3PO称作“T-3PO(终结者-3PO)”,各种玩《终结者》的梗。也有人讨论这是游戏的BUG亦或是《星战前线2》埋下的彩蛋,不过根据评论来看有人也曾遇到过这一现象,所以彩蛋的可能性很大。

据知,4架包机已将一批境外采购的紧缺医疗物资运抵重庆。截至2月2日10时,重庆市共计境外采购已到货:口罩515万只(含380万只捐赠)、手套42万双、防护服16万套(含5000套捐赠)、护目镜2000个、测温计4511只。

中旅投资是中国旅游集团旗下专注于旅游资源投资开发与整合运营的业务平台,目前在全国范围内拥有和运营40余家景区、度假区,已形成集旅游目的地投资和运营、旅游配套产业服务和旅游全产业智库服务等独有的旅游全产业链运营服务能力。

模拟沿着树向下进行,直到尚未扩展的叶子。此时,应用神经网络评估节点,并将评估结果(优先级和值估计)存储在节点中。

2月2日,由阿联酋海南商会暨同乡会捐赠的9.7万余个口罩和3.5万只医用手套被送达海南海口,并移交给海南省红十字会。这是自新型肺炎疫情暴发以来,海外琼籍华人社团捐赠的医疗物资中单批数量最大的一批物资。

这两个网络任何一个都非常强大:只根据策略网络,能够轻易预测每一步的动作,最终得到良好结果;只依赖值网络,始终选择值最高的动作。但是,将这两个估计结合起来可以得到更好的结果。

只需对UCB公式进行简单修改,就可以通过神经网络预测直接对奖励进行建模,并将其用于搜索。

首先,从数据集中采样一条轨迹和一个位置,然后根据该轨迹运行MuZero模型:

在《星球大战》作品中C-3PO机器人一直是温文儒雅又有点话唠的礼仪机器人,不过它也曾展现过“暴力”的一面,在《星球大战前传2:克隆人战争》中它的头被接成了贸易联盟战斗机器人,然后就开始喊打喊杀了。

“阿联酋琼籍华侨华人非常关注祖(籍)国新型冠状病毒感染的肺炎疫情,得知家乡海南缺少防疫用品后,大家心急如焚。”阿联酋海南总商会暨同乡会会长符永美介绍,该商会号召会员前往迪拜各大诊所、药店进行采购,并通过不同渠道和信息了解货源,连续3天采购到总价值逾10万元人民币的物资。符永美说,不少琼籍乡亲主动捐款捐物,通过不同渠道将急需物资以最快的方式送往海口、武汉等地,“目前当地琼籍华侨华人仍在努力筹措。”

为实现重分析,引入两个新任务:

此次合作,双方共同将“开元森泊”品牌价值最大化,在全国市场快速复制。让“开元森泊”品牌持续迭代,坚持品质,确保每位游客都能在“森林”和“湖泊”间享受完美的短途假日。同时我们也将在数字化转型和精品演艺等方面加强合作,进一步拓宽客流并增强粘性。

重分析缓冲区,用于接收参与者生成的所有轨迹并保留最新轨迹; 多个重分析行动者从重分析缓冲区采样存储的轨迹,使用学习者的最新网络检查点重新运行MCTS,并将生成的轨迹和更新的统计信息发送给学习者。

MuZero是一种机器学习算法,因此自然要先了解它是如何使用神经网络的。简单来说,该算法使用了AlphaGo和AlphaZero的策略网络和值网络:

策略:MCTS访问统计信息与预测函数的策略logit之间的交叉熵; 值:N个奖励的折扣和+搜索值/目标网络估计值与预测函数的值之间的交叉熵或均方误差; 奖励:轨迹观测奖励与动态函数估计之间的交叉熵。

“开元森泊”品牌在行业内已颇具影响力,尤其在长三角市场,短短两年时间内快速蹿红成为亲子家庭游黑马品牌。特色木屋、四季水乐园、“幻想人生”儿童托管、一对一度假管家等特色项目俨然成为行业服务标杆。2020年整体业绩表现不仅未受疫情影响,更逆势上涨。

可以看到,MuZero算法由以下三部分组成:

其中,q_min和q_max分别是整个搜索树中观察到的最小和最大r(s,a)+γ⋅v(s’)估计。

在当前环境状态下进行搜索; 根据搜索的统计信息π_t选择一个动作a_(t+1); 根据该动作更新环境,得到新的状态s_(t+1)和奖励u(t+1); 重复上述过程。

策略p(s,a)表示在状态s时所有可能的动作a分布,据此可以估计最优的动作。类比人类玩家,该策略相当于快速浏览游戏时拟采取的可能动作。 值v(s)估计在当前状态s下获胜的可能性,即通过对所有的未来可能性进行加权平均,确定当前玩家的获胜概率。

如果想了解更多细节,可以阅读原文,还可以查看我在NeurIPS的poster以及在ICAPS上发表的关于MuZero的演讲。

幸运的是,我们并不需要这样。只要使用更新的、改进标签的现有输入,就足以继续学习。考虑到MuZero模型和MCTS,我们做出如下改进:

表示函数h将一组观察值(棋盘)映射到神经网络的隐藏状态s; 动态函数g根据动作a_(t + 1)将状态s_t映射到下一个状态s_(t + 1),同时估算在此过程的回报r_t,这样模型就能够不断向前扩展; 预测函数f根据状态s_t对策略p_t和值v_t进行估计,应用UCB公式并将其汇入MCTS过程。

动作的选择可以是贪心的(选择访问次数最多的动作),也可以是探索性的:通过一定的温度t控制探索程度,并对与访问次数n(s,a)成比例的动作a进行采样:

开元森泊定位一站式短途度假目的地,向家庭提供亲自然的综合度假体验,引领旅游消费升级。围绕这一价值主张,“开元森泊”布局了从开发、规划、建设到运营的一整套完整产业链,并建立了持续创新、严控成本、注重体验的价值支撑体系。

此外,杭州市卫健委主任孙雍容也在1日的一场发布会上透露,“新型冠状病毒感染的肺炎疫情发现以来,海内外的爱心企业和爱心人士纷纷慷慨解囊,捐赠物资,支援杭州市疫情防控和医疗救治第一线,他们所表现出的家国情怀和深情大爱,让我们深受感动和鼓舞。”

策略和值的直观含义如下:

扩展:一旦节点达到估计量值后,将其标记为“扩展”,意味着可以将子级添加到节点,以便进行更深入的搜索。在MuZero中,扩展阈值为1,即每个节点在首次评估后都会立即扩展。在进行更深入的搜索之前,较高的扩展阈值可用于收集更可靠的统计信息。

从下图可以看到过程生成(B)与训练(C)之间的一致性:

MuZero是令人振奋的一大步,该算法摆脱了对游戏规则或环境动力学的知识依赖,可以自行学习环境模型并进行规划。即使如此,MuZero仍能够实现AlphaZero的全部功能——这显示出其在许多实际问题的应用可能性!

圆圈表示树节点,对应环境状态;线表示从一个状态到下一个状态的动作;根节点为当前环境状态,即围棋面板状态。后续章节我们会详细介绍预测和动力学函数。

我们知道,在与环境直接交互过程中,使用改进网络进行搜索会获得更好的统计信息。与之相似,在已有轨迹上使用改进网络重新搜索也会获得更好的统计信息,从而可以使用相同的轨迹数据重复改进。

在了解了MuZero的核心思想后,接下来我们将介绍重分析技术,这将显著提高模型对大量数据的搜索效率。

《星战前线2》机器人反抗人类:

更多相关资讯请关注:星球大战:前线2专区

雷锋网版权文章,。详情见转载须知。

反向传播:最后,将神经网络的值估计传播回搜索树,每个节点都在其下保存所有值估计的连续均值,这使得UCB公式可以随着时间的推移做出越来越准确的决策,从而确保MCTS收敛到最优动作。

根据轨迹选择用于网络输入的观测值和动作。相应地,策略、值和奖励的预测目标是在生成存储的轨迹。

希望本文对MuZero的介绍对你有所启发!

现在,我们已经学会了运行MCTS来选择动作,并与环境互动生成过程,接下来就可以训练MuZero模型了。

一个学习者接收最新轨迹,将最新轨迹保存在重播缓冲区,并根据这些轨迹进行上述训练; 多个行动者定期从学习者那里获取最新的网络检查点,并使用MCTS中的网络选择动作,与环境进行交互生成轨迹。

当t = 0时,等效贪婪采样;当t = inf时,等效均匀采样。

RELATED POST

大熊猫国家公园雅安蜂桶寨片区拍摄到野生大熊猫母子喝水画面

中新网成都11月12日电 (陈黎)大熊猫…

澳门去年严重罪案依然维持零案发或低案发趋势

中新社澳门1月9日电 (记者 龙土有)澳…

相约冰雪助力冬奥——两岸媒体参访北京冬奥会场馆

新华社北京11月27日电(记者王丽丽)以…

没有最宠只有更宠!援鄂医疗队娘家人是如何“攀比”的

为战胜疫情,打赢这场没有硝烟的战争,全国…