人工智能领域选题?人工智能领域
15
2024-06-10
大家好,今天小编来为大家解答以下的问题,关于人工智能围棋狗原理,围棋这个很多人还不知道,现在让我们一起来看看吧!
本文目录
阿尔法围棋(AlphaGo)是于2014年开始由GoogleDeepMind开发的人工智能围棋软件。它曾入选2016年度中国媒体十大新词,并被围棋界公认其棋力已超过人类职业围棋顶尖水平。专业术语上来说,AlphaGo的做法是使用了蒙特卡洛树搜索与两个深度神经网络相结合的方法,其中一个是以估值网络来评估大量的选点,而以走棋网络来选择落子。在这种设计下,计算机可以结合树状图的长远推断,又可像人类的大脑一样自发学习进行直觉训练,以提高下棋实力
阿尔法围棋(AlphaGo)是一款围棋人工智能程序,程序利用“价值网络”去计算局面,用“策略网络”去选择下子
阿尔法围棋(AlphaGo)的主要工作原理是“深度学习”,“深度学习”指多层的人工神经网络和训练它的方法。一层神经网络会把大量矩阵数字作为输入,通过非线性激活方法取权重,再产生另一个数据集合作为输出。这就像生物神经大脑的工作机理一样,通过合适的矩阵数量,多层组织链接一起,形成神经网络“大脑”进行精准复杂的处理,就像人们识别物体标注图片一样。
两个大脑
阿尔法围棋(AlphaGo)通过两个不同神经网络“大脑”合作来改进下棋,这些大脑是多层神经网络跟那些Google图片搜索引擎识别图片在结构上是相似的。它们从多层启发式二维过滤器开始,去处理围棋棋盘的定位,就像图片分类器网络处理图片一样。经过过滤,13个完全连接的神经网络层产生对它们看到的局面判断。这些层能够做分类和逻辑推理。
阿尔法围棋(AlphaGo)的主要工作原理是“深度学习”。“深度学习”是指多
层的人工神经网络和训练它的方法。一层神经网络会把大量矩阵数字作为输入,通过非线性激活方法取权重,再产生另一个数据集合作为输出。这就像生物神经大脑的工作机理一样,通过合适的矩阵数量,多层组织链接一起,形成神经网络“大脑”进行精准复杂的处理,就像人们识别物体标注图片一样。
主要包括4个部分:
1.走棋网络(PolicyNetwork),给定当前局面,预测/采样下一步的走棋。
2.快速走子(Fastrollout),目标和1一样,但在适当牺牲走棋质量的条件下,速度要比1快1000倍。
3.估值网络(ValueNetwork),给定当前局面,估计是白胜还是黑胜。
4.蒙特卡罗树搜索(MonteCarloTreeSearch,MCTS),把以上这三个部分连起来,形成一个完整的系统。
称霸德州扑克赛场的赌神Libratus,是今年最瞩目的AI明星之一。
最近,《科学》最新发布的预印版论文,详细解读了AI赌神背后系统的全貌。
在最新论文SuperhumanAIforheads-upno-limitpoker:Libratusbeatstopprofessionals中,卡内基梅隆大学(CMU)的博士生NoamBrown和教授TuomasSandholm,详细介绍了德扑AI如何通过将游戏分解为可计算、可管理的部分,来实现超越人类的表现,而且AI还能根据对手情况,修正潜在的战略弱点。
Libratus所用到的技术既不需要领域专家知识,也没有使用人类数据,甚至不是专门为扑克设计的。换句话说,这些技术适用于多种不完美信息博弈。
不完美博弈正是德扑的一个主要特征。围棋、国际象棋、跳棋等棋类游戏,属于完美信息博弈,对战的双方,清楚每一时刻局面上的全部情况。相比之下,德州扑克存在大量的隐藏信息,包括:对手持有什么牌,对手是否在诈唬?
详解Libratus
据最新论文介绍,Libratus主要包括三个模块。
第一个模块负责对牌面进行简化计算,将包含10161种情况的一对一无限注德扑抽象成一个比较简单的博弈。然后,这个模块为前两轮制定详细的策略,并为后两轮制定一个粗略的策略。这个抽象简化版博弈的解决方法称为蓝图策略(blueprintstrategy)。
这种抽象体现在两个方面,一是下注金额上,二是牌面上。
在下注金额上,100美元和101美元其实几乎没有差别,因此,算法可以对不到100美元的差异进行四舍五入。同时,将类似的牌面视为同一类,也能降低计算的复杂度。
需要说明的是,Libratus在后两轮游戏中并不会按照抽象版的解决方法来玩,蓝图策略在这两轮中的作用,只是用来估算玩家在子游戏中每一首牌应该得到的奖励,然后参考这个估算值,在真正的牌局中做出更精确的策略。
这个“更精确的策略”,也就是第二个模块:嵌套安全子博弈求解(Nestedsafesubgamesolving)。在博弈后期,这个模块会基于当前的牌面,构建一个全新的、更精细的抽象,而且对这个子博弈的策略进行实时计算。
上图是Libratus的子博弈求解过程。顶部表示在对局过程中出现了一个子博弈,中间部分表示算法为这个子博弈制定了更详细的策略,每次迭代中,对手随机发放一手牌,可选的期望值可能来自旧的抽象(红色),也可以来自新的、更精细的抽象(绿色)。如果期望值来自新的抽象,两个玩家的策略都会改变。这就迫使Libratus制定更精细的策略。上图底部表示用新的策略替代旧策略。
Libratus的子博弈策略计算和那些完美信息博弈不太一样,它需要确保这些子博弈的精细解决方法与整个博弈的大蓝图策略不冲突,而不能孤立地解决它。
第三个模块的意义,是随着比赛的进行,改进自身的蓝图策略。Sandholm教授表示,通常AI使用机器学习来发现对手的战略错误并加以利用。但这也会让AI暴露自身的弱点,并被对手加以利用。
不同之处在于,Libratus的自我改进模块分析对手赌注大小,以检测自身蓝图战略中潜在的漏洞,然后弥补自身的不足之处。
在与人类高手对战之前,Sandholm和Brown为了测试Libratus中所用的各项技术,先用简化版的扑克对整体流程进行了测试,然后把AI用到了完整版的一对一无限注德州扑克上,和他们自己之前开发的BabyTartanian8进行比赛。
2016年,BabyTartanian8曾经赢得电脑德扑大赛冠军,不过Libratus以63±28大盲注/千手(mbb/hand)的战绩击败了它。
“我们研发的技术在很大程度上是独立于领域的,因此可以应用于其他不完美信息策略应用,不仅限于游戏领域”,Sandholm和Brown总结说:现实世界的战略交锋中,隐藏信息无处不在,Libratus引入的范式对AI未来的发展和引用至关重要。
目前,这项技术已经授权给Sandholm创办的公司。
论文地址
http://science.sciencemag.org/content/early/2017/12/15/science.aao1733
ai是人工智能,围棋的ai是针对围棋下法的人工智能。
围棋ai的原理是将大量的历史围棋的名局录入人工智能的数据库中,随着对手的下法,ai从数据库中调取最佳的应对下法。
好了,文章到这里就结束啦,如果本次分享的人工智能围棋狗原理和围棋问题对您有所帮助,还望关注下本站哦!