モンテカルロ木探索(モンテカルロきたんさく、: Monte Carlo tree search、略称MCTS)とは、モンテカルロ法を使った探索の事。決定過程に対する、ヒューリスティクス(=途中で不要な探索をやめ、ある程度の高確率で良い手を導ける)な探索アルゴリズムである。








2006年、これらの研究に触発されて[8]、レミ・クーロンは、ゲームツリー検索へモンテカルロ法を適用させ、「Monte Carlo tree search(モンテカルロ木検索)」と命名した[9]。L・コチシュとCs・セーペスヴァーリはUCT(ツリーに適用される上限信頼限界)アルゴリズム[10]を開発した。S・ゲーリーらは、彼らのプログラムMoGoにUCTを実装した[11]。2008年にMoGoは9路盤の囲碁でアマチュア有段者の域に到達し、Fuegoは9路盤でアマチュアの強豪プレーヤーに勝ち始めた[12]

2012年1月、モンテカルロ木探索を導入したZenは、19路盤のアマチュア二段のプレーヤーとの番勝負に3対1で勝利した[13] 。また、クーロンが開発に携わっているCrazy Stoneも2014年の第2回電聖戦依田紀基九段に19路盤の4子局の置き碁(ハンデ戦)で勝利するなど、着実に進歩していった[14]。それでもなおトップ棋士に勝てるようになるには10年以上かかると考えられていたが[15]、2016年1月、Google DeepMind社は開発を進めていたAlphaGoについて公表した。AlphaGoは2015年10月に樊麾二段に19路盤でハンディキャップなしに勝利しており、初めてプロ棋士に互先で勝利したコンピュータ碁プログラムになっていた[16][17][18]。2016年3月、AlphaGoは国際棋戦優勝多数の李世乭九段を相手に5番勝負を行い、4勝1敗で勝利した(詳細はAlphaGo対李世乭を参照)[19]。AlphaGoは、以前の囲碁プログラムを大幅に改善しただけでなく、機械学習は、ポリシー(移動選択)と値に人工ニューラルネットワークディープラーニング手法)を使用したモンテカルロ木検索を使用したため、以前のプログラムをはるかに上回る効率が得られた[20]

MCTSアルゴリズムは、他のボードゲーム(例えば、ヘックス[21]ハバナ英語版[22]アマゾンズ英語版[23]アリマア[24])、リアルタイムビデオゲーム(例えばパックマン[25][26]Fable Legends英語版[27])、不完全情報ゲーム(スカート[28]ポーカー[29]マジック・ザ・ギャザリング[30]カタンの開拓者たち[31])などに応用された。



最も単純な方法は、それぞれの有効な選択肢に、同数ずつプレイアウトの回数を一様に割り振って、最も勝率が良かった手を選択する方法である[5]。これは単純なモンテカルロ木探索(pure Monte Carlo tree search)と呼ばれる。過去のプレイアウト結果に基づき、よりプレイヤーの勝利に結びつく手にプレイアウトの回数をより多く割り振ると探索効率が向上する。


  • 選択:根Rから始めて、葉ノードLにたどり着くまで、子ノードを選択し続ける。根が現在のゲームの状態で、葉ノードはシミュレーションが行われていないノード。より有望な方向に木が展開していくように、子ノードの選択を片寄らせる方法は、モンテカルロ木探索で重要なことであるが、探索と知識利用の所で後述する。
  • 展開:Lが勝負を決するノードでない限り、Lから有効手の子ノードの中からCを1つ選ぶ。
  • シミュレーション:Cから完全なランダムプレイアウトを行う。これはロールアウトとも呼ばれる。単純な方法としては、一様分布から手を選択してランダムプレイアウトを実行する。
  • バックプロパゲーション:CからRへのパスに沿って、プレイアウトの結果を伝搬する。





子ノードを選択する際の難しい点は、何回かのプレイアウトの結果により高い勝率であるという知識利用(: exploitation)とプレイアウトの回数が不足してるので探索(: exploration)することのバランスを取ることである。手法は無数にあり Cameron B. Browne らが2012年2月までに発表された物を論文にまとめている[34]

UCT (Upper Confidence Tree)[編集]

探索と知識利用のバランスを取る1つの方法は、Levente Kocsis と Csaba Szepesvári が2006年に発表した UCT(木に適用したUpper Confidence Bound 1)である[10]。UCT は Auer, Cesa-Bianchi, Fischer が2002年に発表した UCB1 (Upper Confidence Bound 1)[35] に基づく方法である。Kocsis と Szepesvári は が最大となる子ノードを選択することを提案している。各変数は以下の通り。

  • w は勝った回数
  • n はこのノードのシミュレーションの回数
  • N は全シミュレーション回数
  • c は定数。理論上は であるが、実際は探索が上手く行くように調整する。


PUCT (Polynomial Upper Confidence Tree)[編集]

PUCT は David Auger, Adrien Couetoux, Olivier Teytaud が2013年に発表した手法[36]

木は根は決断ノードとし、決断ノードとランダムノードを交互に繰り返す形で構築する。決断ノードで行為 a を選択し、ランダムノードに遷移する。

  • 決断ノード z を選択した場合、
    • ならば、そのノードでシミュレーションを行う
    • さもなければ が最大となる子ノードを選択する
  • ランダムノード w を選択した場合、
    • ならば、最も訪れていない子ノードを選択する
    • さもなければ、新しい子ノードを作成する


  • - 決断ノード z で行為 a を選択した際のランダムノードでの平均報酬(勝率など)
  • - 決断ノード z の訪問回数
  • - 決断ノード z で行為 a を選択した際のランダムノードの訪問回数
  • - 深さ d に対して定めた progressive widening 係数(定数)
  • - 深さ d に対して定めた探索係数(定数)


David Silver らが AlphaZero にて2017年に採用した方法は PUCT を更に改変していて、以下の評価値で子ノードを選択する[37]


  • - 状態 s で行為 a を行った際の平均報酬
  • - 状態 s で行為 a を選択する確率。ニューラルネットワークの出力
  • - 訪問回数


