AlphaGoまとめ - 読み書きプログラミング

	AlphaGo Fan	AlphaGo Lee	AlphaGo Master	AlphaGo Zero (20b)	AlphaGo Zero (40b)	AlphaZero (20b)	ELF OpenGo v1	ELF OpenGo v2	PhoenixGo	KataGo
評価ハードウェア	1202 CPU & 176 GPU	48 TPU v1	4 TPU v1	4 TPU v1	4 TPU v1	4 TPU v1	1 V100	1 V100	Tesla P40	-
HW指標				1TPUで1600simに0.4秒			80k simに50秒
HW指標(playouts/s)				16000	8000	16000	1600
レーティング	3144	3739	4858	4350?	5185	~4800	推定4100
実績	Fan Huiに5戦5勝	李世乭に5戦4勝1敗	トッププロに60戦60勝。柯洁に3戦3勝。AlphaGo Teachデータ生成		AlphaGo Masterに100戦89勝11敗		韓国トッププロに14戦14勝		第1回貝瑞基因杯世界AI囲碁大会優勝
アルゴリズム	ポリシーとバリューネットワークとロールアウトのハイブリッドMCTS	同左	ポリシーバリューデュアルネットワークとロールアウトのハイブリッドMCTS	ポリシーバリューデュアルネットワークでのMCTS	同左	同左	同左	同左
フィーチャー	シチョウを含む48(49)プレーン	同左	シチョウを含むnプレーン(推定、n不明)	8手前までの盤上配置と手番(17プレーン)	同左	同左	8手前までの盤上配置と手番(18プレーン)	8手前までの盤上配置と手番(18プレーン)	8手前までの盤上配置と手番(17プレーン)	22プレーン
ネットワーク	192フィルタ * 12 CNN * 2	256フィルタ * 12 CNN * 2	20ブロック ResNet	256フィルタ * 20ブロック ResNet	256フィルタ * 40ブロック ResNet	256フィルタ * 20ブロック ResNet(推定)	224フィルタ * 20ブロック ResNet	256フィルタ * 20ブロック ResNet	20ブロック(batch normとactivationの位置がモダン)
学習	教師あり学習+強化学習	同左	同左	強化学習	同左	強化学習	強化学習	強化学習	強化学習	強化学習
自己対戦ハードウェア	50 GPU			2000 TPU v1	2000 TPU v1	5000 TPU v1	2000 V100	2000 V100	WeChat CPU server	27 V100
学習ハードウェア				64 GPU & 19 CPU	64 GPU & 19 CPU	64 TPU v2
自己対戦時一手sim数				1,600	1,600	800		1,600
自己対戦時着手選択				30手まで訪問数分布乱数、それ以後最大訪問数	同左	同左		訪問数分布乱数
ミニバッチサイズ				2,048局面(対称性ランダム)	同左	4,096局面		2,048局面
ウィンドウ				500,000	同左	1,000,0000		500,000
ミニバッチ処理				バッチサイズ32で64ワーカーを動かして2,048を処理	同左
学習方式				25k局毎1kミニバッチ。テストあり	同左	非同期。約200局毎に1ミニバッチ (30局 for symmetry)。テストなし。約1kミニバッチで更新		非同期
総ミニバッチ				700k	3.1M	700k		1.5M	639,200
総自己対戦数	(自己対戦から30M局面を抽出)			4.9M	29M	140M (21M for symmetry)		20M
自己対戦期間	1日+1週間	数ヶ月		3日	40日	34時間	2週間	9日(16日?)		19日

AlphaGo Masterの強さは手作りのフィーチャーにあります。20ブロックのMasterを超えるためにZeroは40ブロック要しました。
一番の要因はシチョウが読めるかどうかと想像しています。20ブロックのZeroでは盤を横断するシチョウが直感できないのではないでしょうか。20ブロックのELF OpenGoがそれを実証しています。
"without Hunman Knowledge"に拘らなければ、シチョウを含めたフィーチャーで強化学習するのが一番ですね。
残る疑問は、シチョウフィーチャーあり40ブロックで強化学習した場合AlphaGo Zero(40b)を超えるのかどうか。