『人工知能はどのようにして「名人」を超えたのか？』山本一成

ポナンザ開発者のヒトの本
人間が学習して強くなるとはどういうことか
人間の意志決定とは

目次より気になるテキスト抽出
名人を倒すプログラムは名人でなければ書けないのか
将棋における探索と評価
コンピュータ将棋がチェスから遅れた理由
機会学習によって解釈性と性能がトレードオフに
黒魔術化しているポナンザ
ディープらーにんぐ。還元主義的科学からの脱却
人間は指数的な成長を直感的に理解できない
コンピュータにとって囲碁は特別なゲーム
モンテカルロ法という救世主
知能と知性
目的を持つとは意味と物語で考えること

人工知能はどのようにして「名人」を超えたのか?―――最強の将棋AIポナンザの開発者が教える機械学習・深層学習・強化学習の本質

作者:山本一成
ダイヤモンド社

Amazon

著者は元々大学二年の段階でアマチュア五段とかで周りよりずっと強かった。留年で暇になってプログラムを学び始める

コンピュータができることは
1. 四則演算程度の簡単な計算
2. 覚えること
ふたつだけ

ちなみに記憶力があれば解決するような課題は現代ではもはや人工知能の課題ではない

将棋のすべての展開を探索しきることはできないので、評価をしながら目星をつけてよさそうな道を進んでいく。正しく評価をしないとたどり着くべきゴールを見落とす。コンピュータもミスる

10 年前のプログラムは駒の種類や配置で点数をこまめにつけていた。それで評価をしていた
項目の調整自体をコンピュータにやってもらおうというのが機会学習

画像判定とかは、機械学習の一種ディープらーにんぐで従来を遙かに超える性能を出してきてる
ゲーム中に現れる局面の数
オセロ 10^60
チェス 10^120
将棋 10^226
囲碁 10^360

現在はオセロすら完全解析はできていない

将棋がコンピュータにとって難しいのは計算可能に落とし込むのが難しいから

プロの棋譜は現在 5 万局ほどありすべてデジタル化されている

サンプル数が不足していても、たとえば反転したり拡大縮小しても状況は同じだと指定することで補える

ポナンザを作り始めて 2 年、著者、負ける

そしてポナンザを作り始めて２年ほど経った日でしょうか。とうとう私は負けてしまいました。
前述の通り、私の将棋の強さはアマチュア五段です。アマチュア最強レベルとかではありませんが、相当強いです。その私が負けました。
これほどくやしさ、そしてそれをはるかに上回る喜びを私は味わったことはありません。普通、人間は自分が作ったものが、知的な意味で自分を上回る経験はできません。唯一の例外があるとしたら、それは子どもを成長させることでしょうか。ポナンザは私の子供で、そして私を超えたのです。 (p67)

プロ棋士になるには奨励会に所属する。所属した中でプロになれるのは年間 4 人ほど

佐藤四段を負かしたことで人間社会と向き合わざるを得なくなった

ポナンザは自身を改良するとき、前バージョンと 3000 試合やらせる。それで勝率が 52% 超えたらアップデート

ここ 3 年くらいで出てきた、というか再評価された「怠惰な並列化」
複数のコアがばらばらに一つの処理をして、いちばん早くできたものを採用。各コアがたまたま発見したよい情報は全体に共有される、緩い協力関係もある

機械学習分野におけるブレイクスルーのひとつがディープラーニング
 ディープラーニングの前身はニューラルネットワーク
初期のニューラルネットワークは層が「浅」すぎた
層を重ねまくってうまく学習ができるようになったのがディープラーニング
 ディープラーニングを支える黒魔術「ドロップアウト」。。。過学習を防ぐ。学習中に、参加しているニューロンをところどころランダムにドロップアウトさせる
ランダムに抜けることで丸暗記ができなくなり、少ない情報から特徴をつかもうとするようになる。やべぇな

ディープラーニングの応用先として有力なのは「言葉」「音声」「画像」
特に画像がすごく、あるタスクを何らかの方法で画像とむすびつけることができればすぐ人間をこえちゃう
画像は多くの情報を含む。縦と横の関係。距離に加えて時間も表現できる。
もしかすると知能とは画像である、とか。と著者は言ってみたりしてる

人工知能の進化はここ数年で人間の予想をはるかに超えた
まず人間は指数的な成長をうまく理解できないから、予想が外れたというのがある

いちどは優賞に輝いたポナンザだが伸び悩み。その後、強化学習に出会いさらに延びる。
きょうかがくしゅうとは。守破離的なものだよと
2014 年以前、すべての将棋プログラム機械学習は「教師あり」だった
教師あり以外にも学習方法はある。それが強化学習である。
強化学習では、未知の環境であってもコンピュータが投機的に調べて結果をフィードバックすることで学習していく。フィードバックを繰り返すことで「評価」が強化されていくから強化学習

2014 以前はプロ棋士が指した手をお手本として教師あり学習をして、その評価精度を向上させていった。
強化学習以降は、お手本を使わず、実際にありえそうな局面を 6ー8 手進めてみて結果がよかったか悪かったか（勝利につながったかどうか）を調べ、結果が事前評価よりよかったか悪かったかで評価部分を微調整する
注意点として、将棋で強化学習が可能になったのは、強化学習前のプログラムがすでにある程度強かったから。プロ棋士の棋譜で事前に教師あり学習をして十分強くなっていたから、ある程度あたりをつけて探して、という独力での学習が可能になった

人工知能の開発においては、必ず大量のデータが必要になるのです。そのうえで、最初は「教師あり学習」。そしてその後は「強化学習」に移るはずです (p.130)

ポナンザは 300 コアマシンを数台、何ヶ月も動かし続けて少しずつ強くしていった

単に強くなっただけでなく新戦法も生み出し始めた。ポナンザ流として人間によって体系化される。

囲碁がコンピュータにとって難しいのは局面の評価がどうしてもできなかったから。チェスと将棋の間に壁があるように、将棋と囲碁の間にも壁がある
囲碁はどの石とどの石の関係に着目して点数をつければいいのかわからない
そこで使われた救世主がモンテカルロ法

アルファ碁は、囲碁を画像としてとらえた。ディープラーニングは画像処理を最も得意とする

チェスでは、機械学習がなくても人間を超えた。
将棋では、機械学習によって人間を超えた。
囲碁では、機械学習するにも何を評価すればよいかわからなかったので、ディープラーニングを使って超えた。

アンサンブル効果。作りが違うロジックの平均を取るとすごく強くなる

アルファ碁の打ち回しを人間がまねし始める。宗教の誕生っぽい、と

知性。。。目的を設計できる能力
知能。。。目的に向かう道を探す能力

人工知能は、知能の分野では人間を超えてきてる。でも知性、そもそも何をすべきなのか、というところには踏み込めていない
人工知能はディープラーニングで知性を獲得する？

シンギュラリティ、技術的特異点。人工知能が人間を超え爆発的な成長を遂げる。レイ・カーツワイルが提唱した言葉。2045 年と予想。その後 2029 年に予想を早める。
シンギュラリティは必然的に起きる、と考えている。

シンギュラリティを迎えた後に、人類がその存在に失望されないようにしないといけない。そのためにはいい人でいましょう ;; なんじゃそりゃ

本書は 2017 02ー04 にかかれたもの
執筆中にふたつの変化。まず、ポナンザにもディープラーニングが組み込まれた。
次に、0401 にポナンザが「名人」に勝利した

将棋が機械学習ですごく強くなったのは、王を含む3駒の関係でうまく評価できることが発見されたことが大きい。いち局面における3駒関係はせいぜい 1600 程度
そうしたリーズナブルな評価方法が見つかったので、その上で、プロの棋譜をたくさん読ませて、どういう手がいい手なのかを教えていった

囲碁は記述が難しい一方で画像として扱うのに都合がよい。将棋やチェスは駒が移動するけど囲碁は常に盤外から現れるので、どこに何をうてばよいかという話がきれいに確率で表せる

アルファ碁によって、プロでも囲碁というゲームをよくわかっていなかったことがわかった
例の対局では五戦のうちいきなり3連勝。人類負け確定。だけど4戦目で予想しない手を打たれて崩れる

アルファ碁はディープマインド社の開発した DQN （Deep QーNetwork）というアルゴリズムを使っている。Q Learning という強化学習の一種を用いて、画像から最適な行動を学んでいく。
スペースインベーダーの画像とコントローラを与えたら、勝手に学んでプロにかつほど強くなった。
碁に関しても、その方法でプロの手を膨大な棋譜から学んだ。そうして「ある局面を与えたら、次にプロが打つ手を 57%　くらいの確率で予測できる」状態まで育てる。そうなったらアルファ碁の V1 を作り、自己対決させる。勝った方の選択した手の確率をちょっと上げる。その次のバージョン同士を戦わせる。これを1万世代繰り返した。

水平線効果。プログラムが読める手には限りがあり、その先を水平線の先にあるかのように考慮しないため、長期的に不利な手を打ってしまうこと
水平線効果を回避するには論理が必要で、コンピュータは論理が弱い（！）のでそれが難しい。

将棋は強くなって水平線が遠くまでいってしまっただけで、本質的には解決されていない

世の中で行われている判断のほとんどは囲碁より簡単。X 線画像診断とかよゆー

次の、もしかしたら最後のフロンティアは自然言語処理