藤野の散文-私の暗黙知-

毎日の中での気付きについて書いています

正確な政策に。

日経より。
どうも人工知能の報道に触発されて「自分しかできないこと」ばかりが気になるようになってきた。
で最近思うのが人工知能は「政治や政策決定」にダントツに強みを発揮するのではないかと思うのだ。

(前略)
また「課題を発見」する能力も現在のコンピューターには備わっていない。
人間は現状に対する不満があるから、それをいかに改善するかを考え、そこに向かって努力する。
与えられた条件で動作するコンピューターには、そうした現状を改革するという意欲はない。

「課題そのもの」は非常に情緒的だし、人によっても違うし、問題も、国を憂う人もいれば、若者を憂う老人だっている。

そうした「人間達の気持ち」をサンプリングしながらAIが課題に取り組んだらどうだろう。
凡百の政治家などよりも、よほど優れた最適案を出せるのではないだろうか。

国難突破」とか「働き方改革」とか「地方創生」とか単語だけで「イメージ政治」をするのではなく。

国民の35%は消費税に反対していますが、理由は「負担増」ではなく、行政への不信感です。

とか。

高齢者の60%は介護保険よりも社会参加を希望しています。

とか。
今は個人の意見の集約が網羅できていないから、幾つかの政党の政策に「反対とか賛成」ばかりの選択肢で、結局イメージの良い方が勝つ。
日々問題視される年金の問題だって、ここ50年の政治家の「誤った接ぎ手」がもたらしたものだ。

政策を立てる上で、数字から見た妥当性と「国民の声」をミックスして考える(選択肢を導く)のはいよいよコンピューターが優れているのではないだろうか。
自分の声が正確に届く、ということなら今の無党派層は一気に目覚めるような気がするのです。

2017年世界を席巻 AIはなぜ急に賢くなったのか いまさら聞けない注目テック用語

 2017年、人類は2つの知的なゲームで人工知能(AI)に「勝利宣言」をされている。米グーグルのグループ企業である英ディープマインドが開発した「アルファ碁」は、16年末から17年にかけてインターネットの囲碁サービスに匿名で参加し、プロを含む相手を次々と撃破。17年5月には現時点で世界最強とされる中国のプロ棋士、柯(か)潔(けつ)九段にも3番勝負で3連勝と完勝。「人間と対局するのはこれを最後にする」と語り、事実上の勝利宣言を下した。

 ほぼ時を同じくして将棋でも、現役最高峰の佐藤天彦名人との3番勝負に山本一成氏が開発した「PONANZA(ポナンザ)」が連勝で完勝。主催するドワンゴ川上量生会長は「現状の人間とコンピューターが同じルールで真剣勝負するというスタイルは、役割を果たしたと感じた」と説明し、コンピューターと将棋のプロが戦う「電王戦」は今回で終了した。

将棋ソフト「PONANZA」に敗れた佐藤天彦名人(手前右)

 どちらも「強化学習」という手法を用いて、過去の対局に縛られずに経験を積み重ねることにより、名人を超える最強の棋士を生み出している。

 ディープマインドは10月18日に「アルファ碁ゼロ」を発表。アルファ碁は人間の対局データを学習に取り入れていたが、アルファ碁ゼロは当初囲碁のルールのみを覚え、強化学習のみで強くなった。3日間で500万回の対戦をして学習した結果、アルファ碁に100戦全勝を果たしたという。

 さらに12月にはアルファ碁ゼロのアプローチをより一般化させて、将棋やチェスにも対応できるよう改良した「アルファゼロ」を発表した。

 一見するとAIは急に賢くなり、名人を超えるまでの知性を身につけたように見える。しかしその実態は、地道な研究の継続により発展してきたのだ。過去のAI研究を踏まえながら解説しよう。

■基本の枠組みは「探索」と「評価」

 現在は「3度目」のAIブームといわれている。AI研究の端緒から、コンピューターに囲碁や将棋のような知的なゲームを実施させようというアプローチは存在した。1950〜60年代にはチェッカーやチェスを実行するプログラムが作られた。

 その基本的なアプローチは、探索と評価である。つまり、「次にどのような手があるか」を探索し、それを繰り返してゲームの先を「読む」。最適な手をお互いに打っていった結果、勝利を得られる手を完全に探索できれば理想的だが、組み合わせの数が多くなりすぎてとてもではないが探索しきれない。

画像の拡大

着手可能な手が多数あるゲームの場合、探索すべき状態の数は手が進むごとに指数関数的に増大していく。場合の数の増え方は爆発的だ。このため当分は全件探索は実現できない

 例えばチェスの手数の組み合わせは10の120乗、将棋は10の220乗、囲碁は10の360乗といわれている。こうした複雑なゲームを完全解析するのは現在の技術では不可能だ。仮に1秒間に1億手を解析できるスーパーコンピューターでも、全部の組み合わせを解析するには、チェスですら宇宙が誕生してからの時間をかけても追いつかない。

 そこで用いられるのが盤面の「評価」である。盤面の途中の状態をどちらがどれだけ優勢かを数値で表すことにより、「よい」とされる手を決める。最初期のAIでは、この評価をいかに精緻にするかが競われていた。

 しかしこの方法には明らかな限界がある。そのゲームを実行するプログラムの強さは、プログラムを作成する人の技量や知識によって決まるからだ。例えて言えば、プロの将棋棋士が作らない限り、プロ並みの強さの将棋プログラムは作れないということである。

 さらに初期AIブームのころにはそのレベルにすら届かなかった。コンピューターの性能が貧弱であり、十分な深い「読み」を実現できなかったためだ。

■ルールベースでは「人知」を超えない

 第2次AIブームのときには、こうした「その道の専門家がプログラムを作らなければならない」という課題への対応として、専門家の知識をデータとして表現する「知識ベース」というアプローチが採られた。

 要するに専門家の「知識を盛り込む」方法を大きく変えたわけだ。実はコンピューターのプログラムは、すべからく作者が盛り込んだ「知識」を再現したものだといえる。第1次AIブームのときはプログラムに知識を盛り込んでいたが、第2次AIブームではデータに知識を盛り込んだのだ。

 具体的には「AならばB」「BならばC」というデータで、対象とする領域についての知識を定義する。個々の定義を「ルール」と呼ぶので、全体をまとめたものを「ルールベース」とも呼んだ。

画像の拡大

旧来のAIは、知識をデータとして表現して実現した。「もしAならばBが成り立つ」という条件を記述していくのが基本。一定の成果が得られた結果、第2次AIブームが巻き起こった

 これを処理するのが推論エンジンの役目だ。例えば先ほどの2つのルールがある場合、「AならばC」という結論を3段論法により引き出す。こうして構築したルールベースを推論エンジンに実行させれば、専門家のような判断が下せるようになるというわけだ。データはプログラムに比べると変更しやすく、実行時に変更が可能だ。このため状況に応じて柔軟な動作ができ、より人間の知性に近い処理ができると考えられた。

 第2次AIブームではこのようなシステムを「エキスパートシステム」と呼んだ。その有用性を最初に示した、スタンフォード大学の「マイシン」は症例診断AIの一つである。利用者が症状を「はい/いいえ」で答えると、原因となる細菌名や推奨する薬をそれなりに適切に回答できるシステムだった。

 しかしこのやり方はあまりうまくいかなかった。理由は2つある。

 まず、専門家の知識を抽出することの難しさだ。専門家と同等の判断をコンピューターが下せるようになるには、専門家が無意識のうちに取り入れているさまざまな条件も、ルールとして記述しなければならない。

 例えば「歩く」という動作を考えてみよう。歩行時には多数の関節を連動させて膝や足首、股関節などを動かし、重心を移動している。しかし歩行時にこうした動作を意識することはない。ロボットに二足歩行をさせようとすると、こうした関節の動きを細かく記述しなければならない。

 専門家の判断基準も同様。当人が意識していない知識や状況、無意識のうちに回避している操作など、言語で表現しづらい知識は少なくないのだ。

 もう一つの課題が、決してその方法では人間を超えることはできない点である。仮に専門家が非常にすべての作業に対し意識的に整理していて、無意識に取り入れる条件がなかったとしても、その専門家を超えることはできない。どう頑張っても「劣化コピー」しかできないという限界があるわけだ。

ページ: 2

機械学習が勃興

 知識ベース的なアプローチが熱狂的に受け入れられ、失敗に終わった結果、「AI」という言葉自体が忌避されるようになった。いわゆる「AIの冬」である。その間も技術的にはもちろん進化を続けていた。

 例えば1990年代に米IBMが開発したチェス専用コンピューター「ディープ・ブルー」は、当時のチェス世界王者だったガルリ・カスパロフ氏に勝利した。このとき使われていたのは、比較的旧来型のアプローチであり、性能によって力業でもたらした勝利だった。

 またソフトウエア的にも新しい技術が開発された。なかでも機械学習は個別に着実な成果を上げて、いろいろなシステムに使われるようになった。機械学習とは、与えられたデータを自動的に分類したり、識別したりするのに使われる。

 ある意味で一番普及している機械学習システムは、ウイルス対策ソフトなどに使われている迷惑メールの検知システムだろう。これは「ベイズ統計」に基づいて自己学習するソフトウエアである。ユーザーが指定した迷惑メールに似たメールと識別し、自動的に迷惑メールフォルダーに格納してくれる。

 機械学習は、一定量以上のデータがあることが前提になる。こうした話を聞くと、最近よく聞く深層学習(ディープラーニング)と機械学習は似ている、と感じる読者も多いのではないだろうか。実はその感覚は正しい。深層学習は機械学習の一種なのである。

 深層学習の技術自体は新しくない。第2次AIブームの時期に流行した「ニューラルネットワーク」と基本的には変わらない。ニューラルネットワークは脳の構造を模した技術で、個々の脳のニューロンが動作するモデルに基づいている。このニューロンを層状に結合したものがニューラルネットワークだ。

画像の拡大

脳のニューロンは、複数の入力から得られた刺激に対し、条件が合えばなんらかの出力を出す。これを模してモデル化した。出力値と学習値の差分から、重みの値をそれぞれ修正して学習する。複数のニューロンが接続して網目状のネットワークを構成したものがニューラルネットワーク

 だが当時は十分な量のデータも集まらず、コンピューターの性能が低いため学習が難しかった。またネットワークの階層を重ねて、複雑にすると学習結果が途中で途切れて上位の層に伝達しない問題もあった。結果として複雑な応用にはあまり用いられず、ルールベースのAIとともに産業応用の分野からは姿を消していった。

 AIの冬と呼ばれている時期も、機械学習は幅広く使われていた。別言すればAIは機械学習と名を変えて進化を続けていたのである。深層学習という名前で一気にニューラルネットワーク技術が復権したのも、地道な研究が続いていたからだ。

教師あり学習教師なし学習

 機械学習の手法は大きく「教師あり学習」と「教師なし学習」に分類される。

 わかりやすいのは「教師あり学習」の方だろう。この学習モデルでは、状態を表すデータと、その結果(教師データ)のペアを用意する。この組み合わせにより、特定の状態における正しい振る舞い方を学習していく。一方の「教師なし学習」は、データを自動的に区分けしていく。何となく近そうなデータを一群のデータとして取り扱う「クラスタリング」などが可能だ。

 これら2つの学習方法は、人間の学習や行動から考えると理解しやすいだろう。例えば学校の授業や参考書を使った学習は、教師あり学習である。どちらも「正しい」とされる結果が事前に提示されているからだ。こうした正しいデータを与えてやれば、過去とは少し違っていても似たものに対して正しい判断を下せる、というのが教師あり機械学習である。

 今度は鬼ごっこの逃げ方や、サッカーのプレーの選択を考えてみよう。こうした状況が流動的ななかでの判断には、セオリーのようなものはありつつも「正解」はない。セオリーは教師あり学習で教えることができるが、最終的な判断については成功や失敗を重ねていくうちに、どうすればよいかを自分で探っている。こうした正解がないことを学習するのが教師なし学習だ。

■深層学習は過去に「正解」がある前提

 一口に「AI」というと、実は利用されている技術は多岐にわたる。そうしたなかで、欧米では事実上AI=深層学習となっている。深層学習は教師あり学習の一種である。つまり状況とそれに対する正解となるデータの組を事前に用意して学習させる。

 例えば深層学習が有名になるきっかけとなった、「mnist」というデータベースに基づく文字認識の例を見てみよう。mnistは人間が書いた文字の画像データと、それがどの文字に対応するかという正解のデータ群である。深層学習の教師データとしてこれを使うと、高い精度で手書き文字を認識できることがわかった。

画像の拡大

3層以上の層があるニューラルネットワークによる学習を「深層学習」と呼ぶ。特に注目されるようになったのは文字認識精度の向上。「畳み込み層」と呼ぶ、画像の特徴を抽出する層を使うことで精度が上がった。また従来は層を重ねると学習結果の伝達が難しくなったが、その課題も解消できるようになり実用化し始めた

 つまり深層学習に基づくAIは、事前に正解を与えられる問題でないと学習できない。逆に言えば人間が「正解」とわかる問題でないと、学習させられないのだ。これでは「人間を超える」ような学習はおぼつかない。

 半面、熟達した人間がどのような推論結果を経たうえでこういう「結論」に至ったか、明快に言語化できていなくてもその熟達者の「模倣」は可能だ。言葉は悪いが、かなり優れた「熟達者の劣化コピー」を実現することは、深層学習で可能なのだ。例えばコールセンターの一次応答者としてAIが使われるのもこういった処理が可能だからだ。

 ポナンザの作者である山本氏は、ポナンザの強さを「作者にも説明できない」と自著に記している。

ページ: 3

■人知を超える手法としての強化学習

 ではポナンザやアルファ碁はどうやって名人をも超える棋士になれたのか。そこに使われているのは「強化学習」という学習方法だ。強化学習教師なし学習の一種である。

 強化学習は基本的に時間などによって状態が変化する「場」によって、どのような行動を取るかを選択する。その結果として状態が変化していく。ある程度進んだところで得られた状態に応じて「報酬」が得られる。例えばゲームの点数などが報酬として使われる。先ほどの囲碁や将棋における評価関数も、報酬として使える。この報酬を最大化するように、取るべき行動を選択して変えていくのが、強化学習の基本的な考え方だ。

画像の拡大

強化学習は「正解」を与えなくても学習できる点がポイントだ。動作を選択する「エージェント」が、環境から得られる報酬に応じて自律的に学習する

 簡単に言えば「こうやったらどうか」「ああやったらどうか」というのを試して、よさそうな結果をフィードバックして、学習結果を「強化」していくというのが強化学習というわけだ。

 前述のかくれんぼやサッカーのプレー選択は、一種の強化学習だと考えられる。例えばドリブルによる正面突破を選んだ結果、相手ディフェンダーに阻まれるか抜けるか、抜けたとしてもセンタリングまでつなげられたかどうかなどによって報酬は変わる。実はフリーの選手がいてパスを選択した方がよかった場合など、後からビデオで見直して初めて学習できる場合もある。

 この強化学習の効果を知らしめたのは、やはりディープマインドだった。ディープマインドは米アタリ社のテレビゲーム「アタリ2600」のゲーム49種類を深層強化学習(DQN)という手法を使って学習させた結果、半数を超える29本のゲームにおいてプロゲーマーを上回るスコアを出せたと15年2月に発表した。

 強化学習が人知を超える源泉となるのは、機械同士の勝負を通じて大量の局面を学習できるからだ。その結果、名人にも思いつかないような手が生み出される。例えば電王戦第1局で、ポナンザと対戦した佐藤天彦名人はポナンザが指した第一手を見て頭を抱えた。人間同士の対局であれば「あり得ない」として無視してきたような手だったからだ。アルファ碁がイ・セドル九段と対戦したとき、解説のプロ棋士が「これはアルファ碁の失着」とした手が、後でものすごく効果的だった。これも人間が「ない」として切り捨ててきた手をコンピューターが見つけた結果だといえるだろう。

 半面、そのためには大量の学習が必要となる。例えばポナンザは1兆程度の局面を調べているはずだという。また強化学習は効率が悪い。理論上はゼロから強化学習を始めても名人を超えるプログラムに成長できるが、そのためには大量の時間が必要だ。現実問題としては効率のよい教師あり学習である程度鍛えたうえで、人間が想定していない状況にも対処できるよう強化学習を使うという2段階が効率的だろう。

 ただアルファ碁ゼロの登場は、そうした人間の知見を使わず、機械学習だけでも十分な学習が可能であり、それを実現できるほどコンピューターの性能が向上していることを意味している。実際、最新のアルファゼロはわずか数時間で現在最強とされるソフトを超える強さを手に入れられたという。

■ウソを見破るAIの研究も進む

 将棋や囲碁は、すべての情報が盤面に提示されている。情報量に関して、対局者の条件は完全に互角だ。こうしたゲームは「完全情報ゼロ和ゲーム」と呼ばれる。だからこそ知性の基準としてよく使われてきたのだが、すべての情報が与えられるのはコンピューターと人間の関係で言えば、忘れることがないコンピューターに有利な面がある。

 これに対し、手を隠し、ウソやブラフを交えてプレーするゲームも少なくない。そこで次のフロンティアとして考えられている一つが「人狼(じんろう)知能」だ。人狼知能を研究する「人狼知能プロジェクト」は2015年に発足し、17年8月に第3回大会が実施された。

画像の拡大

将棋に代わり、AI研究の対象として注目されている「人狼知能」の対戦画面

 人狼知能とは、「人狼ゲーム」を勝ち抜けるAIプログラムである。人狼ゲームは参加者が人狼や村人、狩人、司祭などの役割を与えられ、その役割に応じて対話を進めて人狼を特定するゲーム。人狼は最後まで見破られなければ勝ちとなる。

 つまりここで研究されているのはウソをついたり見破ったりするAIである。例えば激高するあまりにサポートに対して高圧的になり、針小棒大な話にしてしまうユーザーに対応する場合などに使えるかもしれない。AIの応用範囲を広げるという意味で、新たな応用として注目されよう。

■さらにその先にある「全能AI」

 AIが将棋や囲碁の名人に勝ったことによって、「AIが人間を超えた」というのは早計に過ぎる。もともと、単純な計算速度では人間はコンピューターにかなわなかったし、単純に走る速度でいえば人間は自動車に勝てるはずもない。個々の場面場面を取り出して「人間を超える」のは難しくないわけだ。

 シンギュラリティ(技術的特異点)で言われる「人間を超える」には、「全能AI」と言われるような、総合的な判断が下せて、しかも人間以上の精度が出せる必要がある。

 多くの研究者は、「まだそこまでの道筋はできていない」という。というのも、超えるべき技術的な課題が満載だからだ。いわゆるシンギュラリティの議論も、あくまでもムーアの法則などの進展からハードウエア的な機能として超えることが可能という話であり、それをどうやって実現するかについては議論されていない。

 例えば現在人間ができて、コンピューターにはできないことに、プログラムの作成がある。定型的な処理について、プログラムを自動生成するツールはいくらでもあるが、例えばアルファ碁を生成するプログラムは存在しない。

 そのためディープマインドはモデル自体を多数生成し、そこから適切なモデルを強化学習で生き残らせるというアプローチを研究したりしている。ただこの方式でもまだ問題がある。強化学習をするための報酬(評価関数)の定義は天下りで人間が組み込んでいる。

 また「課題を発見」する能力も現在のコンピューターには備わっていない。人間は現状に対する不満があるから、それをいかに改善するかを考え、そこに向かって努力する。与えられた条件で動作するコンピューターには、そうした現状を改革するという意欲はない。

 もしかしたらそれを生み出すのは「本能」なのかもしれない。生存欲求とか遺伝子を残したい欲求や、もっとシンプルな快・不快などの要素から生まれている可能性はある。ただそうした要素を単純に取り入れただけでは、人間の手による生命シミュレーションにすぎず、なかなか応用が利く「人工知能」にはならない可能性がある。

(コンテンツ編集部 シニア・エディター 北郷達郎)