東京工業大学
デジタル創作同好会

2017年11月14日 | メンバーブログ

IBIS2017参加報告

Keijan

本記事はtraP Advent Calendar 2017の11/14担当であるKeijanの記事です.

あらまし

日本最大の機械学習分野の学会であるIBIS2017に行ってきました.

まえがき

本記事は一介の大学院生が生意気にもしたためた学会参加ログです.講演の要約などの整合性は一切保証されず,本記事を用いたことによるいかなる損害も筆者及びtraPは請け負いかねます.そもそも知識不足で理解できていないものも多数存在しますことをあらかじめお詫び申し上げます.加えて,学会の参加記録という性質上,筆者による新しい成果は本記事に存在しません.申し訳ございません.更に本記事には一丁前に「感想」が書いてあります.この傲慢な行動に出た理由は「記事製作者のコメントを付記することで,(正負は実際は不問だが)付加価値が生まれる」と浅はかな筆者が夢想しているためです.不快な方は「感想」折り畳みはご放念ください.もちろん,中立的な純粋なまとめをされている皆様を攻撃・批判・侮辱する意図は一切ございません.

以下が本編です.長いです.13000words以上.

はじめに

おはようございますまたはこんにちはまたはこんばんは.初めまして,修士2年のKeijanです.traPは学部4年生以上も在籍・参入が可能なサークルなのでこんなおじいちゃんもいます.こんな修了間際の年寄,それも同学年のDavidとは異なり技術力が低い院生がどうやってtraPの知識体系(body of knowledge)に貢献するのか.研究室所属学年ならではとして学会参加ログをしたためようと思います.幼女botを運用しているAI班の存在など,traPとかかわりのある分野ですしおすし.

参加学会

この度参加した学会は第20回情報論的学習理論ワークショップ(IBIS)です.今年で20年目になるこの大会は,諸々の問題を情報理論を基に学習という観点からとらえるというコンセプトで始まりました.現在,日本最大の機械学習分野の学会であり,現在一般のポスター発表について査読は行っていません.詳細は1日目の学会の歴史と今後を参照ください.

今回のテーマ

広がりゆくもの 揺るがぬもの

「感想」 広がりゆくものは言うまでもない様々な応用でしょう.揺るがぬものというのは理論が一つ挙げられます.理論以外にも昔ながらの強力な手法或いはそういった手法を生み出す方法論そのものの研究も揺るがぬものに含まれると思います.様々な分野で用いられすっかりお馴染みの深層学習は揺るがぬものになるのでしょうか? 可視化(?)として広がるものとその中心で揺らがないものを宇宙物理の絵を出しながらIBISは宇宙物理の学会ではありませんというオープニングのスライドは面白かった.
 

記事構成

本記事の構成は次の通りです.本節で序論を述べました.第2節から第4節でそれぞれ1から3日目の講演内容を要約します.ポスター発表については筆者が気になったものを記します.第5節で結びます.

1日目

11月8日水曜日.3人の招待講演のうち2人が1日目でした.午前に招待講演があり,午後には若手発表というコンセプトの基で若手研究者の国際会議採択論文の発表という内容でした.

招待講演1 差別なき学習

発表者:Toyota Technology Instituteのシカゴ研究所 Nathan Srebro(敬称略)

概要

差別を助長しない学習機械を作るための一般理論 機械学習においては,職人の知識の代わりにデータと例を基に高精度な推論を行い,複雑な問題が解決されている.しかし,そこで用いられる特徴量は差別的なものが含まれる.例えばGoogleは男性にだけ求人広告を表示しがちである.機械学習は性差別主義なのだろうか?

モラルや社会的な観点から,このような人種的性別的その他差別的な特徴抽出により,機械学習や統計推論が差別を助長してはならないと考えられる.ではどうやって防ぐのだろうか? また学習機械が差別的になるとはどういう定式化がされるのだろうか?
教師あり学習を考える.XXを特徴,YYを予測対象とする.また,AAを人種などの避けたい特徴とする.XYX \mapsto Yなる予測機Y^(X)\hat{Y}(X)またはY^(X,A)\hat{Y}(X,A)を学習したい.データは実現値を小文字で書く慣例に従うと(xi,ai,yi)i=1n(x_i,a_i,y_i)_{i=1}^nとして観測される,ここでY^(X)\hat{Y}(X)AAの函数ではないがAAを含みうるというブラインドネスの問題が生じる.予測精度は異なるグループにより差が生じる.
そこでY^AY\hat{Y}\perp A|Yを考えていかなるAAの付加的な情報を考慮せず予測機を作る.このとき,リスクRRが閾値ttより大きいときに1っぽい何かI[R>t]\mathbb{I}[R>t]を使う(スライド中にノーテーションはなく,口頭で言っていたとしても聞き取れなかったTOEIC545点マン).リスクがオッズに等しくせしめられる条件はRAYR\perp A | Yと同値であり,試験しやすいものが得られる(??).設定の抽象度から推測するに,おそらく一般理論の構築を行い,この理論により差別的特徴量AAを避けた予測機を作成可能になるという研究と考えられる.

「感想」 私が論理学に疎いのか,最終段落の辺りからノーテーションや内容が理解できなくなってきて要約も上のありさまです.申し訳ありません.詳細情報は発表者ご本人のNIPSの該当論文などを参照する必要がありそうです. 何がしたい研究なのかという点で感じたのは,社会的な要求から重要な問題を扱っていて興味深く感じますし一般理論が構築されているようで物凄い大研究がされたと思います.

一方,そもそも機械学習がレイシストなわけではないような(発表でそう言っていたわけではない).統計や学習による推論が差別を助長する可能性に警鐘を鳴らしていましたが,確かに人類は技術を常に良い方向に使えてきたわけではないとはいえ,殺傷事件の責任は包丁にはないと思います.日本より差別に厳しい欧米の価値観ならではなのでしょうか?(発表にもあったように,非常にセンシティブな話題であるので下手な感想は燃えそう)

招待講演2 これからの・若いAI研究者へのアドバイス

発表者:Edward Albert Feigenbaum(敬称略)
1994年にTuring賞を受賞している.通称,‘‘エキスパートシステムの父’’.
かつて東大で講義をしていたこともあるようで,久しぶりの登壇となった.

概要

ブルーオーシャン戦略とコネクショニズムへの警鐘,パラダイムシフトの必要性 アドバイスそのものは「みんながやってることは避けて新しいことをやろう」「インクリメントな研究よりブレイクスルーを目指そう,そのために失敗を恐れず実験しよう」という内容.人工知能におけるそのバックグラウンドは次の通り.

知能の要素(?)に知覚(perception)と認知(cognition)がある.現在広く研究されているのは知覚であり,深層学習はそれに非常に強い.認知できるようになるには,一般に知覚できるようになるより長い時間を要し,今日も研究されている記号的な人工知能で重視されていたのが認知である.知覚はただ画像を見るという段階なのに対し,認知はその知覚した画像に意味付け・説明を行うということである.神経回路網は大変強力な知覚能力を持つが説明能力はない.現代ではまだ認知の問題は未解決である.確かに一部の分野について強い認知能力を持つ人工知能は存在する.エキスパートシステム,ディープサーチはその例であるが,認知可能な範囲は非常に狭い.例えば‘‘Deep Blue’’はチェスしかできない.
認知の問題の解決には常識または世界の知識(world knowledge)に基づく推論が必要だが,このような広範囲に対応した認知は実現できていない.ここまでについては,「みんながやってること」が統計や神経回路による知覚の研究であり,そうではないことがシンボリックな人工知能などによる認知の研究である.
さて,world knowledgeは共通のものであるが,実際の知能を持った人間は一人一人みんな異なる.人は知覚と認知だけで動くわけではない.現在の人工知能は,非常に狭い知識しか生かすことができない.IBMのWatsonなど,ある程度の広さを持つ知能も作られているが,まだまだである.
ここまで来て,そもそもAIは一発屋なのだろうかという疑問が浮かぶ.ある技術誌(?)によると,今の人工知能はほとんど神経回路網と統計的機械学習によるものであり,特に神経回路網は「ぼんやり」(抽象度が高いシステムということだろうか)しておりそれゆえに様々な分野で応用されているが,「ぼんやり」ゆえにニューラルネットワークだけでは本当の知能に至れない,という内容であった.そういうわけで今日の人工知能は一発屋とその記事は結論付けていた.プラグマティック,文法,統計では不十分な例を代名詞を使ってみてみよう.
Tim was mad at Joe because he was stolen his lunch.
これは5歳以上の人間であればheやhisはTimのことであることは自明である.しかし,人工知能においては非自明である.統計的な人工知能においては,従属節のheやhisはJoeを指していても等価になってしまうのである.そして文法的にもheやhisがJoeを指すことに問題はない.文法というルールやテキストデータによる統計処理では認知に限界が生じる.この問題はコンテクストを理解できる知能が実現できなくては解決できない.
コンテクストといえば自動運転においても重要である.高速道路においては,他の自動車との相対速度を考えればおおよそ問題ないだろう.しかし,例えばここ東京などの市街地ではそうはいかない.
街中に存在するサッカーボールそのものを知覚することは問題ない.しかし,そのような状況でのサッカーボールは,回収しに車道に飛び出る子どもが突然現れる可能性を持つ.常識がなければこの認知には至ることはできない.仮令Googleが自動運転車にどんなに詳細な街の地図を学習させ知覚させたとしても,文脈を理解できないがゆえに上記のサッカーボールの問題を解決できない.このように,機械学習はエッジケースに大変脆弱である.エッジデータはエッジの多様性がありまたサンプルサイズも稼ぎにくいためである.
もちろん,近くにいる子どもを知覚しただけで車を完全に止めるようなことも人間はしない.上記のサッカーボールや近くに子どもがいる状況に対しては適度な徐行を行うだろう.人工知能が持つべきは,解く問題の知識だけでなく常識的で社会的な世界の知識(world knowledge)である.文脈理解が今後の人工知能研究において重要である.
話題を変えて,ヒトと人工知能の協調:協調知能(cooperative intelligence)を考える.人工知能というものは様々な情報から取捨選択を行うことを得意とする.一方で人間は,情報を捨てずにすべてをタスクに組み込むことを得意とする.
ここにあるボードゲームの例がある.1兆ドル使って海軍を構築し,他のプレイヤーの海軍を撃破するというボードゲームだが,そのルールブックは大変分厚い.ある研究者(発表では名前が出ていたが失念)はゲームが大好きで,他の研究者が帰った夜中に研究所の大型計算機を使ってルールブックをコーディングし,必勝法を探索させた.計算機は何らかの手を研究者に教えてくれ,研究者はさらに探索を続けた.あるとき,この研究者はゲームの大会に出場した.計算機が探し出した答えは人間には想定外のかつ強力な手であり,ライバルの艦隊は次々と撤退,研究者は優勝した.以降連覇を続けるが,この方法に参加者とゲーム作者は怒り,大幅なルール改訂を行う.しかしその改訂したルールさえもコーディングし,手をサーチし再び優勝した.主催者は研究者を殿堂入りさせたうえで出禁とした.
人工知能の真面目な応用先として法と医学も挙げられるが,これらにおいては物語の説明が非常に重要視される.法律は数値では作られず,物語から作られるものであり,診断もそれに至る物語が構築できることが重要である.現在の人工知能は人間にとって代わるには特に法と医学ではあまりにも説明能力が小さすぎる.ゲームの例のように,人間に何かを教えてくれる使い方が考えられるが,物語の構築はまだである.
最後にアドバイスに戻る.現在のほとんどの科学研究はインクリメントなもの,すなわち最先端のものに若干の改善を加えながら前に進んでいくというものである.しかし,クーン氏によれば,すばらしい科学研究とはパラダイムシフトである.それはかっこつけた言い方をしているだけではない.パラダイムシフトの例としては,ニュートンの万有引力の発見から生まれた古典力学がアインシュタインにより相対論にシフト,あるいは量子力学にシフトするというものである.生物では,見かけによる分類学から進化論にシフトし,さらにゲノミクスに今日ではシフトしている.人工知能もある種のシフトを続けている.まずAIというものが考えられたことがパラダイムシフトであり,そして古典的なロジックベースのAIが考え出され,次に神経回路網にシフトする.更に統計的学習にシフトしたものが今日であり,またかつてのニューラルネットワークを多層にした今日の深層学習も神経回路網からの微小パラダイムシフトと言えるだろう.AI研究者へのアドバイスは,「深層学習のインクリメントをするのではなく,深層学習の次のパラダイムをみつけよう」である.そしてパラダイムシフトを起こすために大切なのは実験,そして失敗を恐れないことである.なぜなら,実験の失敗はパラダイムシフトを探す中の試行錯誤だからである.失敗が発見に至るまでの試行錯誤というのは実験科学では常識である.なので,「失敗を恐れずに実験しよう」というアドバイスもする.

「感想」 本当の知能を作るために,コネクショニズムへ警鐘が発せられた.みんながやっていることじゃなくてパラダイムシフトを目指そう.今はみんな機械学習をやってるから機械学習避けよう.語彙力のなさを悔いたい感想しか出てきません.すごい. ただ,IBISという土地は,おそらく私を含めて,知能に興味があるというより,学習理論や統計数理に興味があるタイプの方も少なくないと思われます.そういった理論の人々はそもそもAI研究者ではないということで対象外なのでしょうか.また,神経回路や統計でもこの認知の問題に取り組み,成果を出している研究もあるのですがやはり限界が近いということなのでしょうか.
 

ここでお昼休みが入りました.用心棒おいしかったです(^q^).
DOFLA2CV4AEEDX7-1

国際会議採択論文については感想は書いていたりいなかったり.

国際会議採択論文1

発表者:東京(京都?)大学 藤井 海斗(敬称略)
本当にごめんなさい.本郷キャンパスで迷子になり前半聞けませんでした.
adaptive submodulor maximumizationとsecretary submodulor maximumizationを組み合わせた提案手法に対し,うまくいく確率の下限を理論的に与えたという内容に聞こえました.

国際会議採択論文2

発表者:東京大学 南 賢太郎(敬称略)

概要

リプシッツ連続かつ凸な損失函数を考えることにより,これまでの厳しい仮定を課したdifferential privacy (DP)問題の研究を拡張し,また鋭敏性を解消することができた.DPすなわち差分プライバシーはちょうどよい個人情報保護を作るために重要な情報論的手法.

国際会議採択論文3

発表者:東京大学 武石 直也(敬称略)

概要

非線形力学系を神経回路網でフル・データドリブンに解析 非線形力学系(or 動的システム?)の解析をモチベーションとする.Koopmanの方法が存在するが,fullyにデータドリブンに解析を行いたいため,Koopmanの手法をデータドリブンに扱う手法を考案.神経回路網を駆使し構築,人工データに対し実験して成功した.
「感想」神経回路網で非線形力学系を解析するというすさまじく攻めているように感じる内容でした.IBISやNIPSじゃなかったらバトりそう.とはいえ非線形力学系という数学的物理的に非常に複雑な問題を,データから(fullyということはデータと学習機械だけから?!)解決できるというのは非常に大きな結果と思われます.筆者が疎いため,神経回路網の具体的な構築は日本語で説明していただいても10%も理解できないかも…….
 

国際会議採択論文4

発表者:東京大学 木了 龍一(敬称略)

概要

PU問題の過適合しやすさを非負値リスク推測機により理論的に解決 Positive-Unlabeled問題は非常にフレキシブルに2値分類問題を解決できる.しかしそのフレキシブルさゆえに過適合しやすいという弱点を持つ.そこで非負なリスクを推測することを考えて理論解析を行った.

その結果,バイアスはサンプルサイズに従い指数関数のオーダー;詳細な項がないため厳密には異なるがおよそop(en)o_p(e^{-n})00に確率収束する.理論的にはオーダーで評価される確率変数であるが,実際的な状況ではバイアスは無視できるほど小さいということになる.
加えて,この手法はコンシステントである(自由エネルギーによるモデル選択のコンシステントと同じ意味だとしたら,モデルが真の分布を実現可能であればサンプルサイズが無限(nn \rightarrow \infty)の極限において必ず真の分布を当てられることを意味する!)ことが証明された.
更に他のリスク推測機を用いる場合(?)よりもリスクを小さくできる.よくあるほげほげを最小にするぴよぴよのぴよぴよである.任意のぽよぽよを下から抑えるぴよぴよというステートメント(最小のσ\sigma加法族という表現に慣れている人は,そのイメージ).こうして作った分類機械はロバストに過適合を起こしにくくなる.

「感想」 この通り,純粋理論に近い講演なほど聞き取りの量が増えてて自分でフフってなった(ザ・感想). やっぱ論法が近いというのは大きいのだろうなあと国際会議を控える筆者は思っていたが,質疑応答タイムで次のような質問が.positive, unlabeled, negativeなラベルの比率にどれだけ依存するのかというものだった.ほかの人に回答をパスしていたが,微妙に違う回答になっていたような…….私はPU問題も暗い(暗すぎ)のでこういった突っ込みは浮かびませんでしたが,半径50mを見るとPU問題がそもそもなぜうまく動くのかなかなかわからないという感じでした.
 

国際会議採択論文5

発表者:東京大学 二見 太(敬称略)

概要

スチューデントのt分布の確率過程を厳密に考えてガウス過程の外れ値鋭敏性を理論的に解消 ガウス過程は様々な応用を持つ代表的な確率過程である.しかしこれははずれ値について鋭敏であるという弱点を持つ.これは分布の裾の薄さがゆえんであるため,正規分布の裾が厚いような形をしたスチューデントのt分布の確率過程を代替としたい.しかし,スチューデントt分布は指数型分布ではないため,従来のアルゴリズム構築手法は使えない.

スチューデントt分布は指数型分布ではないが,

expt(x)={exp(x)t=1(1+(1t)x)11totherwise\exp_t(x)=\begin{cases} \exp(x) & t=1 \\ (1+(1-t)x)^{\frac{1}{1-t}} & otherwise \end{cases}

という疑似的な指数分布を考えると記述できる.これをt指数型分布という.スチューデントのt分布はt指数型分布であり,t指数型分布の取り扱いができれば本題は解決する.しかし,expt\exp_tは指数法則

expt(x+y)=expt(x)expt(y)\exp_t(x+y)=\exp_t(x)\exp_t(y)

が成立しないため,指数型分布に帰着できたわけではない.

t指数関数は疑似的な指数法則は成立する.すなわち

expt(x+y+(1t)xy)=expt(x)expt(y)\exp_t(x+y+(1-t)xy)=\exp_t(x)\exp_t(y)

が成立する.この左辺の引数部分をxxyyの疑似的な和として考えると,それを構造に持つqq代数を考えることでガウス近似することなく議論することができた.すなわち,スチューデントt分布を代わりに扱うアルゴリズムを導出できた.提案手法で数値実験を行うと確かに外れ値鋭敏性を解消できていた.

「感想」今回の国際会議採択論文シリーズの中で一番好きな発表.無限のコンポーネントの分散が異なる正規分布の重ね合わせともいえるt分布を,その指数型分布ではないという解析的な姿のまま取り扱い結果を出しているということ,その中で統計物理学でも重要とされているq代数(これに詳しいわけではないですが,そういった概念)が必要になる問題という点がとても興味深く感じました.あ,珍しく感想らしい感想が書けたゾ.
 

国際会議採択論文6

発表者:東京大学ほか 石田 隆(敬称略)

概要

ラベル補完とその不偏推定量 ラベル付けは手間であるため補完により行いたい.しかしそれでは情報量が小さくなる.ラベル補完問題に仮定を置くと不偏推定量が補完ラベルからのみにより定まり,推定誤差を理論的に評価することができた.

コーヒーブレイクが入り後半戦へ.

国際会議採択論文7

発表者:東京大学 胡 緯華(敬称略)

概要

深層学習で教師なし学習 ラベル付けされていないデータを深層学習によりクラスタリングし,そのクラス1,2,3……を二進数表記1,10,11……とする.複雑な問題を孕んでおり,これを情報最大化(IM)と自己増強訓練(SAT)により解く研究があった.ここでは2つを組み合わせたIMSATという手法を提案する.IMでは確率の最大化を行いSATではデータ変換Tの前後のKL情報量の損失をTについて最小化する.手法の有効性は実験的に確かめた.

国際会議採択論文8

発表者:東京大学 坂井 智哉(敬称略)

概要

PU学習に基づく半教師あり学習の理論解析と実データへの実験 2値分類問題は広く応用されており,たいていは教師あり学習により解かれる.しかしラベル付けされたデータを集めること・データへラベルを付けることは手間がかかる.そこで教師なし学習で解く研究があるが,分布からデータが得られているという定式化において厳しい仮定を要してしまう.この厳しい仮定を解消するために,正値とラベルなしを学習するPositive Unlabled学習(PU学習)を考える.同様に負値データをNegativeのNで書くと,PN・PU・NU学習がそれぞれ考えられる.ここから2つ選び分類問題を解決することを考える.PU+NUは分類能が良くないがPN+PUとPN+NUは良いことを理論解析により導出し,さらに汎化誤差の上界の導出と分散の理論的な削減に成功した.PN部分は教師あり学習.画像データに対し実験を行い,正確な分類に成功.
「感想」PU学習などを組み合わせていましたが,データの中のP:U:Nの比率により結果が変わりそうに思いました.なのでどれくらいその比率についてロバストなのか気になりました.一方,理論解析ベースから画像という実データへの適応まで行っているという研究範囲の広さは驚きました.
 

国際会議採択論文9

発表者:東京大学 齋藤 邦章(敬称略)

概要

識別問題のドメインシフト対策 識別問題はドメインシフトにより苦しめられてきた.ドメインが変わるとそれぞれのクラスタの位置が空間内で移動してしまい,識別面を貫通してしまうことがあるからである.そこでドメイン適応する識別手法を考える.隠れ特徴を考えることによりシフトを防ぐ.深層学習による先行研究があったが,ここでは対称な3値の訓練を行うことでMNISTなど様々なベンチマークデータに対し実験的に成功.

国際会議採択論文10

発表者:同志社大学 落合 翼(敬称略)

概要

スピーチ認識 2012年ころはDNNと隠れマルコフモデルを組み合わせたスピーチ認識手法が提案されていたがノイズの問題は未解決であった.NNのユニットをうまくつないだら実験的にノイズを抑制できた.

国際会議採択論文11

発表者:名古屋工業大学 鈴村 真矢(敬称略)

概要

高次相互作用モデルの選択 高次相互作用(High-Ordered Interacton,HOI)(ハーツオブアイアンじゃないよ!)は$10^{17}$オーダーにすら届く非常に高次元な問題.特徴選択を統計的推測により行う手法が従来法であるが,これは計算量が大変多く選択結果のバイアスの問題が未解決であった.そこでこの研究では気構造を作ることで計算量を減らした.結果,スパースなHOIにおいてうまく選択的推測を行えた.

国際会議採択論文12

発表者:NECセキュリティ研究所 柿崎 和也(敬称略)

概要

単位円を利用して幾何学的に差分プライバシーのカイ2乗検定を作る 個人情報保護において重要な差分プライバシーはカイ二乗検定により統計的推測がされている.これは第1種誤りについてであり,それはMCMCにより制御される.しかし,第2種誤りについては未解決であった.本研究ではそのメカニズムを単位円の幾何学的な考察により解明した.これにより,第2種誤りの上界を理論的に導出し,解析的な検定統計量も得られた.得られたカイ二乗検定の大枠は,単位円内すなわち「ノイズ+分散」が1未満であるときが帰無仮説で,それ以外は対立仮説される.
 

国際会議採択論文13

発表者:PFN 得居 誠也(敬称略)

概要

確率ノードを持つ計算グラフの取り扱い 深層学習は計算グラフで理解できるが,その計算グラフ中に確率的な項が存在しなければバックプロパゲーションにより計算できる.しかし確率的なノードが存在する場合,よりテクニックが要求される.各々の院試をNNで記述した生成モデルとNNで記述された尤度比では,再パラメータ表示(reparametarization)が可能である.確率的なノードの親ノードのパラメータと乱数により,確率的なノードを記述できる.この取り扱いの中で,各インデックスで活性化函数の微分と平均操作の交換を行っている.
「感想」深層学習の理論研究という貴重な研究.PFNだけでなく深層学習コミュニティは理論解析も重要視するようになりつつあり,このような興味深い研究が増えていくといいなあと思いました.
 

2日目

企画セッション1-1

発表者:東京大学 鶴岡 慶雅(敬称略)

概要

自然言語処理にディープラーニングを使う方法にRNNのバリアントLSTMがあげられる.CNNも重要である.その応用は翻訳にとどまらず推論を伴う質問応答やメールの返信作成や要約など多岐にわたる. 自然言語処理に深層学習を応用したいが,普通のDNNは入出力次元が固定されており使いにくい.そこで任意長の系列を取り扱うことができるRNNを用いる.RNNは飛び道具な設計に見えるが結局深いNNの一種.

しかしナイーブなRNNは勾配が焼失したり長距離の依存関係をとらえられない弱点を持つ.そこでLSTMである.「ちょっと賢い」RNNであり,これが自然言語処理で用いられる.代表的な例は言語モデルすなわち単語が与えられたときに次の単語を予測するというものである.長雨でホウレンソウがXXXXというときのXXXX(答えは不作など)をあてるタスクである.また,LSTMを順逆双方向に流すことで左右両方向から品詞タグ付けを行うBiLSTMという手法もある.専門用語など固有な表現の認識やチャンキングは系列タグ付けに帰着される.
ここまで依存構造のないフラットなものを考えていたが,構文解析などでは係り受け構造とも呼ばれる単語間の関係を考察しなくてはならない.このとき単語間の関係性をグラフで表現する.代表的な依存解析はShift-Reduceである.解析前の単語列を格納したバッファ,解析後の依存構造を格納するスタックを用意し,シフトでバッファからスタックへ送る操作や,左右方向の削減により解析する.これをLSTMで実装する研究がされてきた.また,句の再帰的なまとまりにより構造を解析する見方もある.異なる視点に見えて実は系列タグ付けに帰着され,シフトと削減で戦える.多くのタスクを一連のものとしてまとめて行うマルチタスクを処理する手法もある.

ではこのような自然言語処理byNNが何に応用されるか.ニューラル機械翻訳が代表的である.翻訳元の各単語の隠れ状態の加重平均を考えることで,翻訳先の単語を選択する際に分のどこに注目するかを考えると従来の統計ベースのものに比べ高精度な翻訳が可能になった.専門用語を含んでいても,端的に言ってRNNを二つつなげただけの構造(エンコーダデコーダ構造)でかなり正確な訳が得られる.
応用は翻訳に限らない.電子メールの返事の自動生成もできる.
NNの代表的なバリアントとしてRNNのほかにCNNがあげられる.主に画像分野で使われることが多く,局所的な結合とその結合されたユニットではパラメータを共通にするという設計である.さて,動画像を説明したところだがそこで自然言語処理のRNNをCNNにつなげることで実現できる.CNNはテキスト解析にも使われる.テキストの単語のつながり方を「ソフト」に分析できるのがCNNである.
より難しい応用に,質問応答の生成がある.Wikipediaをデータセットにして,例えば「どうして雨が降るの?」と質問すると「重力により水分が云々」という答えをくれる.文章と質問の単語を互いの類似度で重みづけをして実現する.さらに推論を要する質問応答も研究されている.推論ということは答えを導出するわけだが,それに必要な文を順次推定する.
要約も文章2文章で機械翻訳のような流れであるが,要約問題ではポインターネットワークを使う.何をもって要約できたかというのは議論を要するが,何もできない時代ではなくなった.ポインターネットワークの応用として,自然言語によるメタプログラミングも行われることがある.自然言語処理の観点でプログラム生成となると,自然言語で書かれたものをプログラム言語で書き直すということ.OCGの効果を実装などが成功している.もちろん完全ではないため修正が必要なコードを返すこともある.プログラミングを行うことに類似し,データベースを作成するというSeq2SQLというものもある.これは教師あり学習と強化学習を組み合わせる.

ニューラルネットワークの弱点に大量のデータを集めるという必要性がある.アカデミアは企業に比べてサンプルサイズを大きくしにくいためである.それならばデータを作るという方法でデータを用意することで解決する.

「感想」 次の2つが対話システムや機械翻訳などの話ですが,そういったものを包含した自然言語処理一般の応用の内容で,それぞれを簡潔に理解することができました.電子メールやプログラム生成など普段聞かない応用例も知ることができました.
 

企画セッション1-2

発表者:ヤフー 鍜治 伸裕(敬称略)

概要

音声アシストと機械学習.対話システムは古典的な人工知能であり,様々な研究がされてきた.強化学習による理論的なフレームワークが構築されているが,様々なドメインに対応したサービスとしてリリースする上で必要なタスクの解決が課題.ドメインの追加,雑談対応,ユーザ満足度の調査や認識の確度の検証を行う手法を提案した. Yahooの音声対話システムについて.対話システムはハ世紀以上の歴史を持つAIの古典的問題である.Elizaが有名な古典的な例であり,今の言葉でいえばチャットボットの原典である.

今日,強化学習に基づく理論的なフレームワークが確立されている.論文レベルではなく教科書レベルの知識になりつつある.中野らの『対話システム』など.もう研究課題は存在しないのだろうか?

現在の研究はラボ環境である.現実世界の問題というより,実務的な現場でどのように動かせばよいかという問題がまだ残っている.これまではラボ環境での研究が多かったが,ラボの外でサービスを作るためのタスク処理は注目されていなかった.また,サービスとしてリリースすると大量の顧客が生じそこにインタラクションが生まれる.闇でもあり面白さでもある.

従来の対話システムはドメインが限定的であった.例えばある都市だけのバス時刻案内や,観光のみの案内などである.しかし最近の対話システムは多数のドメインをサポートする方向にある.Yahooでは天気予報からショッピングまで.迅速にドメインを作成するために,異なるドメインの類似性(天気予報とニュースなど)に注目して新ドメインに適応する研究が行われている.しかしこれまでのドメイン適応は再学習が必要である.現実的には,対話システムにはドメインがしばしば追加される.学習時間は従来はドメインの数に応じて指数関数であった.Yahooによる本研究の提案手法ではBiLSTMを組み合わせることにより,ほぼ定数のようなオーダーに抑え込むことに成功した.

ここまでタスク処理の対話システム(MSでいうとコルタナ)を考えてきたが,単純に会話を楽しむ雑談のものもある(MSでいうとりんなちゃん).ユーザーは気持ち的に,タスク処理のシステムにも雑談を求めたくなるので,ディスジョイントに扱うことは現実的でない.雑談を意図したユーザの発話を認識できるかという課題がある.8時のアラーム設定タスクを処理した直後に,仕事しんどいという愚痴を聞かされて対応できるかという問題である.これはユーザの発話の分類問題として定式化される.ただ分類するのではなく,外気温や検索ログなどほかの知識も利用することで分類を手助けする.提案手法ではGRU言語モデルを学習し,対数尤度を特徴量にした.

テキスト解釈・トピック分類と異なり,対話はユーザ個人の好みに依存して客観的な答えは定義することが困難である.客観的に見れる部分問題の議論や設計者の天下りによる正解の定義はユーザを喜ばせられるかが非自明.
そこで発話だけでないクリック数などの特徴量をとることにより,ユーザは満足して使っているかどうか認識しようとする手法を提案.タスク処理に土江は満足して使える状況というのは人間が機械に合わせることなく一問一答に答えてくれるようなスイスイ対話が進む状況であうからである.

冒頭で大勢のユーザとの関わりを述べた.大勢のユーザからデータが得られるため,さらに自発的な学習を行うことが現実的になりつつある.例えば,「アラーム」「アラームの検索結果です」「アラーム設定して」といったユーザの修正発話を集めると,「アラーム」だけで設定にシフトしてくれるように学習できる.修正したという事実が半教師になるほか,もろもろの特徴量を設定する方法を提案し,SVMによる10holdCVで検証,成功した.

「感想」 タスク処理システムに雑談を求めたくなるのはとてもとてもわかります.筆者もよくやってしまいます.コルタナはタスク処理システムだが,MSの対話システムに言いたくなる言葉として「お前を消す方法」という質問があります.Officeのカイルくん時代のネタですが,公式ネタになってしまったのかコルタナは答えてくれます,とても悲しそうに.「それ,カイルくんも言われたって言ってました……」.また,クイズで遊ぶこともできる.カイルくんよりずっと進歩している時代になったと思います.
 

企画セッション1-3

発表者:JST 中澤 敏明(敬称略)

概要

ニューラル翻訳について.統計翻訳の完全上位互換ではないものの大意把握には十分な能力をニューラル翻訳は発揮する.さらに様々な軽量化が行われており,出版に直接使うにはまだまだ実用的ではないが,今後も強化されていくだろう. ニューラル翻訳の実現により,非欧米系言語である日本語であっても人間に匹敵する制度で翻訳できるようになった.ニューラル以前のフレーズベース統計翻訳によるデコーディングが用いられており,ビーム(いれもの)サーチにより良いパスウェイを見つけている.ニューラル翻訳では訓練データ開発データ試験データを翻訳機に突っ込むという単純なつくり.翻訳機の中身では(先の発表にもあったような)RNN2つを組み合わせた設計.Googleは層数が数の暴力.

ニューラル翻訳の弱点は,ビームサーチによるスコア付けが重たい計算でありさらにシーケンスの末尾文字までで打ち切るという操作をしないと終わらない.この<EOS>をいれることで,入出力の対応が一致しなくなることがある.<EOS>が出力されたら完了としてしまうので入力を逐次訳す統計翻訳と異なり欠損を生じうる.しかしこの柔軟性ゆえ,めちゃくちゃな英語でもニュアンスをくみとれる場合がある.
You can not a IC card.とかいう意味不明な文を「ICカードは使えません」とできるのが特徴的.

ただやはりこのぼんやりさはフレーズベースと異なり説明能力がなくなってしまう.また,ほかの課題として訳ぬけと重複,語彙サイズの問題がある.語彙範囲外は<unk>(nown)という記号で置き換える.語彙サイズについては単語の部分sub wordを考えることで語彙数のわりに高精度を出せている.しかしsub wordはしばしば悪さを行い,知らない単語を細かく分けすぎた結果訳が崩壊してしまう.統計翻訳では未知語はそのままにしてくれていたのに……どうして……うぅ…….

重複や抜けはどの単語が翻訳されたかアテンションをあてて解決しようとしているが五分五分レベルである.アテンションなしのものを考えていくと,実は隠れ層が入出力をつかさどっていることが分かった.

一方で,記号置き換えの統計翻訳と異なりただのベクトルになっているため多言語対応が容易.ほかの言語のコーパスを介することで未知言語も対応しやすい.多言語対応というのは,訳す方向を指定すると,すべての言語対の大役こーおあすを同時に使うだけで,いろんな言語が混ざっていても大丈夫という事態である.
また,統計翻訳よりデータ自体は大変軽いのもニューラル翻訳の特徴である.巨大な行列だけあればよいニューラル翻訳と,フレーズテーブルと言語モデルの膨大なデータを要する統計翻訳である.計算時間はニューラルのが重いけど.これをさらに軽くして言ったらギャラクシー6ですら動いた.さきほどの発表でCNNも有用としていたが,翻訳についてもCNNにより軽量化を図る研究が顔本によりされている.さらにGoogleはフィードフォワードだけでRNNもCNNもなく計算できてしまう論文を書いていた.先日の招待講演で挙げられていた代名詞の問題がほぼ解決している(NNはダメというのはなんだったのか).しかも実装がどんどん易しくなっているようだ.

「感想」Googleは研究者ころしまくってそうだ…….上の多くの研究はGoogleが次々と出した研究結果です.結論としては,出版など正確な訳が必要な実用にはまだ遠いものの大意把握レベルでは十分実用的というのがニューラル翻訳の良いところということでありました.統計翻訳のニューラル翻訳に対するアドバンテージはあるようですが,やはり全体的な有用性においてニューラル翻訳に敵わないでしょうか.
 

ポスター

諸事情で一つしか発表は聞けていません.

D1-13: 構造化データにおけるベイズクラスタリング精度について

著者:産総研AI研究センター 山崎 啓介(敬称略),ほか
概要:ベイズクラスタリングのラベル推定精度は,同時独立にデータが得られている場合は著者により解明済みであった.この解明の中では同時独立性により,推定精度の主要項(実対数閾値)は学習理論のゼータ函数の最大極として特徴づけられ,代数幾何学的に求められる{通称,渡辺(澄夫)理論}.しかし,同時独立性がない場合は未解明であった.同時独立性がない場合は系列データやグラフデータで現れる重要な状況である.同時独立性がないために,上述したような代数幾何学的なフレームワークを直接使うことはできない.本研究では,変分ベイズ法における学習係数の導出と似たフレームワークすなわちガンマ函数の漸近展開を利用して,推定性能の上界を導出した.より正確には,自由エネルギーFnF_nの上界を導出しているが,変分ベイズ法と異なりこの問題では汎化誤差GnG_nとの関係式

E[Gn]=E[Fn+1]E[Fn]\mathbb{E}[G_n]=\mathbb{E}[F_{n+1}]-\mathbb{E}[F_n]

が成立するため,汎化誤差の上界もただちに得られる.また,ベイズ法における渡辺理論とは異なった主要項のオーダーが得られた.

企画セッション2-1

発表者:名古屋大学 竹内 栄二朗(敬称略)

概要

自動運転技術が従来のロボティクスの物理ベースな制御と最適化で限定的に実装されているが,今後のより複雑なモデルを扱うにあたり学習への置き換えが有効.しかし学習を行うとしてもただなにかデータが大量にあればよいのではなく,制御に必要なデータでなくてはならない. DARPA,Google,Daimlerなどによる自動運転の研究2007-2013.公道での自動運転が現実的になりつつある.名古屋大学も模擬市街地の作成など本格的な実験を行う設備を構築した. ここで研究している自動運転は運転補助システム.

10億点からなる高精度な3次元地図を用意.それを認識するときには地図の大きさが問題になるが,点数にのみ依存する(広さに依存しない)アルゴリズムも考案した.

運転支援の例として,熟練から高齢ドライバの運転データの収集を2000km以上にわたり行う.また,画像認識で人型を認識し,徐行及び回避運動を行う.このように,運転支援はいろいろできるが自動運転というには限定的であった.
現在,信号処理の研究室と結託して自動運転を考えている.運転中は様々な信号があるため信号処理による系列データ処理を応用したい.
また,CNNの利用も行っている.ロボット出身としては大量にデータがあれば走れるかというのは疑問.ただ大量の運転データがあればいいわけではなく,制御してる時のつまり出力のズレを入力により消しているときのデータが必要である.

航路計画の構築に画像認識.しかし視野が制限されることもある.視野制限化では状態変数として観測状態を追加すると,よくある「右見て左見て」を行うようになった.計算時間はネックだが,準最適解で動くならそれでいいので最適解のために時間をかけなくていい.動作計画には評価値を最小にする組み合わせを求める問題で難しい.Deepは入出力の対応なので単純であり,計算時間を落とすために深層学習は使える.

ある種の最適化問題を解いてきたロボティクスにより,ある程度の自立移動を実現できてきた.これらは学習により置き換えられる.複雑な場合は学習による制御がロボティクスを超えることも近いか?
置き換えの際は学習のためにどのようなデータが必要であるかを両側面から考えることが重要.

収束性の議論は学習理論(?)などで学習に置き換えた後に考える.

「感想」 次の2-2ではガリガリに深層学習などの学習を使って制御している一方でこちらは補助的に・古典的に使っている堅実な研究でした.自動運転関係ではレベル4案件ばかりセンセーショナルに報じられているようですが,招待講演2にもあったような人を助けるAIという意味で運転者補助システムという堅実な領域の研究ももっと注目されてほしいと思いました.特に,学習の問題に置き換える際にもともとの物理的な観点や制御システムの観点から必要なデータを用意するという,両方の関係を考慮すべきという点は知られてほしいと感じました.また,学習による制御則では制御理論的な収束性の議論が可能かどうかという問題がありますが,学習理論が関わる可能性が生じるというのは新たな理論の問題・新しい数学が生じる可能性を示唆していてとても興味深く感じました.
 

企画セッション2-2

発表者:PFN 高橋 城志(敬称略)

概要

ロボットへの機械学習.従来の制御則は費用や実装及び適応の速さなどの観点から広く今日も用いられ続けている.これらは環境をモデリングしている.一方で,近年はロボットが扱う問題は複雑化し,環境モデリングが困難であることも多い.また,工場のロボットのように比較的生産数が多く種類が少ないというより,個人レベルの少数多種な知能ロボットが求められている.このような状況では物理モデルベースの制御は限界が生じてくる.環境認識に機械学習を用いる研究から,制御則の強化学習まで様々な解決策が学習により提供され,新たな問題とその解決も提示されている.このときハードウェアとソフトウェアは不可分である. ロボット制御のプロセスは認識.計画.実行という一連の流れである.例えば3次元の物体は姿勢と座標で6次元.これを掴んで動かすためには6自由度のロボットアームが必要.書字など制限がつくと必要な自由度が減る.人の腕は7自由度でありこれを冗長自由度という. 順運動学は姿勢から座標を求める.現実的に必要なのは座標が与えられたときどんな姿勢でそれを実現するかという逆運動学である.冗長自由度を持つと次元が一致しないため解は定まらない.しかし障害物などの制約に備えるには冗長自由度が必要.人がコップの水をこぼさずに口に運ぶなど.

間接角度はまだしもトルクが絡むと問題は非常に難しくなり,またこれからのロボットは環境のモデル化により速さと生産性を得ていた工場ロボットよりも個人レベルの少数多種になり,それぞれも布など複雑な物理系を持つようになる.モデルベースの限界が見えてくる状況であり,認識ステージに機械学習を用いる研究が始まり,画像や音声認識について解決可能な問題が増えた.

従来は身体と知能を分けたロボットであったが,これからは不可分と考える.身体性人工知能(Embodied AI)である.ルンバがその原典.当初は環境はノイズを生むだけの邪魔ものであったが,環境を組み合わせた手法が現代的.ルンバはセンサーとモーターを簡潔に組み合わせたが,あれだけ複雑に部屋を動くことができる.

確かに学習により複雑な問題でも解決可能なものが増えた.しかし課題もある.ロボットは修理すると電流値など変わるので実機に学習させまくるのは故障の恐れからできない(堂々巡り).一方でシミュレーションでは結局実機で再学習を要する.汎化性能をあげても全く未知な状況には適応する能力が低く,再学習していては即時対応が困難.この問題をどうするか?

試行回数を減らすために,シミュレーションと実機を交互に学習することを提案した.ただし学習回数そのものは多い.そこで強化学習だけでなく教師あり学習を組み合わせることで,試行回数を減らすことができた.教師ありで組み立てるには教師を用意することが困難だが,強化学習のような膨大な学習回数を減らせる.また,人間が一部教師として介入するため,強化学習的なヘンテコな動きはしないようにできる(強化学習では避けられなかった,中指を立ててボールを掴んだりするのを避けられる).
ではその組み合わせるシミュレーションと実験との差異はどうするか.物理エンジン(?)を精密に作る.まだ課題は多い.
道の状況への即時対応能力については,異なる方策を保存しておき身体モデルを変更することで対応する.

ソフトウェアとハードウェアは不可分である.

「感想」 体と心の不可分さは移植手術などにおいて警鐘が鳴らされているものですが,ロボットと人工知能についてもハードとソフトの不可分性が重要になっているというのは興味深く感じました.人工知能界隈はソフトばっかこだわっているなんて言う意見が世の中あるようですが,こういったハードウェアとの良い関係を考えている研究がちゃんとあるというのはもっと広く知られてほしいと思いました.
 

企画セッション2-3

発表者:電気通信大学 中村 友昭(敬称略)

概要

階層ベイズによるマルチモーダル学習.マルチモーダルとはすなわち概念のこと.クマのぬいぐるみという物体には「ぬいぐるみ」という単語・音声,ふわふわとしたやわらかさや大きさなど様々な語彙・概念が結びついており,これを学習することで人工知能が物体を認知できる. 概念や言語を学習するのだが,言語獲得アルゴリズムを確率モデルを用いて実現する.確率モデルが階層ベイズで与えられる.では概念とは? 工学的には現実から所得した様々な情報を分類することが概念形成である. 語彙はマルチモーダル情報として単語を追加し,単語も含めたマルチモーダルな概念を形成する.これにより,ぬいぐるみという単語からテディベアの画像やそのやわらかさなどのマルチモーダル情報を確率的に予測可能である.

語彙の獲得では語彙が必要.ごーる,ぼーる,ぼーうは音声認識で区別するのは難しく,さらに仮に音声の問題を乗り越えても「これはボールだよ」を正しく構文解析できるとは限らない.語彙がないため仕切りが不明なのである.

提案モデルでは,概念形成と同時に語彙・言語モデルを獲得させることができる.物体カテゴリと言語モデルを結び付けたモデルを作る.
音声認識「これわぬいぐるみだよ」を行うと,聞き取ったこれを単語区切りをする.ぬいぐるみという単語とぬいぐるみの物体を結び付けて音声.物体.単語の概念形成とぬいぐるみという語彙を同時に所得する.
学習初期は語彙が足りないためご認識が多く,従来に負けるものの時間をかけると従来より高精度である.
初期:「あhすfsghsどzfのえ」
20時間後:「これはぬいえるみ」(「これは」も単語として意識してしまう)
ここで「ぬいぐるみ」という教師を与えて再学習すると「ぬいうるみ」というように「これは」を除去できる.
最終的には正確になるにはなるが,例えばパソコンとキーボードの区別がつかないなどは生じる.

物体以外も概念を持つ.人の行動シーンから物体や人だけでなく場所や動き概念を形成する.さらに概念クラスに順序規則を考え,それを文法として学習する.提案手法では複数概念モデル(mMLDA)と文法モデル(HSMM)を用いて文法と概念を相互に学習.この獲得した概念と文法からシーンを説明させる.提案手法では文法も意味も正しいものが7割近く生成できていた.これは相互学習しない手法の16%よりずっと大きく,相互学習なしでは文法とお意味の片方しか正確にできなかった,

動作データを統計的に分節することはこれまで考えられていなかった.
人による手動が多かった.モーションキャプチャデータを分節することでより正確に観測できるようになった(?)

ここまで紹介してきたモデルは,基礎的なモデルの結合によって構築している.統計モデルの統合による大規模なモデルの構築で汎用AIを目指す.

「感想」 mMLDAのもっと数理的な話を伺いたかったですが,得られている結果はかなりすさまじいものです.そして発表の中で様々な動画がありましたが,確かに「自分が育てた人工知能」がかわいくなってくるという話はあるだろうなあと思いました.特に「ぬいぐるみ」と言えるように・物体を認識してそれを「ぬいぐるみ」と言えるようになるまでの訓練課程が言葉を覚えようとする赤ちゃんのようでかわいく感じました.

3日目

企画セッション3-1

発表者:産業技術総合研究所 小林 匠(敬称略)

概要

カーネル法を参考にして数理的に画像の特徴変換手法を作った.人為的特徴量についてはテンソル構造に着目し,汎用性,弁別性(認識性能)はともに向上しさらに計算コストも小さい.CNNによる学習的特徴量は距離尺度をカーネル函数として学習し,性能向上に成功した.CNNの構造の違いも取り出せていることが示唆されている. 機械学習における数理的な手法が画像認識どう使えるのだろうか? まず特徴量変換を考える.これはCNNやSIFTにより抽出された特徴を,$L_2$正規化などで規格化する.そうして判別処理や識別処理を行い,認識結果を得る.画像データそのものに近い段階の操作から認識結果を得る前までの操作が,ヒューリスティクから理論的手法に対応する.すなわち,特徴抽出や特徴量変換はヒューリスティクスよりである.特徴変換というものは汎用的な方法でデータにより処理を変えない・そして識別能力を向上できる弁別性を持つものとして本発表では議論する.

変換の対象となる特徴とはなにか.hand-crafedに取り出した人為的ヒューリスティックな特徴である.一方,学習的特徴量として画像学習済みのCNNで取り出すものがあげられる.

特徴変換は非線形がちであり,距離尺度を変更する操作である.主にヒストグラム特徴に対する手法が提案されてきた.ここでは特徴の物理的構造・特徴量のテンソル構造に注目する.尺度はSSIM.
画像特徴量のテンソル構造は,2次元データと1次元特徴量という3次元アレイ・3階テンソルである.従来はテンソルではなくベクトルとして扱っていた(MATLABのA(:)A(:)かな).提案手法ではテンソルのまま扱う.
テンソルの各軸にそった特徴即を一つの単位として,そこでの距離尺度を考えることで自然に扱える.上述したSSIM(Structual Similarity Index Measure)は,画像品質評価(劣化の度合いなど)を定量的に指標として用いる.ヒトが見ても「ノイズのってる」「きたない」「くさそう」といった定性的主観的なことしかわからないがそれを定量化する尺度である.
明るさM,コントラストV,パターンCの積で定義される.パターンは相関係数そのもので,明るさとコントラストはそれぞれ平均値と標準偏差の類似度である.類似度は

k(a,b)=2aba2+b2k(a,b)=\frac{2ab}{a^2+b^2}

を用いる.ロバスト性を考慮すると,SSIMは積より和が望ましいので和に変えて扱う.る字度Sをexplicit mapの内積へ展開する:

S(x,y)=wMM(x,y)+wVV(x,y)+wCC(x,y)=ϕ(x)Tϕ(x)S(x,y)=w_M M(x,y)+w_V V(x,y)+w_C C(x,y)=\phi(x)^T\phi(x)

カーネル法の発想を応用している.この写像をどう作るか?
まずM,V,Cについてのexplicit mapを用意しその直和でϕ\phiを作る.
Cは相関係数なので自明だが,M,Vで工夫が必要でこの研究の数理的キモの一つ(詳細は略された).数値計算は早くかつ強い性能を出した.

上では人為的特徴量の変換を行っていたが,CNNで得られるものは「よくわからない」特徴なので,テンソルという構造に注目するなど対象の特徴量の特性に沿って距離尺度=非線形カーネル函数を作っていた方法は使いにくい.なので距離尺度も学習で作ってしまう.汎用性と弁別性を高くしながら学習で作りたい.

出発地点は加法的カーネル表現である.函数を1から学習するのはつらいので,フーリエ展開的に基底函数を導入し,基底の線型和で学習.係数行列を学習するといえる.

k(x,y)=i=1Df(xi)YWWTf(yi)=tr(F(x)TWWTF(y))k^*(x,y)=\sum_{i=1}^D f(x_i)^Y WW^Tf(y_i)=tr(F(x)^TWW^TF(y))

としてカーネル函数kk^*をかける.ここでFは基底である.

しかしこれだけではデータに特化してしまう.学習タスクごとに解が異なるが,それらの”共通部分”を合成により得ることを考える.タスクは20種類用意した.この”共通部分”が特徴の本質表現になると考えられる.
共通表現はSVDで抽出した.

[Vi]=W[AiT][V_i]=W^*[A^T_i]

にて左辺が識別機たちで右辺が”共通の”係数行列WW^*とベースである.右辺にSVDを用いてパターン発見.ベースはフーリエ基底.
C3D,Alex,VGGの3種のCNNをそれぞれ適用し,ビデオや画像の認識をタスクとして与え,本質表現を上の方法で学習させた.個別正規化と比較してほぼどのCNNでも向上している.また,いずれのCNNモデルでも似通った形状のななめらかな函数が学習で得られた.この学習されたカーネル函数はCNNの構造を意味していると考えられ,VGGを基準にするとタスクが似ているC3Dとは極大化元の位置が異なり形状は似ている,データのモダリティが似ているAlexは形状がやや異なり,極大化の場所は似ている.

上のCNNの距離尺度はコネクションのなかにいれてエンドtoエンドに混ぜてしまえばいいのでは? というのはDNNがそれを埋め込まれたとして一緒に学習できるかは不明.また,データを変えてもこの方法なら簡単に距離尺度を再学習できるメリットもある.

「感想」画像認識における数理構造を聞くことができてとても興味深く感じました.本質的な表現を函数として学習するとその可視化がすなわちCNNそれぞれの構造の可視化になるという点が深層学習を理解するという観点からも重要であるのでとても面白かったです.
 

企画セッション3-2

発表者:大阪大学 菅野 裕介(敬称略)

概要

学習ベースの視線推定ではやはりデータ作りが重要であり,特に実応用のためにはラボ環境のデータでは難しい.ラボの外に出すことができれば,そして従来の高価で汎用的でないハードウェアではなく学習によりカメラなどに組み込むことができれば応用範囲がとても広がる.実応用にはドメイン知識や目以外の情報もデータとして重要となる. 視線推定:人物がどこを見ているかを計測し推定する.広告への応用や,人間の内部状態を推定するための特徴としてどこを見ているかを使えるというような応用がある.古くから数百万円の専用ハードウェアでできてはいたが,より簡便にできるかを考えるのは同時に古くからの課題である.

コンピュータヴィジョンの観点からいうと,カメラベースの視線推定が考えられる.従来手法では実現できないアプリケーションとしてHRIや一人称視点映像解析や公衆空間での注意推定ができるようになる.従来のものは目の画像から眼球の向きを推知する方法であった.この画像ベース自体も学習でできるが,個人ごとに学習する必要があった.

人物に依存しない学習はできるだろうか? 複数のカメラから目元画像を撮影したものをデータセットにして工夫すると,個別に学習したものにはかなわないものの個人ごとに用意しなくていいことを考えれば悪くないパフォーマンスが出せていた.ズレは平均6.5°.学習はCNN.

実応用ではラボ環境より難しい状況で視点推定しないといけない.協力者に普段使いのラップトップに目の撮影アプリをいれてもらい,様々な照明の下でのデータを用意した.ラボ環境のデータセットとこれを比較すると,データセットの違いによる性能の違いが顕著である.問題が難しいため性能はズレ13度ほどと大きくなってしまいはしたが.これは照明条件の変化が重要な要素であった.

リアルな眼球モデルをプロの撮影画像に当てはめて,様々な照明条件のデータを得た.実験結果は,むしろ視線方向がどれだけとりうるかが支配的だった.性能を上げたければ視線方向の範囲を狭めると問題が簡単になりうる.また,目は簡単な画像に見えるがより深いNNを使うことで高々9度のズレで抑えることができるようになった.

顔画像全体から空間的な重みを生かして学習すると,従来の片目ずつ使う方法に比べて平均誤差4.8度という高性能を実現.しかしCNNによることもあり,何が起きているか理解できない.

この手のHCI応用研究はラボと外の世界でかなり性能が異なってしまう.domainによる違いも顕著.アルゴリズムの問題より学習データをユーザから得るシステム設計の問題のほうが重要であると推測される.パブリックなとこにディスプレイを置いて視線推定で遊びに来た通りすがりの人からさらにデータを得るなど.

「感想」たまーにTwitterでオタク街のオタクの視線を示す画像が流れてきたりしますが,その視線推定の研究の紹介(ツイのアレが視線推定なのかテキトーなペイント加工なのかは不明ですが……学会でお聞きしたのはもちろん大真面目な話).眼球を目から捉えるという従来法もすさまじいことをするなあと思いましたが,学習ベースではまた違ったドクトリン.招待講演2で説かれていた文脈理解の必要性を感じる結論と課題になるほどなあと.
 

企画セッション3-3

発表者:早稲田大学 飯塚里志(敬称略)

概要

深層学習による画像変換の困難さとGANなどの深層学習によるその解決.モデル,アルゴリズム,データセットという問題それぞれが生じる状況とその現時点での解決策を示す.具体的にはそれぞれ大域的な特徴と局所的な特徴を同時に捉えらえるつなぎ方をする,GANを用いる,典型的な回転などだけではなくGANによる生成も用いる,であった. 画像を変換するのもDNNが使われている今日.CNNは手動で設定するには困難な特徴量を抽出する.画像変換では特徴量は高度になりがちであるためCNNが強力である.しかし,目的の画像変換を実現するための課題として,モデル構造,学習方法,データセットがあげられる.モデルについてはどんな構造や特徴が必要かがどんな変換かによる.一般的な損失函数で学習してもうまくいかない場合は方法がネックとなる.イラストなどデータを大量に集めることが難しいものもある.

モデルの課題として着色問題がある.着色問題は白黒という低次元からカラフルという高次元への写像なため難しい.教師データの作成は簡単だが,画像全体としての情報と,局所的な情報の両方が必要になる.セグメンテーションと認識だけでなく,シーンそのものの認識も必要である.例えば室内と認識できなければ天井は真っ青な空になるかもしれない.そもそもその画像に何があるかを認識できなければどこが空・天井化もわからないからである.大域特徴と局所特徴(fully CNN)を同時に学習することで解決.モデル構造は大域と局所それぞれのDNNをマージして輝度マップを行っている.また,近年ユーザの入力付きの着色という編集ソフトとして使える対話的着色の研究もされている.これは入力された白黒画像にユーザが塗りたい色の指定を大まかに行うとその通り出力を調整できるということ.現状では画像の巨炊データはともかく,ユーザの入力の学習はかなり単純な状況.

学習方法としては画像補完.不要物体の除去や遮蔽領域の生成であり,平野から牛くんを除去して牛くんの後ろもちゃんと平野にするというようなもの.しかし大域的な構造を考慮できないため,空中庭園ができたり,また元の画像にないものは生成できないため人の顔を欠損させるとお化けになる.
普通のCNNではぼやけた画像しか生成できない.そこでGANによる敵対学習で生成器と識別器を戦わせて生成結果を更新する.生成側は識別をだまし,識別側は識別し続けるという仕組み.顔の補完もできる.

イラスト関連ということもありデータセットの少ない例としてラフスケッチを自動で線画にする研究がある.数が足りないうえに,この問題では教師データも困難である.ラフスケッチと線画はズレがちだからである.着色のように逆方向データ生成できないか? できるけど少ない……そりゃあ線画をラフに戻す作業は人間がやるので.しょうがないのでトーン調整破れ,スケーリングや回転で増やす.ただ現実にはイラストデータだけはたっくさんあるので,ラフスケッチと線画が足りない.教師なしするしか……そこでまたGANを使う.ロス函数はMSEなので上で述べたようにぼやけるがやはり上で見たようにGANを使うとはっきりする.

「感想」9月の第30回IBISMLワークショップでも招待講演のなかで取り上げられていたGANによる画像変換.特にデータ数が少なくなってしまう状況での利用がかなり面白かったです.そしてどの変換も,間違うとお化け画像ができあがることもあってかうまくいった画像の精度に驚きます.また,間違えてもお化け画像ができるだけなので深層学習が実務レベルでも比較的すぐ参入しやすいドメインなのかなあと今更のように思いました.

ポスターセッション2

気になった発表.聞いた順.

T2-23: 複数の出力素子をもつ三層パーセプトロンの学習ダイナミクスの統計力学的解析 ~ プラトー現象の再検討 ~

著者:東京大学 吉田 雄紀(敬称略),ほか
概要:経験誤差の減少が途中で止まり,根性でエポックを回すとまた減り始めて……と繰り返して経験誤差函数がエポック数を横軸にすると階段函数のようになる神経回路網の学習で生じる現象がプラトー.神経回路網の基礎の基礎の初期のころから研究されていた.しかし今日の深層学習の成功においてこれが生じている図の報告は見ない.実はプラトー現象は第1次NNブームのときのような1次元出力のNNならではだったことが示唆される理論解析・数値実験結果が得られた.なお実データの場合なぜか1次元出力ですらプラトーしないこともあるらしく,その解明は今後の課題である.

T2-15: 2つの疎な行列からなる行列分解問題の変分ベイズ法による解析法の検討

著者:茨城大学 玉井 智貴(敬称略),ほか
概要:より正確には疎な行列からなる非負値行列分解の変分ベイズ法による解析である.疎とは限らない場合は研究済みだが疎すなわち0成分は定義域のバウンダリにあるため理論的な取り扱いが難しく,この研究はその基礎となるもの.変分ベイズとは,通常のベイズ法でしばしばネックとなる事後分布の数値的な実現のコストを理論的にも数値的にも減らすために平均場近似を行うという統計力学ドリブンな手法である.この発表では,変分ベイズのほかにいくつか仮定を付け加えることで解析解を導出した.変分自由エネルギーの考察はまだなため,とりあえず解析解を用いた通常の非負値行列分解のような繰り返し法とノルム二乗誤差をロスとする方法で計算すると,なぜか負の成分を持つ行列が復元されてしまった.解析解そのもの非負値性の検討や疎であるというものをハイパーパラメータでどう制御するかなどが今後の課題.

D2-13: 深層強化学習による車両と交通システムの最適化

著者:東京工業大学 大橋 耕也(敬称略),ほか
概要:渋滞緩和のための交通流制御が盛んに研究されている.従来は信号だけを切り替えていたが,信号待ちにより待ち時間が生じてしまっていた.そこで車両の進行ルートも制御することで待ち時間を減らす手法を提案,シミュレーションを行った.DQNを用いて価値函数を学習し,迂回も方策として含めることで車線数が多いと大きく待ち時間を削減できるという結果が得られた.現実にはまだレベル4自動運転ではないため,トップダウンに車両を制御するにはドライバーにルート推薦を行うしかないが,直感に反する迂回を提案されて反発するドライバーが存在することは想定される.そのため,ドライバーが一定確率で推薦を無視する状況下でも実験を行い,無視する確率が高いほど待ち時間は従来法に近づきはしたものの4割程度であれば相応に待ち時間削減ができた.

D2-16: ネットワーク解析に基づく多層ニューラルネットの大局構造抽出と理解

著者:NTTCS研究所 渡邊 千紘(敬称略),ほか
概要:深層学習は様々な場面で使われているが,その構造の理解はまだ進んでいない.複雑なコネクションが理解を妨げる要因の一つであり,LASSOなどの方法で構造学習する研究がされてきた.この研究では,DNNのユニットをクラスタリングしてそのクラスタがつくるより簡便なネットワークとして理解することで,深層学習の仕組みの解明の基礎に貢献する.EMアルゴリズムにより計算グラフの隣接行列を推測し,結合パターンが似ているユニットをクラスタリングした.おなじみMNISTの手書き数字認識において,画像のどこを見て識別しているのかが示唆される実験結果を得た.この手の階層的な問題でEMアルゴリズムは信頼性が非常に低いが,実はすでに変分ベイズ法によるより信頼性の高い実験も行っており,EMアルゴリズムによるものも含めて発表済みである.

招待講演3

発表者:東京工業大学 渡辺 澄夫(敬称略)
代数幾何学による構造学習理論の構築・広く使える情報量基準(WAIC,WBIC)の考案者.
今回は専門的な話というよりゆるい話.
資料はこちら.動画は発表者ホームページ

概要

学習理論の未来について.過剰な人間力が日本の未来を閉塞させている.この解消にはやはり数理科学が必要である.WAICは揺動散逸定理,情報(情報科学)のエントロピーと熱力学(自然科学)のそれが全く等価である,というように,情報学習理論は物理を通じて自然へ帰るのかもしれない. かれこれ30年も前の話.学習の基礎研究.例をもとに学習し推論を獲得するという枠組みを研究していた.実社会に行くためには「死の谷」を超えなくてはならない.学習は最近ここを「人間力」で突破した?? 学習は現在社会で大変広い範囲で応用されている.

日本的上司さん(企業も大学も)「辛いことは人間力構想力こみゅ力で乗り越えろ」
学習理論くん「アウトプットに学問はイラナイ」
この学習理論くん,何度も挫折をし絶望の淵に立ちながらもそこからよみがえりかつ前より強くなってきた.角刈りサラリーマンカットにネクタイをしめたスーツ姿の学習理論くん…….

人間力・構想力・こみゅ力で努力すればするほど「見かけの達成度」は大きくなる.しかし本当の達成度はどこからか落ちていく…….過剰学習と同じ.
数理科学は見えない本当のものを見かけから見るものである.過剰な人間力が抑圧しているのではないだろうか.日本製の「AI」は数理科学の割合が小さいゾ? 人間力は必要だが過剰すぎて理解が阻害されていないだろうか??
\rightarrow閉塞の解消に数理科学が必要.

学習の枠組み.trueからデータが発生し,そこから事後分布・尤度を計算して得られる予測分布がtrueになっていくのでは? というもの.なっていかない度合が汎化誤差.
従来から次が知られていた.サンプルサイズnn,パラメータ数ddとするとき汎化誤差GGの平均値の挙動は

E[G]=d2n+o(1n)\mathbb{E}[G]=\frac{d}{2n}+o\left(\frac{1}{n}\right)

である.ただし真の分布は確率モデルで実現可能かつ事後分布や尤度がガウシアンで近似できる(正則である)ものとする.

ただの正規分布と混合数2の混合正規分布を比べてみよう.前者は正則,後者は階層構造により非正則.ただの正規部布場合,データを出すたびに事後分布のピークの位置は変わるが形状は正規分布.しかし混合正規分布ではうまくいかない.

それはデータが足りないからだ! と統計学者はいう.しかしパラメータ2個でn=3000n=3000でも(現実的にはめちゃ多い)正規分布近似できない.
人間力「データが多ければ尤度はガウシアン近似できる.根性だ」
人間力が理解を阻害した.

モデルの複雑さはnnが大きくなるほど複雑になる.そして任意の自然数より大きな場所では正規分布近似できるが,nnを固定してみれば非正則なのは自然.
サンプルサイズnn,パラメータ数ddとするとき汎化誤差GGの平均値の挙動は

E[G]=λn+o(1n)\mathbb{E}[G]=\frac{\lambda}{n}+o\left(\frac{1}{n}\right)

である.ただし真の分布は確率モデルで実現可能とする.
この係数λ\lambdaは実対数閾値と呼ばれる数学的(代数幾何学的)な量.
モデル依存で山崎青柳など様々な人が各々のモデル(混合分布,縮小ランク回帰など)で研究している.

モデル選択について.人間力「現実をみてがんばって統計モデリングしろ」
どんなモデルを選ぶか,どんなモデルがどれだけ間違っているかを数学的に得られる方法が赤池先生の衝撃的な成果.AICである.

次元の呪いとの闘いが機械学習ではあった.そして1993年に階層構造により解決できると発表された.しかし,階層構造を持つとAICは使えない.
そこで生み出されたのがWAIC.汎化損失を経験損失と事後揺らぎで平均的にかくことができる.これは揺動散逸定理と等価.この自然科学の定理と等価になるのは実は必然(後述).

データ科学と機械学習の違い.これは双対構造である.データ科学はデータを説明する.機械学習はデータを予測する函数を作る.データと予測器それぞれが互いに函数・引数になるという双対構造.どちらも大切なものであり,数学的には「等価」.実務で両方必要となる.お互いに相手に「こうあってほしい」という気持ちがあるが,数学的に等価であるもののそれぞれ異なる姿も持って発展してほしい.

機械学習と人間の関係.学習だけでなく人間も変わっていかなくてはならない.数学も物理も学習理論も宇宙人も持っているだろう.しかし神経回路網はどうだろうか.全く異なるとても強力な方法を持っているかも?

自然と情報科学.様々な場所で数理により密接なかかわりが示唆されてきたが,実は似ているどころか同じである.学習理論くんが従う法則も自然科学と無矛盾であるはず.情報エントロピーと自然のエントロピーの等しさなど(マクスウェルの悪魔も参照).量子コンピュータがあれば量子深層学習である.
学習理論は何処へ? 学習理論は自然へ帰るのかもしれない.

「感想」数理科学軽視な人間力過剰重視が日本を閉塞させているというのは,きっと社会に出たらとても強く感じてしまうんだろうなあと悲しい.来年以降もこの年に一度の学会に癒されに行きたいなあ.なお,発表者いわくこのことは日本企業だけでなく日本の大学でも同様のことが起きているという.確かに最近の大学の予算配分やカリキュラムやら教員公募やらの状況は……に見えます.数理科学を軽視しない環境じゃないと私は生きていけない気がする(得意なことで生きる場合,人間力で機械学習を使うのは苦手なので)ので何とかそういう環境を探索したいなあとも思いました.
 

むすび

今年は企画セッションがすべて応用という珍しい編成.その中で最後に理論の今後を持ってきて数理科学の大切さの講演という采配.メインイベント中のメインイベントを最後に持ってくることで全参加するモチベーションを参加者に与えたのでしょうか.企画セッションでの応用というのも,サービスレベルの実応用からより基礎的な観点まで大変多様性があり,すべてを聞くと基礎からサービスまでの中でどのように研究がシフトしていきどんな問題が生じるのかを抽象的に把握できるかもしれません.或いは応用されているものの理論解析という研究も多く,国際会議採択論文のNIPS勢の多くやいくつかのポスターセッションなどで見られました.一方で,上には書きませんでしたが,「T1-04: 確率行列分解の実対数閾値とBayes学習への応用」や「D2-52: PU-データに対するスパースSVMの同時セーフスクリーニング」は理論やアルゴリズムの研究ですが,実応用例としては潜在的な応用を挙げており,このように興味駆動の理論研究ももちろん存在します.理論から応用まではもちろんのこと,そのモチベーションにも多様性がありとても勉強になりました.

参考文献

IBIS2017公式ホームページ:http://ibisml.org/ibis2017/
その他,上記記事でリンクさせていただきましたWebサイト
Ghostの使い方がまとまったとても丁寧な内部ウィキ

本当のむすびと謝辞

さて,ここまで応用数学であるところの統計学・機械学習のお話を書いてきました.特に最後の講演は,過剰な人間力が数理科学を軽んじることにより,見えない本質を見ることが閉ざされてしまったとし,数学の重要性を説明するものでした.応用数学・数理科学の大切さのお話はここでおしまいです.そして何という名采配でしょうか.明日の記事は,数ヤ数学科のPolyさんの記事です! どうぞお楽しみに!!
最後になりますが,ここまで読んでくださった皆様,本当にありがとうございました.また,AdC運営の皆様におかれましては,このような記事を書く機会をくださりありがとうございました.あと,記事が数学ネタじゃない場合ごめんねPoly.

Keijan\mathcal{Keijan}

この記事を書いた人
Keijan

M2 ゚-゚).統計的学習理論(L。□_□)や数理・代数統計学(λ゚∀゚)λが好きです(´∞`).たくさんの人間力により統計分析や機械学習を使ったりシニカルなことを言うのは得意ではありません彡 ´Д`).

この記事をシェア

このエントリーをはてなブックマークに追加

関連する記事

2017年12月13日
私が英弱な理由を考えてみただけ
dain
2017年12月13日
チズケ破壊論
whiteonion
2017年12月11日
面白いカードゲームの話
mtikusk

活動の紹介

カテゴリ

タグ