次世代の操作。 - 藤野の散文-私の暗黙知-

以前、コンピュータの操作にマウスやキーボードではなく、しかしタッチパネルでもなく「視線で操作できるeyeカーソルのようなもの」ができたらなあということを書いたことがある。

なんと研究はすでに実用化に向かっていた。
空間に浮かぶ「虚像」をスイッチにしてコンピュータを操作したり、
耳にイヤホン型スイッチを入れて、表情を読み取って指示を出したり、

そして出ました、「視線スイッチ」。

「赤外線カメラでユーザーを撮影し、瞳孔と反射光の位置および形状から視線の動きを算出する」そうである。
これで、今webを閲覧する時に必要な「手の動き」は、極論無くて済む。

これだこれだ。

バーチャルな感じ。

けれど、マウス以来大した進歩のない「インターフェース」についてのこれらの試みは、ちょっと方向性が本当に正しいかどうか、疑問に思う部分もある。
何せ、これらの試みは、従来に比して格段のリソースを使う。
ハードの価格が劇的に下がったからこそ可能になった、「既存の財産の上」に成り立っている応用技術、と言っていいだろう。

pc一台ずつにvideoカメラが付く、ということも驚きだが、さらに「赤外線視線解析装置」が備わるとなれば、これは相当な双方向精密機器である。
スマホとpcはこういう部分でも「統合」されつつあるのだろう。

日経の最後には妙な技術も紹介されている。
スマホのインターフェースとしてAR「拡張現実（augmented reality）」が注目だという。
これまでのような「被写体にデジタルの仕込み」があって、撮影してから情報を表示する、というのではなく、純粋に物体を撮影して、それにデジタル情報が紐づくのだという。

これは顔認識で被写体を特定し、対象が公開しているSNSなどのユーザー情報をデータベースサーバーから取得して表示させるという技術。ユーザー間のコミュニケーションが円滑になると見込まれる。

街中でパチッと撮った写真に、その人のSNSのアドレスや、ブログの所在などが表示される。
いよいよアナログ情報にデジタルの手が伸びているようだ。
まだまだ感性には遠いと思うが、それがデジタルの最終到達点なのかもしれない。

>>
ＰＣに広がるジェスチャー操作、究極は「視線検知」変貌するＵＩ（３）

　パソコンに代表されるコンピューター機器の操作が、おなじみの「GUI」から「NUI」［注1］に移行しつつある。NUIとは、ナチュラル・ユーザーインタフェースの略称で、「触る」「動く」「話す」「考える」といった人間の自然な動作によって機械に命令を伝えるための仕組みを指す。前回（本連載の第2回）は、スマートフォンの普及によって急速に浸透し始めた「触るUI」技術の最新動向を見てきた。今回は、全身の動きや手ぶりなどのジェスチャーを検知することで、パソコンを触らずに操作できる「動くUI」技術の現状と近未来の姿に迫る。

ここ数年、パソコンメーカー各社が取り組んでいるユーザーインタフェース（UI）技術の一つが、「モーションキャプチャー」。ユーザーの動作を検知し、パソコンの操作に反映させる技術だ。簡単なしぐさで直感的な操作ができるので、パソコンの利便性向上が期待されている。

この分野に関して、積極的なのが東芝と富士通だ。両社は一部のモデルで手を使った「ハンドジェスチャー」と呼ぶモーションキャプチャーを採用。「Windowsフォトビューアー」や「メディアプレーヤー」などの一部操作を、手ぶりで操作できるようにした（図1）。富士通のモデルでは、両手の操作も可能だ（図2）。

両社がハンドジェスチャー機能のメリットとして挙げるのは手軽さ。「手が濡れたり汚れたりしても操作できる上、リモコンのように紛失する恐れがない」（東芝デジタルプロダクツ＆サービス第一事業部の根岸伸一氏）。

こうしたハンドジェスチャー機能を支えているのが映像識別技術である。一般に、ハンドジェスチャー機能では、パソコン内蔵のPCカメラで撮影した映像に、特殊な処理を施すことで手の部分を抽出する（図3）。リアルタイムで手の形状を捉えるのは非常に困難であるが、技術の進歩により「認識率はここ数年で向上した。使い勝手も確実に高まっている」（富士通パーソナルビジネス本部先行技術プロジェクトでプロジェクト長を務める樋口久道氏）という。

［注1］NUIは、「CUI（キャラクターベースド・ユーザーインタフェース）」や「GUI（グラフィカル・ユーザーインタフェース）」と対比して使われる用語。家庭用ビデオゲーム機「Wii」のヒットなどもあって、数年前からICT（情報通信技術）業界やゲーム業界を中心に、NUIの研究が盛んになっている。

■「Kinect」がWindowsでも利用可能に

モーションキャプチャーは、さらに広がる様相を見せている。米マイクロソフトは2010年10月、家庭用ゲーム機「Xbox 360」で利用可能な、ジェスチャー機能搭載のゲームコントローラー「Kinect（キネクト）」を発表。このKinectがパソコンでも使えるようになったのだ。

Kinectの最大の特徴は、手ぶりだけでなく、全身の動きも検知できる点にある（図4）。KinectをXbox 360のUSB端子に接続してゲームを操作すると、体の動きに応じて画面上のキャラクターや背景などが反応する。Kinect本体から赤外線を照射して、反射光などからユーザーの位置や動きを算出していると推察される。

マイクロソフトは、Kinectの技術詳細はほとんど公開していない。しかし、Kinectのセンサーを開発したイスラエルのプライムセンス社が、2010年12月にKinectをWindowsで動作させるためのツールを公開した。Kinectをパソコンで利用する道が開け、ゲーム以外の用途にも活用しようとする機運が高まった。

実際にKinectを利用した事例がいくつか報告されている。その一つが、カナダのオンタリオ州にある医療機関のシステムだ。この医療機関では、KinectとXboxを手術室のコンピューターに接続。患者のスキャン画像を執刀医が身ぶりだけで直接制御できるようにした（図5）。

こうした動きに伴い、マイクロソフトも、Windows 7向けのKinect対応ソフト開発ツールを2011年6月に公開した。非商用であれば、誰でもKinect対応ソフトを開発できるようになった（図6）。今後は、医療に限らず、教育や科学など幅広い分野での応用が期待される。

■映像に直接触れて操作

現状のモーションキャプチャーは、課題もいくつか抱えている。その一つが画面の見づらさ。PCカメラで動作を正しく識別させるには、ユーザーは少し離れた場所から操作する必要があり、どうしても画面表示が小さく見えてしまう。

フローティングタッチディスプレイは、映像をそばで確認しながら無接触で操作できるので、医療分野や工事現場など機器に触れることができない環境での利用も見込まれている。現時点では使用する光学素子の特性上、小さな映像しか投射できないが、数年以内の問題解消を目指すという。

■特定部位の微小な動きを検知

こうした操作による負担を抑えようとする試みも見られる。谷口和弘氏が大阪大特任研究員として在籍中に開発を始めた「みみスイッチ」は、顔の表情変化だけで操作可能なユーザーインタフェースだ（図8）。表情の変化により生じる外耳の動きを、耳に装着したセンサーで検知する（図9）。例えば、ウインクをしたり、笑ったりするだけで、音楽などを再生できる。

谷口氏はみみスイッチについて、「耳に装着する機器なので作業の邪魔にならず、常用しても身体に負担をかけない」としている。「外耳の動きには個人差がある。被験者のデータを集め、集中して取り組めば2年程度で実用化は可能」との見通しも明らかにした。

■目で追うだけで反応する
特定部位によるモーションキャプチャーで“究極”の形とされる視線検知の研究も進んでいる。視線検知とは、ユーザーの視線の動きに応じて、マウスポインターなどを反応させる技術のこと。赤外線カメラでユーザーを撮影し、瞳孔と反射光の位置および形状から視線の動きを算出する（図12）。

これなら視線を変えるだけで操作できるので、幅広い層に対応するユーザーインタフェースの実現が期待されている。視線検知関連の装置開発などを手掛けるトビー・テクノロジー・ジャパン社長の蜂巣健一氏は「1年から2年以内に、パソコンでの実用化を目指す」と語る。

［注2］電圧を加えると変形する「圧電素子」と呼ばれる部品。

次回（本連載の第4回）は、「触る」「動く」「話す」「考える」といった人間の自然な動作でコンピューターを操作できるNUIのうち、「話す」についての最新動向を報告する。

………………………………………………………………………………
【ここにも注目！】　未来の入力方法はＡＲになる？

スマートフォンの分野では、拡張現実（augmented reality：AR）が将来のユーザーインタフェースとして有望視されている。

ソニーが開発中の拡張現実技術「SmartAR」のデモ。カフェにあるメニューをスマートフォンで撮影すると、画像内に仮想メニューが表示され、これを操作できる
ARとは、カメラなどで撮影した現実映像に、さまざまなデジタル情報を付加する技術のこと。つまり撮影行為自体がユーザーインタフェースとなるのだ。

この分野で最先端を走るソニーは、「SmartAR」と呼ぶ開発中の技術を2011年5月に公開した。従来のARだと、対象物にデジタル情報を含んだ2次元バーコードなどをあらかじめ付与しておく必要があるが、SmartARでは物体そのものを認識してデジタル情報を表示する。同社のデモでは、スマートフォンで撮影したカフェのメニューが、シームレスに仮想的なメニューへと変化した。同社は、商業施設での簡易ナビや商品の電子カタログといった用途を見込む。

スウェーデンのアストニッシング・トライブ社は2009年7月、AR技術「TAT Augmented ID」のコンセプトを発表。これは顔認識で被写体を特定し、対象が公開しているSNSなどのユーザー情報をデータベースサーバーから取得して表示させるという技術。ユーザー間のコミュニケーションが円滑になると見込まれる。

（次回は10月25日掲載）

（日経パソコン　勝村幸博・松元英樹、ライター　中村稔）

[日経パソコン2011年10月10日号の記事を基に再構成]