藤野の散文-私の暗黙知-

毎日の中での気付きについて書いています

次世代検索エンジンの前に

googleの出現以来、「次の検索エンジン」についての議論は常にあるが、まだ確定的な結論には至っていない。
要は「画像と音声」のデータの処理についてまだスタンダードがないことが原因だが、ふとこんな風に考えた。

OCRのような「画像データ→文字認識」というものもある。
youtubeよろしく、限りなく増える画像データは、将来すべて「テキスト翻訳」されて、テキスト上での検索に置き換わるのではないだろうか。

ただしテキストデータでは、一番肝心な「画像の美しさ」とか「音の解像度とかリアリティ」は分かりにくい。
そうした画像・音声データの"品質の記述の基準"が確立されれば、いま混沌としているビジュアル系のデータのデータ化と検索は一気に進む。
つまりきぞんの「google検索」で十分事足りるだろう。
ネックは「画像・音声のテキスト評価基準」ではないだろうか。

音声データの末尾に「128k録音」とか「1Mbps再生」と言う風にタグが付けられれば、いまのテキスト検索とレベル的には何ら変わらない。

問題は「さらにその中身の質」についてだが、それは今のテキスト検索で同じ問題が待っている。
自分は「そこ」についてはまだ人の手が必要で、知識を持った編集者が「カテゴリーを仕切る」というディレクションがないと、今のテキスト検索も頭打ちになるのではないかと思っているのだが、それはともかく。

まず今の画像・音声の検索の壁を超えるのは、まずは"テキスト化"ではないかと思う。
いずれはもっと別の「イメージ検索エンジン」なんて出てくるのかもしれないが、今のところ「検索技術」とはすべてその"index"にかかっている。
どんどんイメージや音声をテキスト化する技術が進歩すると思うのである。