音声認識の現実やBlog, YouTubeの今後やら

ITmedia News:MS、音声認識技術への対応を拡大
このカンファレンスでは、Windows Vistaに搭載される音声認識ソフト「Windows Speech Recognition」のデモも行われ、同社の音声認識関連技術へのさらなる対応拡大をアピールした。

少し前の話になるが、日本では上のような感じで報道された Microsoft が Windows Vista に搭載される音声認識のデモをしたニュースがアメリカではちょっと物議を醸しだした、まずはこの映像を見てもらいたい。

このように、デモがうまくいかなかったことがニュース(MSNBCのニュース記事のリンク)で取りあげられてしまった。

しかし、ニュース用の映像ではカットされてしまったが、この前後の映像を見ると失敗だったとは一概に言えない様子がブログや YouTube にアップされていた。

この状況はいろいろなことを思わせる。

まずは、時間の限られたテレビニュースの問題。 デモ映像をだらだら流すわけにはいかないので、失敗したところを中心に編集し「まだまだだねぇ」という一点でまとめ、見た人はそのまま受けとめてしまう。 一方通行のメディアでは真実を知ることは難しい。

次に、ニュースといった既存のメディアを補完するようにブログやYouTubeという存在が育ってきているなぁという実感。 今回も、これらニューメディアのおかげでもうちょっと詳しい背景や問題を知ることができた。 ただ、ここまでたどりつける人というのはまだまだ少数なのがニューメディアの課題だろうか。

そして、音声認識という技術そのものの問題。 オレを含めソフトウェア業界の人だと、音声認識がここまで動けば結構イイんじゃないと思うが、一般的な感覚からするとこんな誤認識おこるようじゃダメだと思ってもおかしくないだろう。 ソフトウェアそのものが一般的になり、人々の要求も高まってきていることを認識してモノを作っていかなければいけないんだなぁという警鐘。

まだ自分の中でも消化しきれず、思いついたことを書きつらねただけになってしまったが、ブログブーム、YouTube の今後と合わせて考えさせられる話だった。


5 thoughts on “音声認識の現実やBlog, YouTubeの今後やら”

  1. これ見比べると面白いですよね。私は、アプリ立ち上げやウィンドウ操作あたりがちゃんと動いていたのが驚いたんですが、Wordのみだとダメダメに見えますね。

  2. 面白いというかほんと考えさせられましたね。 アクセシビリティの向上という目的をもっと全面に出していけば違ったのかもしれないですが、技術がまだまだ斬新なだけに人々の期待も高いのでやっぱりこういう挙げ足とりな事態は起こってしまうのだろうか。 うーん。 考えすぎかなぁ。

  3. CMUがこんなことを考えているそうです。
    http://www.engadget.com/2006/08/23/better-speech-recognition-through-chipsets/
    私、4年前ほどにちょっとだけ音声認識に関わったことあるのですが、かなり苦労しました。そのころから比べるとましになったなーというのが感想です。ただ、そのテストの時もやっぱり音声認識に対するユーザ側の要求はすごく高かったです。音声認識系にSliver Bulletってないんですかね?”なんでも出来る”よりは”これだけは間違いなくできる”ぐらいでどんどんユーザに使ってもらえばいいような気もするんですが。

  4. 音声認識は辞書データが重要なので、データの蓄積とPCの性能向上によってある程度のところまではいけるとは思うのですが、チップ化によってどこまでメリットが出せるかは疑問な気がします。
    音声認識の技術は例えばNintendo DSの一部のソフトとか、カーナビの操作、携帯電話のアドレス帳検索といった定型の作業には一般的になってきていますね。 ただ、究極は話しことばがどんどん認識されることなので、そこへ到達するにはまだまだブレークスルーが必要でしょう。
    そうそう。 アメリカではサポートなどに電話したときに、たまに何とかの場合は1を押すか、one と言えといった案内があって簡単な音声認識を使っているのもありますね。 (携帯の場合話しているときはキーが押しにくいので便利) でも、アメリカに来たころ「オーセイ (or say)」って何のこっちゃと迷った記憶があります。

Leave a Reply

Your email address will not be published. Required fields are marked *