音声認識の現実やBlog, YouTubeの今後やら

2006年8月21日 / Hiro Inami / 5 Comments

ITmedia News：MS、音声認識技術への対応を拡大
このカンファレンスでは、Windows Vistaに搭載される音声認識ソフト「Windows Speech Recognition」のデモも行われ、同社の音声認識関連技術へのさらなる対応拡大をアピールした。

少し前の話になるが、日本では上のような感じで報道された Microsoft が Windows Vista に搭載される音声認識のデモをしたニュースがアメリカではちょっと物議を醸しだした、まずはこの映像を見てもらいたい。

このように、デモがうまくいかなかったことがニュース(MSNBCのニュース記事のリンク)で取りあげられてしまった。

しかし、ニュース用の映像ではカットされてしまったが、この前後の映像を見ると失敗だったとは一概に言えない様子がブログや YouTube にアップされていた。

この状況はいろいろなことを思わせる。

まずは、時間の限られたテレビニュースの問題。デモ映像をだらだら流すわけにはいかないので、失敗したところを中心に編集し「まだまだだねぇ」という一点でまとめ、見た人はそのまま受けとめてしまう。一方通行のメディアでは真実を知ることは難しい。

次に、ニュースといった既存のメディアを補完するようにブログやYouTubeという存在が育ってきているなぁという実感。今回も、これらニューメディアのおかげでもうちょっと詳しい背景や問題を知ることができた。ただ、ここまでたどりつける人というのはまだまだ少数なのがニューメディアの課題だろうか。

そして、音声認識という技術そのものの問題。オレを含めソフトウェア業界の人だと、音声認識がここまで動けば結構イイんじゃないと思うが、一般的な感覚からするとこんな誤認識おこるようじゃダメだと思ってもおかしくないだろう。ソフトウェアそのものが一般的になり、人々の要求も高まってきていることを認識してモノを作っていかなければいけないんだなぁという警鐘。

まだ自分の中でも消化しきれず、思いついたことを書きつらねただけになってしまったが、ブログブーム、YouTube の今後と合わせて考えさせられる話だった。

Hatena Bookmark - 音声認識の現実やBlog, YouTubeの今後やら

Check

Share on Tumblr

Categories: 03 コンピュータ

5 Comments

ぜんがめ
2006年8月21日 at 11:11 AM

これ見比べると面白いですよね。私は、アプリ立ち上げやウィンドウ操作あたりがちゃんと動いていたのが驚いたんですが、Wordのみだとダメダメに見えますね。
ぜんがめって本名なんですね
2006年8月21日 at 11:15 AM

Vistaの音声認識の実力(YouTube)

コマンド操作系は結構ちゃんと動いているなーという印象。ただ文章入力には難あり、のようですね。キーボード、マウスに続く第
Hiro
2006年8月22日 at 7:34 AM

面白いというかほんと考えさせられましたね。アクセシビリティの向上という目的をもっと全面に出していけば違ったのかもしれないですが、技術がまだまだ斬新なだけに人々の期待も高いのでやっぱりこういう挙げ足とりな事態は起こってしまうのだろうか。うーん。考えすぎかなぁ。
ぜんがめ
2006年8月24日 at 2:06 AM

CMUがこんなことを考えているそうです。
http://www.engadget.com/2006/08/23/better-speech-recognition-through-chipsets/
私、４年前ほどにちょっとだけ音声認識に関わったことあるのですが、かなり苦労しました。そのころから比べるとましになったなーというのが感想です。ただ、そのテストの時もやっぱり音声認識に対するユーザ側の要求はすごく高かったです。音声認識系にSliver Bulletってないんですかね？”なんでも出来る”よりは”これだけは間違いなくできる”ぐらいでどんどんユーザに使ってもらえばいいような気もするんですが。
Hiro
2006年8月24日 at 6:52 PM

音声認識は辞書データが重要なので、データの蓄積とPCの性能向上によってある程度のところまではいけるとは思うのですが、チップ化によってどこまでメリットが出せるかは疑問な気がします。
音声認識の技術は例えばNintendo DSの一部のソフトとか、カーナビの操作、携帯電話のアドレス帳検索といった定型の作業には一般的になってきていますね。ただ、究極は話しことばがどんどん認識されることなので、そこへ到達するにはまだまだブレークスルーが必要でしょう。
そうそう。アメリカではサポートなどに電話したときに、たまに何とかの場合は1を押すか、one と言えといった案内があって簡単な音声認識を使っているのもありますね。 (携帯の場合話しているときはキーが押しにくいので便利) でも、アメリカに来たころ「オーセイ (or say)」って何のこっちゃと迷った記憶があります。

音声認識の現実やBlog, YouTubeの今後やら

5 Comments

Leave a Reply Cancel reply