Category: 03 コンピュータ

機能を優先するかインタフェースを優先するか

Daring Fireballさんで、Linuxを中心とするオープンソースサイドとMSやAppleのクローズドソースサイドに関して興味深い考察が述べられていましたのでチェック。筆者のJohnさん、Linux(と一般的なオープンソースソフト)に対するかなり厳しい批評をしています。ちょっと長いですが、なかなか面白かったので一部要約して和訳してみました。

いやー、面白いやりとりだ。

かいつまんで説明すると、Linux やオープンソフトウェアの大家である Eric Raymond 氏がプリンタの設定につまづいたという体験をもとに、もっと良い GUI を書こうと Blog に書いた。 そしたら John Gruber氏が、そうじゃない。 よい GUI を書こうなんて姿勢ではダメだ。 始めに GUI は最初にあってもいいぐらい重要なモノでプログラマが片手間にやってもいいモノはできない。 これがLinux やオープンソースのソフトの問題だと指摘したというモノ。

ユーザインタフェースは一番最初にそのソフトウェアに触れる部分となるので重要なのはとても同意できる。 特に大規模なソフトウェアではそうだろう。 しかし、プログラマとしての自分の中には見た目より、まず動くモノを作りたくなる気持もわからなくはない。 デザインを重視しても、実際の動きに合わせて調整していかなればいけないのも事実だ。 UI、機能をスタートにすべきかはわからないが、プロセスとしては 試行錯誤を繰り返し、よりよいモノを目指すのが現実的なところだろう。

しかし、オープンソースコミュニティ は顔も合わせたことのない開発者が何十人、何百人も集まって作業をしているので、むやみに他人を振りまわせず、試行錯誤といったフットワークの軽い開発手法は合っていない。 そのため、どうしても最初にあるモノ、最大公約数的に「これでいいか」いうモノに落ちついてしまうことが多い。 これはより良いソフトウェアを作る上では問題だ。 まだ考えがまとまっていないが、オフショア開発に関して、何かモヤモヤした気分があるのは自分の仕事が取られるとかそういうのじゃなくて、良いソフトウェアを提供する観点から見るとフットワークの軽さという点で問題がある気がしているからだと思う。

上のやりとりが提起してくれた問題はいろんな要因が考えられると思うので、まだ解決策を言うことができないが、開発プロセスにおけるユーザインタフェース部分の開発手法に問題があることをはっきりさせてくれた。 自分も含め、デベロッパはこのまま黙っているつもりはない。 これをきっかけに少しでも良いものを作っていきたい。


続ベイジアンアルゴリズムは効くのか?

以前書いた “ベイジアンアルゴリズムは効くのか?” では、Thunderbird のスパムフィルタ機能が思ったように機能しなかったことと、オレが確率論そのものを胡散臭く思っていることから、ベイジアンアルゴリズムによるスパムのフィルタリングに対する疑問を書いたが、その後調べていくうちにいろいろわかってきたので紹介したいと思う。

まず、コメントで教えてもらったPOPFileというソフト。 自分でも使ってみたが、思った以上に機能して驚いた。確かに、スリ抜けるものもあるが、その数はThunderbird の比ではない。

管理画面で、メール中のどの単語がピックアップされ、どの確率で使われているか表示されるとよくわかる。 これが本当のベイジアンアルゴリム(オリジナルのアルゴリズムを改良したモノのようだ)の威力なのかと再認識させられた。 みんながスゴいというのは伊達じゃなかった。

では、なぜ Thunderbird のスパムフィルタが機能しなかったのか。

training.dat はジャンクメールコントロールの学習結果を格納しているファイルであり、プロファイルディレクトリにあります。

このサイトにはジャンクメールコントロールに使われる、training.dat というデータファイルを参照することができる perl スクリプトが置いてある。 これを使って、オレの情報を見てみたのが下のデータ。

pmin=0.000000 pmax=1.000000 bmin=0
nGood 33
nBad  309
total non-spam tokens 11204
total     spam tokens 28344
0   572 0.990 span
0   238 0.990 neomail
.
.
.

nGood (Spamじゃなかったメール数) が極端に少ない。 nBad (Spam だったメール数) にしてもこんなもんじゃない。 もうちょっと調べるために training.dat を新しく作り変えて、手持のSpamメールを送り直してみて確かめたところ Thunderbird (version 0.5)は、スパムマーク(ゴミ箱アイコン)をクリックして、マークを付けたり、外したときだけ、そのメールの情報を training.dat に記録しているようだ。

つまり、スパムフィルタが通した通常のメールや、一度憶えて、スパムだと認識したメールは training.dat に記録されない。 一方、POPFile は何らかの方法で、ほとんどのメールが次回以降のスパムチェックのために記録されていく。 このヘンの処理方法の違いが、 Thunderbird のスパムフィルタが正常に機能しない理由じゃないだろうか。

ベイジアンフィルタの論文には、

ベイジアンフィルタがうまく動く鍵は、大きく綺麗なコーパスにある。 そういうコーパスはベイジアンフィルタの入力としても使えるだけでなく、 その他のフィルタにもテスト用として利用できる。

とあるように、判断情報は多ければ多いほどよいらしいので、Thunderbird のような方法ではなかなか賢くなっていかず、いつまでも誤認識してしまう。 自分が今持っているメール全てに一旦スパムマークを付けて、スパムじゃないメールはマークを外すという作業をすれば、ある程度は改善されると思うがあまりスマートじゃない。 Thunderbird/Mozilla チームはこのへんの問題を認識をしているのだろうか?

相変らず、なんでうまくいくんだろうという部分に疑問は残るが、ベイジアンアルゴリズムは、結構機能するという風に意見を改めたいと思う。
Thunderbird/Mozilla のスパムフィルタに関しては今後も動向を追っていきたい。

Continue reading


Gnome と KDE が統合?

Novell’s Linux-oriented divisions, Ximian and SuSE, will work together to make one common Novell Linux desktop from Gnome’s and KDE’s best features,
(Novell の Linux 系部門、Ximian と SuSE は、Gnome と KDE のいいところをとった1つのNovell Linux デスクトップ環境を作るために協力する。)

最近、Novell が買収を重ね Linux Desktop で主要なプレーヤになるべく積極的な活動を行っている。

今、行っているのはデスクトップの共通化。 これは以前書いたように、Linux をデスクトップOSとしてWindows などと闘っていくためには早急に解決しなければいけなかった問題だと思っているので、Novell のこの動きは大いに共感できる。

Novell が買収した Ximian は Gnome をベースにしたシステムを提供し、Evolution や Ximian Desktop Environment で高い評価を得ている。 もう一つは SuSE という Linux ディストリビュータで、KDE(Qt)を利用したデスクトップ管理ツール YaST を中心に、使いやすいデスクトップインタフェースを提供している。 だが、もともと、中身も見た目も全然違うものどうしなので、統合しようと思っても大変なのは関係者なら誰もがわかっている。 Qt で統合? というニュースが流れたときも賛否両論だった。

Novell has chosen to standardize on Qt as development environment.
(Novell は共通化のための開発環境としてQt を選択した。)

このニュースは結局はガセだったようだが、この統合の作業をしている間はどちらかを使うという発表をすればもう一方から反発される、というような状況が続くと思う。 おそらくNovellがしてくるだろうことは、どちらかに一本化するというより、見た目を共通化させるようなGUIテーマの提供やユーザインタフェースを共通化するためのガイドラインの制定といった、どちらを使っても同じようなモノができあがるようなしくみの提供ではないだろうか。 その後、うまくいけばWidgetなどの共通化、同じようなツールやアプリケーションのプロジェクトの統合などへと行くと思うが、この辺がうまくいくかどうかはちょっと疑問だ。


RSS を勝手に生成してはダメ?

Google NewsからRSSフィードを作成するスクリプトの作者が、Googleから利用規約に反するとの警告を受けた。この作者はGoogleのRSS不支持や、ニュースフィード機能がないことに不満を示している。

ヤバい。 オレがはてなに無断で勝手にやってる はてなアンテナ->RSS 変換サービスの はてなアンテナRSS も目を付けられないだろうか。 別に邪魔するつもりはないので問題があれば連絡ください。 (あ、連絡先がエントリへのコメントしかないか。 フォーム作らなきゃ。)

とりあえず、Google News での問題は Google がライセンスを受けているニュースソースとの契約に、Googleサイト内でのみ配信可というような条件が付いてるからなんだろうけど、RSS を使えば簡単に情報の再配信が可能になるので、これからこういう問題はどんどん増えてきそうだな。

そうそう。 gnews2rss のウェブマスターも書いてるけど、せっかく他のサービスに先がけて公開された Google APIだけど、全然アップデートがないのが残念だ。

Google News は無理にしても、Froogle や Google Local などの他のサービスへの対応や、SOAPだけじゃなくて、RSS/Atom 出力へのサポートなどもっと充実したものにしてもらいたいのは同感。


GMail でメールが変わるかも

現在無料の電子メールサービスで利用できる容量は、Hotmailが2MバイトでYahoo Mailでは4Mバイトとなっている。これに対して、Gmailでは1Gバイトの保存スペースを提供する。

1Gバイトとはすげぇ。

まず、インパクトがある。 使う使わないかは別にして今の時代に1GBを無料でくれるということには人をひきつける魅力がある。

そして、1GBは伊達じゃない。 たいていの人のメールボックスなんて1GBもあれば十分だ。 今ある全てのメールを GMail へ送りこんで(単純にフォワードしてもいいし、専用のプログラムを書いてもいいし)、簡単にバックアップ/検索等をできるようにするしくみを思いついた。 そうすればパソコンがクラッシュしてメールがとりだせないということもなくなる。 これを機にメールアドレスを変えようと考えている人にはもっと簡単に導入できるだろう。

ブラウザじゃなくて今使っているメーラでも読みたい場合は、Yahoo POPs のようなWebメールを通常のメールクライアントで読むためのツールがすぐに開発されるだろうからそんな問題はない(必要ならオレが作る)。 心配なのは、セキュリティが破られた場合などにメールの中身が外に出てしまうことだろうか。

今までは、WebメールはSpam対策用の捨てメールアドレスの場合が多かったが、これからは GMail を中心に回すこともアリかもしれない。 そんなインパクトがある。 可能かどうかわからないが、ドメイン名取得のときみたいに、ポピュラーなメールアドレスを先に取っておけば売れるかもしれないぞ。 久々に何かわくわくするサービスだ。 もっと詳細な情報の公開や正式運用が待ちどおしい。


デジタル放送の価値

デジタル放送の普及とともに、著作権保護の仕組みも本格導入される。録画行為そのものには不自由はないとされるが、しかしわれわれの心の中には、なぜだか釈然としないものが残る。どうやら“取りためる”という行為には、より根源的な、人間の本能と言ったらいいような部分があるようなのだ。

昨日書いたコンテンツ配信と私有の関係を、4月から行われるデジタル放送のコピープロテクト技術という視点からうまくまとめている。

コピープロテクトというのは何かイヤだ。特にテレビ放送はもともとタダで見られ、タダで好きなだけ録画ができるものだっただけにその不自由さは気になる。最初、興味のあるものを私有化したいという気持ち(収集本能?)かなと思ったけど、集めたあとより、探して手に入れるまでの方を楽しんでると思うから、やっぱり狩猟本能の方が正しいのかな。

昨日の論理と合わせると、人々はこんなデジタル放送技術にお金を払わないぞ。 オレも払いたくないぞ(アメリカに住んでるから関係ないけど…)。 どうするデジタル放送。 7年後に無理矢理アナログ放送を打ち切って、移行させるつもりか?


デジタルの価値

それは『共有できるものには金を払おうとしない』という、人の消費に対する
態度である。人が財布を開くときの動機は変化しなかった。

日刊デジタルクリエイターズ(デジクリ) というメールマガジンをかれこれ2,3年ほど講読している。 クリエイターと呼ばれる人から見た視点から現在のコンピュータテクノロジーなどが語られることが多く、コンピュータ屋のオレから見るとハッとすることや、新な発見をすることが多い。

上に紹介した記事(電子出版社は可能か)も、始めて読んだときハッとさせられた。
出てきては何度も失敗するコンテンツ配信サービス。 デジタルなデータは勝手にコピーされては困るのでプロテクトをかける = 購入者は私有できない。 という図式で考えるとうまくいかない理由もわかる。

今のところうまくいっている iTunes Music Store は、同じ曲を共有できるマシンは3台までだが、CDに焼いてしまえば自由に扱うことができるという、プロテクトと私有のしくみをバランスよく提供できたのでうまくいったのだろう。同じ曲がネットのアンダーグラウンドでは共有されているという事実もあるが、それは音楽を私有する意識がまったく無い一部の人が行っている行為ではないだろうか。 裏を返せば、最近の音楽業界がいかに音楽を濫造し、価値を落してしまったかを表していると思う。

そして、次の言葉も的を得ていると思った。

見えないものや、
手に取れないものだがお金を支払うというケースは、労働の対価であることが
ほとんどだ。デザインや情報の内容・質自体には、どんどん値段が付かなくな
っている一方、労働には確かな値付けがなされるようになってきている。

これを読んで、最近のBlogブームのことが頭に浮かんだ。

MovableType を作っている Six Apart 社が Movable Type を無料で配布しつつも、それを一括してホスティングするサービス(Typepad)を有料で提供し、いろんな会社が提携しているのは、セットアップ、運営の労働に対する対価を払っているからだろう。 そして、ユーザは無料で配布しているツールを自分で準備する労働の代わりに、各ホスティング会社のサービスを利用する。 MovableType を有料にして売っていたらここまで早い展開はできなかったのではないだろうか。 オンラインでソフトウェアを売る方法というのが確実に変わってきていると思う。

デジクリの記事は、電子出版は可能かという命題を軸にして、あと2,3回続くようなので次回以降も楽しみだ。


NTTグループ の ネーミングセンス

 それにしても、近年のNTTグループの皆様のネーミングセンスは凄すぎる。トラックバックをかけた人の地域を解析して日本地図にするというのはいいとして(サービスが有効かどうかは別として)、そのサービスを名づけて「日本沈没地図」。沈没さすなよ。どこぞのSF小説か。他に言いようはなかったのか。誰にも止められなかったのか。

開発途中版が流出ってとこなんだろうか。 よく知らない開発者がここに置いたので見てくださいって深く考えずに公開しちゃったんだろうなぁ。 この件は第三者には実害はないから、そんなに問題にはならないだろうけど、社内ではちょっとした騒ぎになってるだろうなぁ。

で、同感するのは、事故の話じゃなくて NTTグループのネーミングセンスの悪さ。 ドブログしかり、日本沈没地図しかり。 そういえば、香典(CoDen)もNTTコミュニケーションズだ。 わざとネガティブイメージのネーミングやデザインにして、何でもいいから名前を売ろうとしてるとしか思えない。

このルーツとなるのはテレホーダイとかドッチーモとか、ドニーチョとかってベタなネーミングだろうか、このベタさをヘンな方向にひとひねりすると最近のNTTのネーミングセンスになりそう。

NTT は狙っているターゲットが広いため、ベタでもわかりやすいネーミングを狙うのはわかるが、たまには使う側の気持ちにもなって、少なくとも口に出して恥かしくなるようなネーミングだけはやめてもらいたい。


新聞紙の将来

大日本印刷は3月15日、Webサイト上で、スーパーなどの広告を地域ごとに閲覧できるサービス「オリコミーオ!」の利用可能地域に、名古屋市内とその近郊を追加した。また、同サービスをASP形式で提供するサービスも本格始動する。

折込チラシといったら、インターネット全盛の今でも地元の情報を得るためのいい情報源だろう。 新聞記事はオンラインでも読めるので、新聞そのものより折込チラシが目当てで新聞をとっている人もいるのではないだろうか。

そんな新聞業界の聖域だった折込チラシにもインターネットが入りこんできた。 愛知県にあるうちの実家もサービスの範囲に入っていたが、まだほとんど広告が表示されない。 仕組みができたばっかりで、どれくらいの人が見るかわからないので広告も集めにくいので仕方がないと思うが、広告を表示する側も、出す側もそんなに手間がかからないことから、これからはこういった仕組みが一般的になっていきそうな気がする。

そうなると、今まで、折込チラシを見るために講読していた人たちがいなくなるわけで、新聞社は危機感を持っているのだろうか? もちろん、インターネットを使わない人も多いのでこの流れは急には進まないだろうが、オレたちのような世代が増えてくるにつれて新聞社はつらくなるだろう(すでに、今でも変化の兆しは現れてると思うが…)。

なのに、新聞社のWebサイトはディープリンク禁止だの、引用するなだの、インターネットはみんなやってるからうちもやってるといった噂があるように、どうも本腰を入れてるように見えない。 インターネットの折込広告と合わせて定期購読のような仕組みを提供して囲い込むようにするとか、もっと人を集めて、広告収入を上げるようにするとか、講読料に頼らない収支体制を今のうちから作っていかないと大変なことになってしまわないのだろうか。


検索・情報配信のローカル化

「ユーザーが何かを探しているとき、たいていは、ローカルレベルのことが多い…こうした情報は、検索サービスの核となるものだ」と、Googleのコンシューマーウェブ製品ディレクターMarissa Mayerは述べている。

Google が地域の店などを検索できるサービスを始めた。 地図と連携していて見やすくなっているが、今のままでは電話帳の代わり程度にしか使えないのが残念。 例えばいきなり行った街でレストランでも探すときには、これにプラス、どのくらいオススメかといった情報が欲しいけど今の Related Web Pages ではちょっと物足りない。

地域情報としては、Topix.netが面白いまとめかたをしている。

このサイトは記事のトピックスばかりをアメリカ中のオンラインサイトから集めてきてそれっぽく表示しているサイトで、その中の Local News では市名やZipコードを入れることで、その地域に関するニュースや情報だけを表示することができる。 少し情報の更新が遅いところもあるが、他のサイトが配信している情報や、リンクをこうやってまとめ直すことで新な価値がでてくることに感動した。 ローカル情報の検索は、過去記事の検索と外部の専門サイト(例えばレストラン検索では restrauntnow.com) へのリンク貼って対応している。

Google の担当者も書いているように、ローカル情報の検索需要というのは結構あると思うが、せっかくなので電話帳以上のものを期待してしまう。 なので、実装する形としては検索エンジンからというより、Topix.net のように、ポータル化して付随する情報とともに提供する方が、地元に住んでいる人にも、そして旅行者にも便利なものになるのではないだろうか。