Bayesian アルゴリズムをつかって、RSS フィードの新着記事がユーザにとって面白いかどうかを判定するアプリ、があったらおもしろいなあ、とおもい (ReadOne に似てますがあれは Bayesian じゃなかったとおもいます)
書籍の記事向けに quick hack でつくってみました。いまいちわかりにくいですが右下の % が、面白い率を表してます。同じ記事何度も interesting とかするとおかしなことになるプリミティブ実装なんで、あんま実用性はないんですけどね。
ベイジアンアルゴリズムと言うとメールソフトのスパム対策などで有名だが、個人的にはスパム対策としては信頼できるものなのかよくわからない。というか、統計学や確率論というのがどうも信頼できない。 サイコロふって1が出る確率は1/6だが、次に6回ふったところで1が確実に出るかどうかは結局わからないわけで、それってなんか意味ないじゃんと思ってしまう。
なので、ベイジアンアルゴリズムをスパム対策に使った場合も、1000通試したときは5通ぐらい間違えるかもしれないと言われるとほんとに有効か? と思ってしまう。
実際、オレが Thunderbird でスパムフィルタを使っているときは全然うまくいっていない。 1日10通ぐらい届くスパムの半分ぐらいはすりぬけてしまうし、日に1通ぐらい誤検知して普通のメールがスパムになっている。 そしてちっとも賢くなっていかない。 他に導入している人のところではちゃんと効いているのだろうか?
と、ベイジアンアルゴリズムをスパムフィルタとして使うとよくないということに結構費してしまったが、RSSフィードに参考情報として付ける、というのはいいかもしれない。 何より、今まで悪を見つけるために使っていたものを、善を見つけるために使うという視点の変更が面白い。 これなら、Spamの場合と違って 少々ミスしても許せそうな気がする。
今回の実装はほんとに初期段階のようだが、いずれどこかが本格的に実装してくるのではないだろうか、そのときにまた本格的に調べてみよう。 ベイジアンアルゴリズムに関しても興味がでてきたので、こちらももうちょっと追っていこうかと思っている。
今回のエントリ、一部に間違っているであろう自分の主観が入ってるので、おかしなところもいっぱいあると思う。 確率・統計とはこういうものだとか、ベイジアンの実力はこんなもんじゃないというのがあれば、コメントやトラックバックを使ってどんどん教えて欲しい。
———
ベイジアンアルゴリムの紹介としてはここがまとまっていて良かった。
自分に対しての憶え書き。
大筋のストーリは以下のように なります.
* 各メールをトークン分割
* 各トークンのスパム確率をデータベースから取得
* ノーマルな状態から乖離している特徴的な確率を複数個ピックアップ
* ピックアップした確率から最終的な指標を計算
* 最終的な指標がしきい値を越えたらスパムと判定
ここで肝となるのは,スパム確率をデータベースに格納するところと,最終的 な確率の計算の式でしょう.
Thunderbird のスパムフィルターや今回紹介したRSSにオススメ度を付けるシステムも日本語のトークナイザーを使ってるのだろうか?
2004年3月12日 at 12:13 PM
会社のアドレスはかれこれ5年以上使っていて、ドメインの登録にも使ってるせいか、それこそ1日 200通近い SPAM がやってきます。必要なのは 50通程度か?で、最近は POPFile を導入してみたけど、なかなか調子よく動いているようです。
普段 Becky! を使っていて、以前はこれの SPAM 防止用のプラグイン使っていたんですが、固まることが多いし、結構 SPAM メールがすり抜けて来るので乗り換えました。
POPFile 導入直後、10~20通くらい学習させていったら、次第に SPAM は SPAM として除去してくれるようになって、1週間くらいしたらもう手間いらずって感じです。まぁそれでもやはりごくごくたまに誤検知するので SPAM フォルダーをときどきチェックしてますが、個人的には満足できる状況だと思ってます。
そういう意味では、なかなかいいアルゴリズムではないかと思います。
2004年3月15日 at 7:38 PM
私のところも一日に100通を超える SPAM がやってきます。以前はメイルを受信するタイミングでやっきになって見て削除を繰り返してましたが、POPFile 導入後は数日に一回 SPAM フォルダを除いておしまい。たまに判定ミスがあるけど、それは教えるようにして、また安定稼動。そんな感じで大変助かってます。(メンタル的にも、フィジカル的にも)
2004年4月11日 at 2:24 PM
続ベイジアンアルゴリズムは効くのか?
前回書いた “ベイジアンアルゴリズムは効くのか?” では、Thunderbird のスパムフィルタ機能が思ったように機能しなかったことと、オレが確率論そのものを胡散臭く思っていることから、ベイジアンアルゴリズムによるスパムのフィルタリングに対する疑問を書いたが、その後・..