Diary?

2008-06-21
Sat

(20:59)

駅の近くにあった漫画喫茶が潰れてた。本棚が既に完全破綻している俺にとって、漫画喫茶は相当便利だったんだけどな。一回読んだら多分二度と読み直さないだろうって漫画は基本的に漫画喫茶で読んでたからな。じゃあそういうのも今後は買うのかというと、ただでさえ本棚が破綻してるところに本を増やすのは……。

(22:35)

俺にとっては凄まじくどうでもいいことだけど、

  • アキバ
  • ホコ天
  • ネットでの犯罪予告
  • トヨタの派遣
  • ネット規制法案と前後

とまあ、これだけ揃えば親の数え役満だというのはわかる。でもだから何? こういう問答無用のキチガイは他にもいるし、キチガイの出現に対する普遍的な対策なんぞないだろうに。

あと政府の作ろうとしてる犯罪予告の検出システムだけど、これは二重の意味でダメダメだ。まずそもそもネットで犯罪予告するバカが年間何人いるか、そのうち何人がガチで犯罪の準備をしていたか、年間に起きる凶悪事件の件数はどれぐらいかこういった点についてデータを集めて発表して、システムの提案を公にするのはそれからだろ。多分実際には費用対効果悪すぎって事になると思うぞ。

じゃあ仮にこれを作るとして、その場合は予告inよりも凄いシステムである必要がある。つまり、

  • より Web の広範囲を探索する
  • かなりの精度で誤検出・検出漏れを防ぐ

ということだ。これら二つは車輪の両軸で、規模が予告inと同程度の場合はそこまでの検出精度がなくてもオペレータの運用でカバーでき、そこに費用を突っ込むのは得策ではない (そこまで費用がかかるかについては後述)。なので差別化を考えるなら確実にスケールアップをする必要があり、スケールアップすればするほどオペレータへの負荷はかかり、つまりかなりの精度でのデータの振り分けが必要なのだが、これは非常に大変だ。

大変な理由は自然言語である以上は文脈というものを考慮せざるをえず、例えば「ぶっ殺す」という言葉一つとっても、

  • たまたま議論がフレームになって勢いで言っちゃった
  • 小説などの台詞
  • たちの悪い冗談
  • etc...

と様々な文脈で使われるわけで、これをきちんと判別するというのは人工知能そのものだ。そして「ネタにマジレス」という言葉が象徴するように、人間だって確実にネタなのかマジなのか判断できるわけじゃない。俺は自然言語処理や人工知能は専門外だが、俺の知る限りではどちらのアプローチでもこの問題には対処出来そうもない。仮に出来るとしても、それだけでどんだけ費用がかかるかわかったもんじゃなく (結構な数の企業とか研究機関に協力してもらわにゃならんだろ)、確か予算は二億ぐらいっていう話だったけど、いくらなんでもそれは舐めすぎだ。まあ、実際に要件定義書見たわけじゃないから全然違うこと書いてるだろうけどな (下手するとマジで予告inみたいなのを二億で作ろうとしてたのかもしれんし)。

というわけで俺は実効性と開発の困難さの両方の視点でダメだと思っていて、こういうシステムの提案がされる事が不可解としか言いようがない。いくらなんでも情報システムに夢を見すぎだ。あとこれって運用次第で検閲と言論封殺に使えなくもないよな。そういう意味じゃ有害システムで、予告inはその点でだいぶマシとも言えるか。

追記:もしも政府の考えてるシステムがマジで自然言語処理で文脈解析してどうのこうのという代物で、その案件が何かの間違いで俺のところに降ってきたら、俺のあらゆる知識と人脈を使って全力で阻止したいね。

Creative Commons
この怪文書はクリエイティブ・コモンズ・ライセンスの元でライセンスされています。引用した文章など Kuwata Chikara に著作権のないものについては、それらの著作権保持者に帰属します。