新はてブの「テキストマイニングによるコンテンツ編集」機能の予想してみる

11月にはてなブックマークの新バージョンがリリースされるようだ.プレスリリースによると

はてなブックマークの新バージョンは下記の項目を念頭に置き、一から作り上
げてきたものとなります。
- 全文検索機能の搭載
- ソーシャル性・コミュニティ機能の強化
- ユーザーインタフェースの改善
- デザインを刷新
- テキストマイニングによるコンテンツの編集

http://hatena.g.hatena.ne.jp/hatenapress/20081002/1222938598

「ソーシャル性,コミュニティ機能の強化」も非常に楽しみではあるけど,多くの人が気になるのは「テキストマイニングによるコンテンツの編集」という改良点だろう.一見してどんな機能か予想がつかない.

先日リリースされた関連エントリ機能のことを指しているわけではないと思われる.だとしたら,どんな機能か.なんとなく今までの他社を含めたソーシャルブックマークに類を見ない機能なんじゃないかと思われる.

先日公開された関連エントリ機能も一種のテキストマイニングの成果の一部なので,あれがテイストとしては一番近いはず.ああいう全自動でなにか嬉しいことをやってくれる機能なのだろうか.

そもそも,
「テキスト」マイニングによる「コンテンツ」の「編集」
この文面だけでも色々解釈のしようがあるのが面白い.

テキスト(マイニングの対象は何か)

  • a. ブックマーク先ページのタイトルや本文のテキスト情報
  • b. はてなブックマーク内のタグやコメント
  • c. 上記以外の何か(ユーザが書いてるダイアリの内容,とか?)

コンテンツ(テキストマイニングの結果をどこに適用するか)

  • a. ブックマーク先の内容(ページだったり,動画だったり)
  • b. はてなブックマーク内のコンテンツ(タグやコメント)
  • c. 上記以外の何か(ダイアリなどはてな内の別サービス)

編集(誰が何を編集するのか)

  • b. はてなブックマークがバックエンドで自動的に「何か」を編集する
    • 例1:スパムブックマークを自動的に高速,高精度に排除することでホットエントリ入りしないようにする
    • 例2:エントリをカテゴリごとに高精度に分類する(ITニュース,2chネタ,政治,国際など)

組み合わせとしてはb-b-bが「テキストマイニング技術によるスパムブックマークの排除」機能に相当する.b-b-aもいかにもありそう.

他に考えられるのは,a-a-cのような,ブックマーク先ページで何かインタラクションが起こるような仕組みだと思う.b-b-cみたいにはてなブックマーク内でやる可能性もある.c-c-b c-c-cみたいにはてなブックマークを本気でマネタイズしにいく方向もありそうだし,今まで蓄積した膨大なデータを使わない手は無いと思う.まあ広告はアルゴリズム以外の部分も非常に大きく大変そうですが.あとc-c-aみたいに,はてなブックマークのデータをテキストマイニングすることで他のサービス(ハイクやダイアリ)の機能追加,といったこともあり得る.

結論

本命:b-b-a 中堅:a-a-c 大穴:c-c-c, c-c-b と言ったところだと思う.

色々予想してみましたが,はてなのことなので完全に予想外の方面から機能を追加してくる可能性もあって,個人的には良い意味で期待を裏切られたいので上記が全部外れであることを予想しときます.

はてなブックマークはそのうちWeb上のリソースを対象にしたAmazon.comになりそう

関連エントリー機能のリリースを見てそんなことを思った.

機能で見るはてなブックマークAmazon.comの比較

サービス はてなブックマーク Amazon.com
アイテムの属性 タイトル,URL,本文要約,ドメイン名,キーワード,カテゴリ,タグ,ブックマーク数 商品種別,タイトル,目次,著者,出版社,ISBN/ASIN,発売日,商品の寸法,Amazon.co.jp内ランキング
コメント ブックマークコメント この商品について語る
分類 タグ/キーワード/URL/動画別ホットエントリ 内容による分類,出版社,ハードカバー/ソフトカバー,新品/中古
全体レーティング (ブックマーク数) おすすめ度
全体ランキング ホットエントリ ベストセラー
アイテム推薦 関連エントリ 『この商品をチェックした人はこんな商品もチェックしています』
アイテムの内容検索 (はてなキーワードによる検索) なか見!検索
レビュー (ブックマークコメント) カスタマーレビュー(レーティング付き)
レビューに対する評価 ブックマークコメントに対するはてなスター 『n 人中、m人の方が、「このレビューが参考になった」と投票しています。』
履歴 (最近ブックマークしたページ) 最近チェックした商品

コミュニティにユーザーを参加させる方法で見るはてなブックマークAmazon.comの比較

サービス はてなブックマーク Amazon.com
競争 (該当無し) (該当無し)
名前をつけたラベル (該当無し) (該当無し)
数値によるラベル 被お気に入り数 ベストxレビュアー
他のユーザーと差別化するためのラベル (該当無し) (該当無し)
ポイント制 ユーザ同士のはてなポイント投げ銭 (該当無し)
アイテム (ダイアリにははてなTシャツ等がある) (該当無し)
ランキング (該当無し) ベストレビュアー
リーダー制 (該当無し) (該当無し)
トップx% (該当無し) (ベストxレビュアー)

(該当無し)になってる項目にもし見落としがあったら指摘していただけるとありがたいです.いくつかの項目は外部サービスとしては存在するものもありますが,はてなブックマークAmazon.com本体に取り込まれていないものは除外してあります.

考察

はてなブックマークの関連エントリ機能を見て自分の卒業研究を思い出した

はてなブックマークの関連エントリ機能を見て,過去に自分が学部の卒業研究*1で似たようなことやってたのを思い出しました.はてなブックマークが将来的にWeb上のあらゆるリソースを推薦するための共通プラットフォーム*2になると考え,エントリからエントリ,タグからエントリ,タグからユーザ,ユーザからユーザなど,考えうる全てのパターンでレコメンデーションを行うというものです.

当時は推薦を行うための次元圧縮についてLSI,PLSI,LDAなどを独学で勉強*3していたのですが,日本語の情報が見つからなかったため元論文をあたらねばならず,それもあってLDAのあたりで独学は無理と諦めたのでした.で,結局そういう勉強したアルゴリズムを上手く使いきれないまま時間切れ気味になり,最終的にはそういう次元圧縮は使わなかった気がします.

もちろん技術的には当然,現在はてなブックマークに載っている関連エントリの方が上だと思います.この機能の開発に携わった方々のエントリを読むと分かるとおり,こういう自明でない機能をサービスレベルまで引き上げるまでには,エンドユーザからは見えないいろんな苦労があったと思います.特にレコメンデーションのような機能の場合,現在900万エントリに届こうとしているはてなブックマークに対して行う際の計算量や,その推薦精度など,沢山の課題を乗り越えないといけないと,こういう研究を昔やったのでなんとなくわかります.でもそういうクールだけど自明でない機能こそ見せ方が重要で,そういうこともあってエンドユーザから見える部分を科学できる人が必要なんじゃないか,と思ったのです.

多分Googleなんかも同じようなアプローチで日々開発していると思うのですが,その過程のほとんどは外部から見えないんですよね.Google誕生 ?ガレージで生まれたサーチ・モンスターあたりには少しエピソードが載っているのですが,基本的に企業秘密ということなんでしょうか.今回,関連エントリに携わった方々の報告エントリとは対照的です.

学部4年生で卒論に手をつけた当時からはや3年,2008年7月,京都で博士課程学生をしています.当時はこんな立場になってるとは全く想像できませんでした.人生どう進むか分かりません.

あと研究と銘打つには2世代ぐらい先を見たテーマを設定する必要があるなぁと思いました.「2世代先」がどのぐらいのタイムスケールになるかは業界によって違うと思いますが,トレンドの移り変わりがとても早い最近のウェブ業界だと3年先ぐらいでしょうか.10年先を見越した研究をせよと周りの人に言われることもありますが,ウェブ系の研究で実際それをやろうとするとトンデモと紙一重になりがちだと思います.現実的には3年後にWebがどうなっているか・どうなっているべきかを考えると,今やるべき研究テーマが見えてくるかもしれません.

10年先を考える前に10年前を振り返ってみます.10年前といえばちょうどグーグルが創業した時で,(今となっては有名でGogle Scholorでの論文引用数が2000に届こうとしている)PageRankの論文が発表されていた時期とも重なるのですが,2008年現在ではなく,あの論文が発表された1998年当時,グーグルがここまで大きくなる*4と正確に想像できた人がいたでしょうか.多分創業者の2人ですら想像できなかったのではないかと思います.

*1:http://www.dl.kuis.kyoto-u.ac.jp/~yanbe/ の「卒業研究」の項

*2:後にEPIC2015を発見して,これだ!と思いました.EPIC2015の中にGooglezonというGoogleAmazonが合併した企業が出てきますが,私はグーグルが「世界中の情報を整理する」という立場をキープする以上それは*らしくない*と思っていて,はてながそれに相当するものになると思ってます

*3:当時所属していた研究室がそういったパターン認識機械学習の分野でなかったため

*4:Googleがここまで大きくなったのはPageRankのためだけではないというのは皆さんご存知の通りですが,そのとっかかりになったのは事実です

10年泥論争とはあまり関係ないけど、ソフトウェア企業の人事担当者の方に読んでほしい本

最近翻訳された、(Joel on Softwareという本で有名な)Joel Spolsky氏の「ソフトウェア開発者採用ガイド」という本が面白かったので忘れないうちに印象的だった部分を引用しておきます。
個人的に、この本がJoel on Softwareほど話題になってないのが不思議でなりません。Joel on Softwareの内容を実践するにしても、一緒に実践することになる同僚はその企業で行われている採用プロセスを通過してきたわけですから、そういう入口の部分が上手くいってないと、その後のプロセスで何をやっても上手くいかない気がします。新しいコードを書く前に、バグを直す必要があります(と、ソフトウェア開発者採用ガイドのp156で語られています)。

最初にやってみたのは、12個の課題のそれぞれに費やされた時間の、平均、最小、最大、標準偏差を求めるということだ。結果は次のようになった。
(表省略)
これを見て最初に目につくのは、ばらつきの大きさだ。一番早い学生は平均的な学生よりも3倍から4倍早く、一番遅い学生と比べると10倍も早い。

ソフトウェア開発者採用ガイド p.p.6-7

これは私個人の学部時代のプログラミング演習の講義を思い出しても割と納得できる結果だと思います。しかし、できる人とできない人の差がここまで広がる学科もなかなか無いと思うのですが、どうなんでしょう。ところで、コーディング面接すらやらずにこのあたりの差を峻別できるものなのでしょうか。不思議でなりません。そんなに時間がかかる採用プロセスをとっている暇はない、というご意見もごもっともだと思うのですが、そこで節約できた志願者1人あたり数時間のしわ寄せがどこかに行ってないか、少し考えてみてほしいのです。

何かの理由で、多くの人はポインタを理解するための脳のある部分を持たずに生まれてきているように見える。

ソフトウェア開発者採用ガイド p108

とまで言われています。教育するにしてもセンスがない人というのはどうしても存在しますし、結果として

それは良い候補者を落とすほうが、まずい候補者を採用するよりもずっとましだからだ。まずい候補者にはたくさんの金と労力がかかり、彼らのバグを直すためにほかの人の時間が奪われることになる。間違って採用した人を解雇するのには何カ月もかかり、それは悪夢のように難しいかもしれない。

ソフトウェア開発者採用ガイド p94

という結末が待っているからです。実はプログラマというのは建築家や音楽家と同じように、本来もって生まれた素養や幼少期の経験の有無によって、結果が大きく左右される職業のひとつのような気がしています。ただ、今の時代はたまたま需要が大きいこともあり、そういうことになってしまうと色々まずいため、社会全体が気付かないふりをしているのではないでしょうか。少なくとも上記の職業のように、向いてない人に対してプロとしての道をあきらめて別の道を選ばせるような風土がない気がします。そうすると、越えられない才能の差を努力で埋めようとして、自分のキャパシティを超えて無理をする人が出てくる。
ところで、

(おあいにくさま!CS 323の課題は私が1980年代に取ったときと変わっていない)

ソフトウェア開発者採用ガイド p9

ここで言われている課題とはイェール大学のCSの講義で実際に出題されているもので、内容は(段階を踏んだ)UNIXシェルの実装や圧縮アルゴリズムの実装です。重要なものは何十年経っても変わらないんですかね。ちなみに東大にも似たような演習がありますね。こういうのが大学が教えるべき内容なのだろうな、と思います。

芸術における高音域が、ソフトウェアでも問題になるのだろうか?「場合によってはそうなのかもしれないが、私はただ医療廃棄物業界向け会計システムのユーザインタフェースを作っているにすぎない」。それは結構。ここで議論しているのはソフトウェア製品を作る会社の話であって、そこでは製品のクオリティが直接、会社の成功・失敗に結び付くのだ。ソフトウェアを社内業務のサポートに使うだけなら、十分なものでさえあればいい。

ソフトウェア開発者採用ガイド p11

多くの新卒がこういった会社のポジションを勘違いしていたために、いろんな会社と新入社員との間に大量のミスマッチが発生している気がします。

2003年のことだが、NullsoftがWinampの新版をリリースしたとき、彼らはWebサイトで次のような告知をしていた。

  • おしゃれな新しいルックス!
  • いかした新機能!
  • たいがいの部分はちゃんと動く! (強調はid:y_yanbeによる)

最後のやつ――たいがいの部分はちゃんと動く!――にはみんな笑った。そしてうれしくなり、みんなWinampに夢中になり、それを使い、友達にも教え、Winampってすごいと思ったのだ。それというのも、連中が「たいがいの部分はちゃんと動く!」とWebサイトに書いたからだ。こういうのって、クールだと思わない?

ソフトウェア開発者採用ガイド p12

たいがいの部分はちゃんと動く!、というある種の開き直りが笑えるのは、Twitterはてなのように、たまに批判されつつも愛されてるという、不思議なポジションを築いているサービスにも共通する部分だと思います。チャレンジングなサービスやソフトウェアであれば、多少ちゃんと動かない部分があっても(アーリーアダプタな)ユーザはついてくる、ということですかね。
上で紹介したような「医療廃棄物業界向け会計システムのユーザインタフェース」みたいなソフトウェアだと、こうはいかない気がします。すべての部分がちゃんと動くと期待されてるし、動かないと責任問題になるし、最悪の場合は誰かがクビになったりする。この辺はどちらが正しいという問題ではなく、ポジションの問題だと思います。(私には上手く説明できません)

まだまだ面白かった部分があるのですが、全部紹介してたらきりがないのでこのぐらいで。後で追記・改訂するかもしれません。書評って難しい。。(書評といえるか微妙な出来ですが)
あと、この本は米国のソフトウェア企業における雇用環境が背景なのですが、この本にあるような採用方法をとっているソフトウェア企業がもし日本に存在するとしたら教えてほしいです。とくに、この本を読んでなお(こんなのあたりまえじゃないか)という感想をが出るような企業でしたらぜひ。

はてなグループを使うメリット - 1ブログ1トピック化のすすめ

最近はいろんなはてなグループに登録させていただいてます.いつの間にかこんなに増えていました.

そして,いろんなグループに参加するうちに,はてなグループを使うメリットが段々分かってきました.
グループ単位のキーワード機能などメリットは色々あるのですが,最も大きいメリットは,アウトプットの場所をトピックごとに分散させる事で,心理的にエントリが書きやすくなることだと思います.
はてなダイアリを含む通常のブログは

ブログ主 - 読者

という関係だと思うのですが,長い事ブログをやっていると大体方向性が決まって来てしまいます(こういう内容のエントリを書いても普段ここを見てる人にとっては面白くないだろうなー,とか).そういうのは大抵の場合は単なる自意識過剰というか,そもそも人々は過剰な自意識なり自己顕示欲を消費する手段としてブログを書いているという側面もあると思うのですが,マンネリ化によって書ける内容を自分で限定してしまうのはもったいない,と思う訳です.
一方ではてなグループでは,大まかなトピックが決まっていたり,似た興味の人がどういうエントリを最近書いたかメールで通知される機能があったりするので,何を書こうか迷うことが少ないです.また,グループごとに

ブログ主 - 同じグループのはてなユーザ - その他の場所から来た読者

という関係になるので,読者層もバラバラで,基本的にそのグループのトピックに興味がある人が見ている事が多いです.つまり,方向性は参加するグループによって大まかに決まるので,ブログを長くやってるとありがちな,過去の自分のエントリに方向性に縛られるといったことがありません.これが,実際にやってみるとかなり快適なんですよね.
エントリを書く場所を複数に分けるほど書く事があるのか,という疑問もあるかと思いますが,不思議なもので,アウトプットの場所が1つしかなかった頃と比べて本家のダイアリのアウトプットの量は確かに減るのですが,全体としてみるとアウトプットの量ははてなグループを使い始めるよりもむしろ増えています.はてなグループを使い始める前のアウトプットの総量が1.0(d:id:y_yanbe)とすると,現在のアウトプットの量は

0.3(d:id:y_yanbe) + 0.3(g:iphone-dev) + 0.1(g:kyotolife) + 0.1(g:python) + 0.4(g:subtech) + 0.0(g:topcoder) + 0.4(g:vim) = 1.6

ぐらいの感覚です.
また,読者にとっても,ある人の特定のトピックのみRSSで購読したい場合などにメリットがあると思います.ブログ主によって付加されたカテゴリごとに購読する方法もありますが,たまにそのカテゴリが適切でなかったり,そもそもカテゴリが付与されていなかったりします.はてなグループなら,大体グループのトピックに沿ったエントリであることが期待できます.
ちなみに海外のブログホスティング大手でGoogleに買収されたBlogger1ブログ1トピックであるべきという思想のもと,エントリを分類する機能はわざと付けていないそうですね(要出典).

カテゴリ的なものが欲しかったら新しいアカウントを取得してそこで書いてくれ,ストレージの容量はテキストや写真を保存する分にはいくらでもあるんだから.その方がGoogleとしてもAdsenseでコンテンツ解析しやすいし.

みたいな理由なのかもしれません.こういう意見を以前ネット上のどこかで読んだ気がするのですがどこだったか思い出せません(要出典).
しかしその一方でTwitterみたいに100数十字のなかになんでも突っ込む系のサービスが流行っていたりして,最近のウェブはいろんなスタイルがあって面白いです.個人的には,そうやって散逸していったエントリを集約して再構成するといったサービスが今後必要とされていくと思っています.

はてなに必要なのは女性のサービスクリエイターだと思う

先ほどから、「普通の人に使ってもらえるようなサービス」を企画するにあたって何が必要か考えていたのですが、それは女性のサービスクリエイターなのではないかという考えに至りました。
Googleの検索プロダクトおよびユーザーエクスペリエンス担当バイスプレジデント、つまり自社プロダクトをユーザに使ってもらう部分の品質の責任者である、Marissa Mayer(マリッサ・メイヤー)さんは女性です。(google:マリッサ・メイヤー)あとFlickrの2人の創業者のうち片方も女性だったはず.
あと私は国内SNSミクシィがユーザ数をあれだけ伸ばした要因は、(ナビゲーションも含めた広義の)サイトデザインによるものが大きい思っているのですが、ミクシィの初期のサイトデザインも、いくつか候補がある中から女性社員の意見を参考に決定されたんですよね(要出典)。今となっては当然のようなあのオレンジ色を基調としたデザインですが、重要なのはSNSといった概念があまり一般的でない当時に、あのデザインを自信を持って選べるセンスだと思うのです。
もちろん男性でもBloggerやTwitterを構想したEvan Williams氏みたいな例もあるので一般化には慎重にならなければなりませんが、少なくとも、上手くいくチームを編成するには多様なバックグラウンドをもった人を集めることが大事だと、Joel Spolsky氏もソフトウェア開発者採用ガイドの中で言ってます。
いずれにせよ、普通の人に使ってもらうには、個々の機能を充実させることももちろん重要ですが、なんとなく使ってて楽しいとか、そういうユーザーエクスペリエンスの部分を科学できる人も必要な気がしています。

研究者がこの先生きのこるには?

院試の季節ですね。このダイアリの読者の方に大学学部4年生や修士1年生がどのぐらい居るのかはわかりませんが結構いるような気がしています。
ところで最近大学の生協で

科学者として生き残る方法

科学者として生き残る方法

という本を見つけて購入しました。まさに今の私のためにあるような本です。海外の理工系大学院に勤めていらっしゃる研究者2人(新進気鋭の若手研究者と、この道何十年のベテラン研究者)が書いた本で、2008年6月8日出版とあるので、かなり最近に出版された本です。アマゾンにもまだレビューがありません。(元となった英語版であるSurvival Skills for Scientistsの方にはレビューがあります)
こういった、学部4年生〜大学院生向けの大学院入試や研究への取り組み方に関する本は、今までに何冊か出版されていて、私も学部4年生の前期あたりに理工系のための大学院の歩き方やその他の本を読んだりしていたのですが、この本はその先(修士課程〜博士過程〜ポスドク〜アカデミックポスト)を対象とした本です。目次はこんな感じで、結構興味深そうなトピックが多いです。たとえば

6・2 R君の修士論文での悲惨きわまりない経験(強調はid:y_yanbeによる)
(英語版: 6・2 R.'s near-fatal M.Sc. experience)

とか。研究室生活に書かれた本において、こういう風に失敗から学ぶアプローチはあまり無い気がします。(この訳は面白いなぁ)
今から読むのが楽しみです。
大学院入試経験者として思うのは、この手のノウハウは重要な割にあまり共有されていないということです。十分な情報をつかんだ状態で研究室選びや院試に臨む学生は多くなく、少なくない人が情報不足のまま、もしくは情報に翻弄されて進路を選んでる気がします。そして、そのうちの一部には、上記のような悲惨きわまりない経験が待っているのかもしれません。でも、だれも悲惨極まりない経験などしたくはないはずで、これから院試に臨む学生に危機感をあおりたいわけではないのですが、それだけ研究室(指導教官)との相性は重要だということです。ちなみに私は割と上手くいってる方だと思っていますが、ネット上のいろんな方のブログをみると、苦労している方も多いようですね。。
現在修士1年で博士課程に進もうかどうか迷っている方も参考になりそうなので、進路に悩む院試生の方は購入を検討してみてはいかがでしょうか。何か自分の中で方針を決める一助になるかもしれません。