はてなブックマークの関連エントリ機能を見て自分の卒業研究を思い出した

はてなブックマークの関連エントリ機能を見て,過去に自分が学部の卒業研究*1で似たようなことやってたのを思い出しました.はてなブックマークが将来的にWeb上のあらゆるリソースを推薦するための共通プラットフォーム*2になると考え,エントリからエントリ,タグからエントリ,タグからユーザ,ユーザからユーザなど,考えうる全てのパターンでレコメンデーションを行うというものです.

当時は推薦を行うための次元圧縮についてLSI,PLSI,LDAなどを独学で勉強*3していたのですが,日本語の情報が見つからなかったため元論文をあたらねばならず,それもあってLDAのあたりで独学は無理と諦めたのでした.で,結局そういう勉強したアルゴリズムを上手く使いきれないまま時間切れ気味になり,最終的にはそういう次元圧縮は使わなかった気がします.

もちろん技術的には当然,現在はてなブックマークに載っている関連エントリの方が上だと思います.この機能の開発に携わった方々のエントリを読むと分かるとおり,こういう自明でない機能をサービスレベルまで引き上げるまでには,エンドユーザからは見えないいろんな苦労があったと思います.特にレコメンデーションのような機能の場合,現在900万エントリに届こうとしているはてなブックマークに対して行う際の計算量や,その推薦精度など,沢山の課題を乗り越えないといけないと,こういう研究を昔やったのでなんとなくわかります.でもそういうクールだけど自明でない機能こそ見せ方が重要で,そういうこともあってエンドユーザから見える部分を科学できる人が必要なんじゃないか,と思ったのです.

多分Googleなんかも同じようなアプローチで日々開発していると思うのですが,その過程のほとんどは外部から見えないんですよね.Google誕生 ?ガレージで生まれたサーチ・モンスターあたりには少しエピソードが載っているのですが,基本的に企業秘密ということなんでしょうか.今回,関連エントリに携わった方々の報告エントリとは対照的です.

学部4年生で卒論に手をつけた当時からはや3年,2008年7月,京都で博士課程学生をしています.当時はこんな立場になってるとは全く想像できませんでした.人生どう進むか分かりません.

あと研究と銘打つには2世代ぐらい先を見たテーマを設定する必要があるなぁと思いました.「2世代先」がどのぐらいのタイムスケールになるかは業界によって違うと思いますが,トレンドの移り変わりがとても早い最近のウェブ業界だと3年先ぐらいでしょうか.10年先を見越した研究をせよと周りの人に言われることもありますが,ウェブ系の研究で実際それをやろうとするとトンデモと紙一重になりがちだと思います.現実的には3年後にWebがどうなっているか・どうなっているべきかを考えると,今やるべき研究テーマが見えてくるかもしれません.

10年先を考える前に10年前を振り返ってみます.10年前といえばちょうどグーグルが創業した時で,(今となっては有名でGogle Scholorでの論文引用数が2000に届こうとしている)PageRankの論文が発表されていた時期とも重なるのですが,2008年現在ではなく,あの論文が発表された1998年当時,グーグルがここまで大きくなる*4と正確に想像できた人がいたでしょうか.多分創業者の2人ですら想像できなかったのではないかと思います.

*1:http://www.dl.kuis.kyoto-u.ac.jp/~yanbe/ の「卒業研究」の項

*2:後にEPIC2015を発見して,これだ!と思いました.EPIC2015の中にGooglezonというGoogleAmazonが合併した企業が出てきますが,私はグーグルが「世界中の情報を整理する」という立場をキープする以上それは*らしくない*と思っていて,はてながそれに相当するものになると思ってます

*3:当時所属していた研究室がそういったパターン認識機械学習の分野でなかったため

*4:Googleがここまで大きくなったのはPageRankのためだけではないというのは皆さんご存知の通りですが,そのとっかかりになったのは事実です