こんにちは.Gunosy開発本部DAUチームの関 喜史です.
先日WSDM2015読み会を開催しました.
Gunosyでは隔週でGunosyデータマイニング研究会と題して,データマイニング領域にする書籍の輪読と論文の紹介を行う勉強会を開催しております.
今回はその特別編として今年2月に上海で開催されたWeb Search and Data Mining(通称WSDM)という学会で発表された論文を紹介する会を開催しました.
WSDMはその名の通りウェブにおける検索とデータマイニングについて扱う学会で,データマイニング領域ではWWWやKDDと並んでトップカンファレンスとして知られています.
余談ですが公式サイトに WSDM (pronounced “wisdom”)
と書かれていて,略称にもかっこよさを感じますね.
当日は7名の発表がありました.発表にご協力いただいた皆さん有難うございました.
公開いただいている資料については資料を添えて,簡単なコメントとともに紹介させていただきます.
Back to the Past: Supporting Interpretations of Forgotten Stories by Time-aware Re-Contextualization
@TakahiroKubo 様 qiita.com
文章に対して時代背景に則した解説をつけるという試み.
提案しているシステムの流れは以下のとおり.
- Wikipediaから時間表現を含む形で解説文をSolrに突っ込む
- 解説対象の文章からSolrに投げるためのクエリを生成する
- クエリから得られた解説文を内容・時系列を含めて並び替える
主張ポイントは2.と3.で,特に個人的には2のアプローチでクエリの精度の予測モデルを構築しているところが興味深いと思いました.
検索にはSolrとかを使ってその結果を利用してさらに厳選するような仕組み,最近よく見るような気がしていますね.
昔は検索エンジンの結果件数とかスニペットなどを使ったものがよく見られましたが,検索APIの制限が厳しくなった現在ではこういう方法が主流になっていくのでしょうか.
Inferring Movement Trajectories from GPS Snippets
@saba_lover 様
www.slideshare.net
GPS情報はいろんな要因で細切れになりやすいのでその間の補完をどのようにやるかという話.
経路を推定するために空間情報と時間情報を両方モデル化しています.
例えばこの道はこの時間混んでいるとか,この時間は空いているとかそういった情報ですね.
そういう情報を踏まえた上で細切れに抜けている間でどのルートを通った確率が一番高いかを推定しようという話です.
データ量が増えているのでうまくモデル化できればそりゃ良くなるよねって気がしますけど…
うまくモデル化出来たという話なのか,それとも持っているデータが強かったからこういう強いモデル化ができたのかどっちなのでしょうね.
FLAME: A Probabilistic Model Combining Aspect Based Opinion Mining and Collaborative Filtering
@yutakashino 様
ユーザにとって役立つようなレビューを提示したいという論文です.
ユーザとアスペクト(実質的にトピック)でレビューをモデル化しています.
ここでアスペクトとはユーザの評価基準のことを言っているようです.
評価基準次元空間でユーザやレビューを表現することで,ユーザの評価嗜好の近さを表現したり,ユーザの役に立つレビューを提示できるようにすることを目指しています.
LDA+協調フィルタリング的な話をレビューに適用してみましたという話のようですね.
ただグラフィカルモデルが複雑で非常に辛いし,実装もやばそうな匂いしかしないのが辛いところ.
グラフィカルモデルの組み方や解法は気合があるときに読んでみたいなと思いました.
Modeling Website Popularity Competition in the Attention-Activity Marketplace
@yoshifumi_seki
私が発表しましたのがこちら.ウェブサービスのPopularityの推移をモデリングして予測しましたという論文です.
Attention Marketplaceという考え方があり,テレビとかラジオとかそういったシステムは関心を奪い合うものだよねというものです.
それに対して,Social Mediaは関心も重要だけれども,Activityも奪い合う対象であるという意味でAttention-Activity Marketplaceだ,と著者らは提唱しています.
ただ実際のところパラメータチューニングしてるだけでモデリングとは言いがたいしですし,すでにある程度差がついたところから予測してどこまでいくのかという予測になっており,ただ時系列的に予測してもおんなじようにいくんじゃない?という結構肩透かし気味な論文ではありました.
Driven by Food: Modeling Geographic Choice
@t_tetsuma 様
GoogleのGoogle Mapsのクエリデータを用いた論文です.
飲食店を探す検索クエリの傾向が検索する目的地までの距離と付近の飲食店の密集度に関係性があることを示しています.
その後もいろいろな分析をしつつ,最終的にはユーザがどこへ行くか予測をしています.
Googleしか持っていないデータを使った強いけどなんかずるいなぁと感じる論文です.
Hiring Behavior Models for Online Labor Markets
@kisa12012 様
クラウドソーシングの受注者の評価は,一般には仕事が終わった後発注者が評価をつけることできまります.
これでは最初に評価がつくのは最初の仕事が終わった後であり,まだ実績のない受注者は仕事を得るのがますます難しくなってしまいます.
提案手法はチェスのレーティングロジックを利用して選考段階で評価をつけてしまおうという考え方です.
選考の時書類審査は通ったかなど段階的な評価を設けることで,これまで評価がつくことがなかった多くのユーザに評価をつけることができるようになります.
アプローチや課題設定,実験などがかなり綺麗にやられていて良い論文だなと思いました.
Just in Time Recommendations: Modeling the Dynamics of Boredom in Activity Streams
@y_benjo 様
購買の間隔を組み込んだ推薦システムの提案です.
これはもう上記の資料(ブログ)が素晴らしいのでコメントすることは特になしです.そちらを御覧ください.
おわりに
参加してくださった皆様の興味領域の違いからかデータソースや手法が様々に異なる論文が集まり非常に興味深い発表が多かったです.
発表時間や質疑の時間がもう少し長く取れるとよかったかもしれませんね.
懇親会も濃いデータ分析の話が随所で行われる盛り上がった会になりました.
現在イタリアでWWW2015が開催中でありますがこちらの読み会も近いうちに実施したいですね.
今回参加・発表していただいた皆様,実施に協力頂いた社内関係者の皆様有難うございました.