Gunosy Tech Blog

Gunosy Tech Blogは株式会社Gunosyのエンジニアが知見を共有する技術ブログです。

NLP2025 参加報告

こんにちは、データサイエンス部の森田、大城、新規事業開発室の井口です。

もう気がつけば開催から一月経ってしまいましたが、今回の記事は 3/10 ~ 3/14 の 5 日間にわたって開催された言語処理学会第 31 回年次大会 (NLP2025) の参加レポートになります。

スポンサーしてます

NLP2025 について

言語処理学会は人工知能の一分野である(自然)言語処理を専門とする学会です。近年は特に LLM の話題が多く、参加者の幅も広がっているようです。

昨年に引き続きオフライン・オンラインのハイブリッド開催となり、長崎市の出島メッセ長崎が会場でした。 九州での現地開催は第4回の九州大以来となります(第27回は北九州国際会議場ではあるもののオンラインのみ)。

参加者数は 2,248 人(6% 増)、発表件数は 777 件(29% 増)、スポンサー数は 103 団体(15% 増)といずれも過去最多を更新し、会場は大いに賑わっていました。 Gunosy も シルバースポンサーとして参加しています。

参加者の活気や熱も高く、 Youtube で動画が公開されているチュートリアルや招待講演をみると会場の雰囲気がわかります。どのチュートリアルも興味深いですが、特にチュートリアル1の「言語モデルの内部機序の解析と解釈」は現在の到達点がわかる非常に良質なチュートリアルになっています。

www.youtube.com

論文紹介

発表件数が大幅に増え、今年から開始が 8:30 に早まるなど、どの発表を見に行くか迷った方も多いのではないかと思います。以下では、Gunosy のメンバーの視点から特に印象に残った論文・発表の紹介をしていきたいと思います。見逃していた発表を見返す機会となれば幸いです。

[P8-15] 逆プロンプトを用いたコールドスタート推薦

  • 著者: 草野 元紀 (日本電気株式会社)
  • リンク: pdf
  • 紹介者: 大城
  • 概要
    • インタラクションが少ないユーザーに対しての推薦であるコールドスタート推薦に LLM を用いる研究では、LLM に対して「このユーザーがこのアイテムを好むか」推論させますが、この手法ではスループットが犠牲になります。
    • この研究では、LLM への質問形式を逆転させ「このユーザーはどのようなアイテムを好むか」という質問で 好みそうなアイテム の擬似サンプルを得ることで学習データを拡張し、推論時には従来の推薦手法を用いることで、運用時の問題に対処しています。
  • 所感
    • 実際の業務でも、LLM を用いた推薦はやはり金銭的な面やスループットなどが懸念されると思います。 この研究の提案手法では、 LLM の知識を推薦に取り入れつつも、スループットが犠牲にならないように学習時のデータ拡張器としてのみ LLM を利用するという実践的なもので、とても興味深い研究だと感じました。

[A2-1] 大規模言語モデルにおける複数の指示追従成功率を個々の指示追従成功率から推定する

  • 著者: 原田 憲旺 (東大), 山崎 友大 (京大), 谷口 仁慈 (琉大), 小島 武, 岩澤 有祐, 松尾 豊 (東大)
  • リンク: pdf
  • 紹介者: 井口
  • 概要
    • 大規模言語モデルが複数の指示に同時に従う性能を検証するため、新たなベンチマーク「ManyIFEval」と「StyleMBPP」を作成。その結果、複数の指示を同時に成功させる確率は、個々の指示の成功率の積でおおよそ推定できる、という経験則が見出されました。この発見は、未知の指示の組み合わせに対する性能予測を可能にし、また指示数が増えると成功率が急激に低下するという重要な示唆を与えます。
  • 所感
    • 複数の指示に対するLLMの成功率が、個々の成功率の単純な掛け算で推定できるという経験則は、非常に興味深く実用的です。 この知見は、AIに複雑な要求をする際の限界を理解し、プロンプト設計を改善する上で重要な手がかりとなりそうです。

[A5-4] プロンプトに基づくテキスト埋め込みのタスクによる冗長性の違い

  • 著者: 塚越 駿, 笹野 遼平 (名大)
  • リンク: pdf
  • 紹介者: 森田
  • 概要
    • プロンプトに基づくテキスト埋め込みというのは、「レビューのP/N 分類」や「クラスタリング」、「検索」などタスクごとにプロンプトを与えてテキストの埋め込みをつくるタスクです。タスクごとに必要となる情報は異なり、どんなタスクにも使える最強のテキスト埋め込みを作るのは非常に難しいので、一つのモデルで様々なタスク向けの埋め込みを生成できるようになるのはありがたいです。
    • さて、この研究ではタスクごとに必要な情報が異なることにより、生成されるベクトルの性質が違うことに注目していて、各タスク向けに生成した埋め込みの分析と、情報のロス無くどの程度まで埋め込みの次元を削減できるかを調べています。
  • 所感
    • LLM系のモデルで生成する埋め込みはサイズが大きいので次元削減の効果・実用性も高く、埋め込みの固有次元や異方性を調べる分析方法やその結果も面白かったので個人的には賞を送りたい研究のひとつでした。

まとめ

今回の記事では、言語処理学会第 31 回年次大会 (NLP2025) の参加レポートをお届けしました。

やはり LLM を扱った多様な研究が目を引きました、実用例の紹介から内部動作の検証まで幅広く、企業からの参加者として非常に有意義でした。 来年の NLP2026 は宇都宮での開催ということで、現地にてまた多くの方にお会いできることを楽しみにしています。