九州大学情報基盤研究開発センター

民間利用成果報告書

利用課題名: 日英マルチリンガル文表現の構築

企業名:株式会社レトリバ

代表者名:西鳥羽二郎

所属部署:AI事業部研究チーム

職位:取締役

メール:jiro.nishitoba@retrieva.jp

連絡先:0332880377

利用期間:2024年11月~2025年3月

利用成果 公開:即時公開

利用計画全体の概略

1)利用目的
文表現の構築時に必要とするEmbeddingのファインチューニングにおいてGPUによる高速化が必要である。
また、検索精度と計算速度のトレードオフを選択できるようにするため、東北大BERT(110M)、RetrievaBERT(1.3B)、Gemma2(9B)など様々なサイズのモデルをベースとした文表現の構築を行う必要があり、複数台のGPUを必要とする。
上記の理由により、GPUを大規模に利用可能な玄界の利用を希望する。

2)利用意義
今回玄界を利用して構築したモデルについてはApacheライセンスで公開予定である。
日英対応モデルの公開により日本企業内での社内情報活用の促進が見込めるほか、日本語情報検索、cross-lingual information retrievalなどの新たな研究の促進も見込むことができる。

3)必要性
通常のLLMの利用と比較してHallucinationの抑制や、社内文書の反映ができるRetrieval Autumented Generation(RAG)の利用が広まっている。
RAGはLLMにより出力を生成する際に入力に関係する文書を取得して補助情報として用いることにより出力の精度を高めている。そのため入力に対して関連する情報を取得するための検索の精度は重要である。
検索は近年は文書を文章とみなして文表現を通じてインデクシングを行い、類似文書を取得する手法が精度が高いことが知られている。
日本企業の社内情報活用を想定した際には日本語と英語の文書が混在することが想定され、日本語英語共に高い精度が求められる。
しかしながら、我々の知る限り公開されている日本語対応文表現では多言語モデルのように日本語を少量しか含まれていないものや、日本語のみで学習しているモデルしかなく、日本企業内で必要である日英両方に対応したモデルはほとんどない。
そのため社内情報活用を促進させるため日英対応モデルの構築を行う。

成果の概要

1)具体的な成果
本課題では日英の検索に強い文表現の構築を行い、RetrievaEmbedding - 01. AMBER(Adaptive Multitask Bilingual Embedding Representation)という名前で公開した。
AMBERは日本語の検索タスクにおける精度において同規模のサイズのモデルの中では公開当時では最高精度を出すモデルとなった。
また、英語においても文表現の性能を測るMTEBデータセットにおいて多言語モデルと同等の性能を発揮するモデルとなっている。
そのため日本語の文書が主だが英語の文書も存在する検索においては最適なモデルとなっている。詳細に関しては以下のページに記載している。
ニュースリリース: https://retrieva.jp/news/202503101100/
会社ブログ記事: https://note.com/retrieva/n/n4ee9d304f44d
また、本課題におけるモデル構築を通じて文表現の学習において、
(1) 日本語だけでなく、英語を含めた様々なデータが有効であること、
(2) 学習に使用したタスクデータが特定の評価タスクには有効だが、別の評価タスクでは負の影響を与えること、
(3) インストラクションを利用することで、より柔軟な検索が行えることを示した。
本件に関しては第31回言語処理学会年次大会において「インストラクションと複数タスクを利用した日本語向け分散表現モデルの構築」というタイトルで発表を行った。

2)社会・経済への波及効果
本課題を通じて構築したモデルはApache2.0ライセンスで公開した。
これによりRAGを活用する際の日英の文書検索の改善などが期待でき、企業内での情報活用が促進されると見込まれる。
また、弊社でもAMBERを活用した日本企業向けRAGシステムの開発を検討しており、これを通じた社内情報活用の推進を行っていく。

利用アンケート

1)利用に関して有益であった事項
具体的な速度の測定は実施しておりませんが、GPUがH100ということもあり、非常に高速に検証が実施できました。

2)利用に関して生じた問題点
規定上民間利用料金の差額を消費ポイントの違いで定めているにも関わらず、購入・運用がポイントの単価の違いで実施されている点が非常に紛らわしかったので規定か実際の運用かのいずれかに統一していただければと思います。
また、同一のリソースグループ(b-batch)の中でも、速度に大きく差があるノードやGPUがあり、その際にどちらにその問題を報告すればいいのかわかりませんでした。

3)ユーザーサポートへの要望

4)施設利用に関する感想・改善希望

5)本事業で得られた成果や公表予定の成果
学会発表 勝又智、 木村大翼、西鳥羽二郎 「インストラクションと複数タスクを利用した日本語向け分散表現モデルの構築」言語処理学会第31回年次大会
モデル公開: https://retrieva.jp/news/202503101100/