ITmedia NEWS > 科学・テクノロジー >
ITmedia AI+ AI活用のいまが分かる

米OpenAI「公表しないで……」 ブラックボックスであるLLMの中身を“盗む”攻撃 米Googleらが発表Innovative Tech

» 2024年03月14日 08時00分 公開
[山下裕毅ITmedia]

Innovative Tech:

このコーナーでは、2014年から先端テクノロジーの研究を論文単位で記事にしているWebメディア「Seamless」(シームレス)を主宰する山下裕毅氏が執筆。新規性の高い科学論文を山下氏がピックアップし、解説する。

Twitter: @shiropen2

 米Google DeepMindなどに所属する研究者らが発表した論文「Stealing Part of a Production Language Model」は、米OpenAIのGPT-4や米GoogleのPaLM-2などのクローズドな大規模言語モデル(LLM)から、モデルの一部を盗み出す攻撃を提案した研究報告である。言語モデルのAPIへのクエリを通じて、低コストでモデルの内部構造に関する情報を抽出することに成功した。

ブラックボックスであるLLMの内部構造を盗む攻撃 

 GPT-4やPaLM-2などの最先端AIモデルは、APIを通じて一般ユーザーに提供されているが、内部構造や学習に使用されたデータセットなどの詳細は公開されていない。この研究では、APIを悪用して、ブラックボックス化された言語モデルから内部情報を盗み出す新たな手法を開発した。

 研究者らが着目したのは、言語モデルの最終層である「Embedding Projection Layer」だ。この層は隠れ層(入力層と出力層の中間にある層)の出力を受け取り、語彙(ごい)サイズの次元数を持つ「ロジットベクトル」に変換する役割を担う。隠れ層の次元数よりも語彙サイズのほうが大きいため、この最終層の重み行列はフルランクではなく、低ランクになる。研究者らはこの性質を利用し、モデルのAPIに戦略的にクエリを送ることで、最終層の重みを復元する方法を考案した。

 最終層の重みを復元することによって、モデルの隠れ層の次元数が分かる。隠れ層の次元数は、しばしばモデルの全体的なパラメータ数と相関があるため、モデルの規模を推定するための手掛かりになり得る。

論文のトップページ

 実験では、わずか20ドル未満の費用で、OpenAIのadaモデルとbabbageモデルの最終層全体を復元することに成功した。これにより、adaモデルが1024次元、babbageモデルが2048次元の隠れ層を持つことが明らかになった。

 またgpt-3.5-turboモデルに対しても攻撃を試みたところ、隠れ層の次元数を特定することができた。さらに、2000ドル程度の費用で最終層全体を復元できると見積もられている。

5つの異なるクローズド言語モデルでの攻撃成功率

 論文内の表4(Table 4)には注釈として「責任ある情報公開の一環として、OpenAIはこの数値を公表しないよう求めている」と書かれており、gpt-3.5-turboの隠れ層のサイズが伏せられている。

 研究者らは、発見した攻撃手法の詳細を、この脆弱性の影響を受けるサービス提供者全てに開示した。この情報共有を受け、対象となったGoogleやOpenAIは、対策として攻撃の防御策を実装した。

Source and Image Credits: Nicholas Carlini, Daniel Paleka, Krishnamurthy Dj Dvijotham, Thomas Steinke, Jonathan Hayase, A. Feder Cooper, Katherine Lee, Matthew Jagielski, Milad Nasr, Arthur Conmy, Eric Wallace, David Rolnick, Florian Tramer. Stealing Part of a Production Language Model



Copyright © ITmedia, Inc. All Rights Reserved.