米OpenAI「公表しないで……」　ブラックボックスであるLLMの中身を“盗む”攻撃　米Googleらが発表：Innovative Tech

» 2024年03月14日 08時00分公開

[山下裕毅，ITmedia]

Innovative Tech：

このコーナーでは、2014年から先端テクノロジーの研究を論文単位で記事にしているWebメディア「Seamless」（シームレス）を主宰する山下裕毅氏が執筆。新規性の高い科学論文を山下氏がピックアップし、解説する。

Twitter: ＠shiropen2

　米Google DeepMindなどに所属する研究者らが発表した論文「Stealing Part of a Production Language Model」は、米OpenAIのGPT-4や米GoogleのPaLM-2などのクローズドな大規模言語モデル（LLM）から、モデルの一部を盗み出す攻撃を提案した研究報告である。言語モデルのAPIへのクエリを通じて、低コストでモデルの内部構造に関する情報を抽出することに成功した。

ブラックボックスであるLLMの内部構造を盗む攻撃　

　GPT-4やPaLM-2などの最先端AIモデルは、APIを通じて一般ユーザーに提供されているが、内部構造や学習に使用されたデータセットなどの詳細は公開されていない。この研究では、APIを悪用して、ブラックボックス化された言語モデルから内部情報を盗み出す新たな手法を開発した。

　研究者らが着目したのは、言語モデルの最終層である「Embedding Projection Layer」だ。この層は隠れ層（入力層と出力層の中間にある層）の出力を受け取り、語彙（ごい）サイズの次元数を持つ「ロジットベクトル」に変換する役割を担う。隠れ層の次元数よりも語彙サイズのほうが大きいため、この最終層の重み行列はフルランクではなく、低ランクになる。研究者らはこの性質を利用し、モデルのAPIに戦略的にクエリを送ることで、最終層の重みを復元する方法を考案した。

　最終層の重みを復元することによって、モデルの隠れ層の次元数が分かる。隠れ層の次元数は、しばしばモデルの全体的なパラメータ数と相関があるため、モデルの規模を推定するための手掛かりになり得る。

論文のトップページ

　実験では、わずか20ドル未満の費用で、OpenAIのadaモデルとbabbageモデルの最終層全体を復元することに成功した。これにより、adaモデルが1024次元、babbageモデルが2048次元の隠れ層を持つことが明らかになった。

　またgpt-3.5-turboモデルに対しても攻撃を試みたところ、隠れ層の次元数を特定することができた。さらに、2000ドル程度の費用で最終層全体を復元できると見積もられている。

5つの異なるクローズド言語モデルでの攻撃成功率

　論文内の表4（Table 4）には注釈として「責任ある情報公開の一環として、OpenAIはこの数値を公表しないよう求めている」と書かれており、gpt-3.5-turboの隠れ層のサイズが伏せられている。

　研究者らは、発見した攻撃手法の詳細を、この脆弱性の影響を受けるサービス提供者全てに開示した。この情報共有を受け、対象となったGoogleやOpenAIは、対策として攻撃の防御策を実装した。

Source and Image Credits: Nicholas Carlini, Daniel Paleka, Krishnamurthy Dj Dvijotham, Thomas Steinke, Jonathan Hayase, A. Feder Cooper, Katherine Lee, Matthew Jagielski, Milad Nasr, Arthur Conmy, Eric Wallace, David Rolnick, Florian Tramer. Stealing Part of a Production Language Model

今週、生成AI「Grok」をオープンソースにする──イーロン・マスク氏が発表　「OpenAIはうそつき」
米xAIは今週、生成AI「Grok」をオープンソースにする──同社を率いるイーロン・マスク氏は、X上にそのように投稿した。
AIに「ITパスポート試験」を解かせてみると……　最もIT分野に詳しいLLMは？　GMO子会社が検証
大規模言語モデル（LLM）に国家試験「ITパスポート試験」を解かせてみた──そんな研究成果をGMOグループのGMOメディアが発表した。LLMが持つ推論能力や問題解決能力の特徴を分析するため、IT分野での能力差を検証。GPT-4など、6種類のLLMで比較した。
世田谷区がAI botを内製　非エンジニア職員がローコードで開発　ChatGPT活用「ヒデキ」
世田谷区が、職員用のチャットツールを使ってChatGPTと対話できるbot「HIDEKI」（ヒデキ）を内製で開発し、1月から全職員に提供している。
話題のチャットAI「Claude 3」のプロンプト集、公式が公開中　「Excelの数式作って」など64種
話題のチャットAI「Claude 3」について、提供元の米Anthropicは3月11日までに公式プロンプト集を公開している。「プロンプトライブラリ」と題したWebサイトで、全部で64種類の使用例を公開中。
ドラマ「相棒」に“AI右京”登場　生成AIのフェイク動画が拡散、カオスもたらすストーリー
3月13日に放送するドラマ「相棒 season22」最終回に生成AIが登場する。水谷豊さん演じる主人公・杉下右京の“謎の動画”が拡散されてしまい、波紋を呼ぶ──というあらすじ。予告動画では「この動画は生成AIによって作られたものだ」と推理する一幕もある。