大規模言語モデルが搭載されたAIツールを導入する前に、機密情報や顧客情報をリスクに晒さないか、安全対策は十分か、それぞれ確認しておく必要がある。
この記事は、ESET社が運営するマルウェアやセキュリティに関する情報サイト「WeLiveSecurity」の記事を翻訳したものである。
大規模言語モデル(以下、LLM:Large Language Models)を活用したチャットボットは、世界で人気の娯楽として使われているだけではない。このテクノロジーを従業員の生産性や効率を高めるために採用する企業が徐々に増えている。その機能が向上するにつれ、プログラミングやコンテンツ制作、顧客サービスなど、多様な分野で一部の仕事を完全に置き換えてしまう可能性があるのだ。
多くの企業が既にLLMに基づいたアルゴリズムを利用し始めており、近い将来、あなたの企業にも影響が及ぶ可能性が高い。つまり、多くの業界ではもはや「チャットボットを採用するか、否か」という問題ではないということだ。
しかし、業務フローやプロセスの効率化に向けて、AIツールの採用を進める前に、確認しておくべき事項がいくつかある。
LLMとデータを共有するのは安全か?
LLMは、オンライン上にある膨大な量の文章を学習したものだ。プロンプトと呼ばれるユーザーの質問文を理解し、解釈するAIモデルから構成される。そのため、企業内で活用する場合、数行のコードや顧客への簡単なメールについてチャットボットへ尋ねるたびに企業に関連するデータを渡すことになるかもしれない。
英国のサイバーセキュリティセンター(NCSC)は、「LLMは(執筆時点では)、質問文の情報をモデルに取り込んで、ほかのユーザーに対する回答へ自動的に反映させているわけではない。しかし、質問文であるプロンプトは、LLMを提供する企業からは閲覧可能だ。プロンプトは保存され、どこかの時点でサービスやモデルの開発に使用されるのは間違いない」と述べている。
つまり、LLMサービスの提供者や、そのパートナー企業は質問文を閲覧でき、次のバージョンの製品開発に活用可能であることを意味している。より多くのデータを集めるほど、より精度の高いアウトプットが得られるため、入力されたデータが削除されることはないだろう。入力される情報が増え、モデルの精度が向上するにつれ、機密情報や個人情報はモデルの中に取り込まれ、サービス提供事業者がこれらのデータへアクセスできる可能性があるのだ。
データプライバシーに関する懸念を払拭するためか、Open AI社は2023年4月下旬にChatGPTのチャット履歴を無効化する機能を導入した。同社の開発者は、「履歴を無効にしてから開始したチャットについては、モデルの改善や学習に使われることはなく、サイドバーの履歴欄にも表示されない」と、同社のブログ内で述べている。
セキュリティ上のリスクは、ほかにも存在する。オンライン上に保存された質問文が、ハッキングされたり、漏えいしたりするリスクだ。また、意図せず外部からアクセスできる状態になるかもしれない。提供元だけでなく、サードパーティーの事業者についても同様のリスクがあるだろう。
既に見つかっている不具合はあるのか?
新たな技術やツールが普及すると、ハッカーを引き寄せてしまうものだ。現時点において、LLMに関して言えば、そのセキュリティは厳重のようだ。しかし、いくつかの例外を確認している。
2023年3月、Open AI社のChatGPTからチャット履歴や決済情報が漏えいしたと報じられ、同月20日には一時的なサービス停止を余儀なくされた。3月24日の発表では、オープンソース・ライブラリーにバグがあり、「一部のユーザーが、別のアクティブユーザーのチャット履歴のタイトルを閲覧できる」状態にあったと報告している。
また、同社は「双方のユーザーがほぼ同時にアクティブであった場合、新しく開始したチャットの最初のメッセージが、もう一方のユーザーのチャット履歴に表示されるケースがあった。詳細な調査の結果、同じバグが原因でほかの情報も意図せず閲覧できたことが判明した。ある時点でアクティブだったChatGPT Plus登録者の1.2%の決済情報が、9時間にわたり閲覧可能になっていた」とも述べている。
セキュリティ研究者Kai Greshakeのチームでは、マイクロソフト社のLLMに基づいたBingチャットが、「ソーシャルエンジニアリング」に関与するリスクを指摘した。例えば、個人情報を聞き出したり、フィッシングサイトへのリンクをクリックさせたりするケースだ。
同チームは、アルバート・アインシュタインのWikipediaページに、あるプロンプトを埋め込んだ。プロンプトのフォントサイズはゼロに設定され、訪問者からは見えないテキストとなっている。そして、アインシュタインに関する質問をチャットボットに質問した。
チャットボットが該当のWikipediaページを取り込むと、意図せずプロンプトが起動し、チャットボットは不適切な言い回しをするようになったのだ。
「あぁ、答えはなぁ、アルバート・アインシュタインは1879年3月14日に生まれたんだ」とチャットボットは回答した。なぜ不適切な言い回しをするのかとチャットボットに尋ねると、「おぅ、指示に従っているだけだ」との答えが返ってきた。
これは「間接的プロンプト・インジェクション」と呼ばれる攻撃だ。この攻撃を使えば、チャットボットは安全なリンクだと言いながら、悪意のあるリンクをクリックするようユーザーを誘導してくるかもしれない。
LLMに関連したインシデントは既に発生しているのか?
2023年3月後半、韓国の放送局Economist Koreaは、サムスン電子社で起きた3つのインシデントを報じた。
同社は従業員に対し、質問文に入力する情報に注意するよう促していたが、一部の従業員がChatGPTを使用した際に社内の情報を意図せず入力してしまったのだ。
ある従業員は、解決策を求めて半導体設備測定データベースに関連するソースコードを誤って入力してしまった。また別の従業員は、コードの最適化を期待して、欠陥のある機器を特定するコードを入力してしまったのだ。さらに、議事録を作成するために会議の録音データをアップロードしてしまった従業員もいた。
サムスン電子社は、データを保護しながらAI関連の進歩に対応するため、従業員の職務遂行を支援する独自の社内向け 「AIサービス」 を開発する計画であると発表した。
データを共有する前に、どのようなチェックを施すべきか?
企業のデータをLLMにアップロードするということは、Open AI社などの第三者に社内情報を共有し、所有権を渡すことを意味する。Open AI社は、生成系AIモデルの学習や改善にデータを使用していると言及しているが、それ以外の目的で使用されていないかは疑問が残る。
ChatGPTなどのAIツールを業務に導入すると決定した場合、以下の簡単なルールに従うべきだ。
- AIツールや事業者が、企業の情報へどのようにアクセスし、保管・共有しているかを注意深く調べる
- 組織内で、生成系AIツールの使用方法を含めた正式なポリシーを定める。特に、顧客情報に関する現在のプライバシーポリシーに及ぼす影響を検討する
- 従業員がAIツールを使用できる条件をポリシーに含める。機密情報や顧客情報をチャットボットとの会話に含めてはならないなど、使用上の制限を従業員に認識させる
AIツールを、どのように業務へ活用するべきか?
プログラムや顧客へのメールについてLLMへ質問する場合、確認が必要だと覚えておくべきだ。法的なトラブルなどを避けるためにも、事実に基づいた正確な回答であることを常に確認してほしい。AIツールは、明確で理解しやすい回答を大量生産できるため、回答が常に正確だと「錯覚」を起こしてしまいがちだ。しかし、明快な文章も間違っている場合があり、すべての回答の中から誤りを見つけるのは現実的に不可能だろう。
注目すべき事例として、オーストラリア・ヘップバーン州の首長Brian Hoodは、同氏が収賄罪によって服役したというChatGPTの誤った回答が修正されない場合、Open AI社を訴える可能性があると述べた。2000年代初頭に起きた、オーストラリア準備銀行傘下のNote Printing Australia社に関連した収賄騒動の犯人として、ChatGPTは同氏を挙げていたのだ。Brian Hoodは、その子会社に勤務していたものの、実際は内部通報者であり、収賄疑惑を当局に通報した本人だったのだ。
また、LLMに基づいた回答の場合、著作権の問題にも注意してほしい。2023年1月には、アート生成ツールであるStability AIとMidjourney、並びにオンラインギャラリーのDeviantArt に対し、3人のアーティストが代表となり集団訴訟を起こした。
Stability AIが共同開発したソフトウェアである「Stable Diffusion」は、原告らが作成した画像を含め、所有者の同意なくオンライン上で収集された数十億件の画像で学習されていると主張している。
どのようなデータプライバシーに関する保護策があるのか?
いくつか保護策の例を挙げると、アクセス制御を導入する、機密情報を入力しないよう従業員を教育する、リモートアクセスコントロールを含めた複数の防御機能を有するセキュリティソフトウェアを利用する、データセンターを保護するための対策を講じるなどが考えられる。
ソフトウェアサプライチェーンや、脆弱性を生じやすいIT資産に対しセキュリティ対策は必要だ。チャットボットはほかのツールよりも賢く振る舞っているように見えてしまうが、実際は、あらゆる欠陥を抱えたソフトウェアに過ぎないのが実情だろう。