ChatGPTをビジネスで活用するのは危険なのですか?
こんにちは!よんりん(Yonrin)です。
ChatGPTを皮切りに、生成AIのビジネスへの応用が議論されています。
リスクについても、いろいろと議論されていますよね。
しかし、どこかまだ得体のしれない生成AIについて、包括的なリスクの整理がまだなされていません。
技術の進化が早く、生成AIのサービスプロバイダのリスク対応も日々変化しています。
それは承知の上で、今時点の生成AIのリスクについて、できるだけ包括的に考えてみたいと思います。
尚、生成AIの定義は幅広いですが、ここではChatGPTに代表される、テキストベースの生成AIについて、掘り下げてみたいと思います。
※他の媒体での当ブログの内容紹介は歓迎いたしますが、無断での内容転用はお控えください。基本的に、断ることはありませんので、内容紹介・リンク・転用のご一報をいただけますと幸いです。
生成AIのビジネス利用は危険なのか?
ここでは、生成AIのビジネス利用について、13のリスクを提示しています。
そして、その13のリスクを大きく6つに分類しています。
さまざまな種類のリスクが議論されていますが、概ねこの6つに分類できるのではと思います。
② 生成AIのエンドユーザ・データのリスク
③ 生成AIのカスタマイズのリスク
④ 生成AIの倫理リスク
⑤ 生成AIの乱用のリスク
⑥ 生成AIの未知の社会的影響リスク
ビジネスでの利用を考えた場合、直接関係があるリスクと、間接的に関係するリスクがあります。
①~④は直接的なリスク(当該利用企業がある程度対応可能なもの)です。
⑤、⑥は間接的なリスク(当該利用企業で対応できないもの)です。
何より重要なのは「未知のリスク」が存在するということです。
生成AIには、その開発企業でさえ認めざるを得ない「未知のリスク」があります。
順番に、見ていきましょう。
①生成AIの固有機能のリスク
まず、生成AIの固有機能とは何でしょう?
ここでは、利用者に対して「正確に」、「適切な」情報を提供する、ということと考えます。
ですので、リスクとしては、ふたつ考えられます。
リスク1:生成AIの提供する情報が正確ではない
まず、正確性についてのリスクです。
生成AIが常に正確な情報を提供するかというと、そうではない場合があります。
そして、こうした事象は、他のシステムのバグを直すように直せるものではありません。
生成AIでのテキスト生成は「確率的に」確からしい文章を作り出します。
そのため、特定の質問や命令に対する応答が誤っている場合の対処は、正しい情報を応答する「確率を高める」ということになります。
情報の正確性に過度に依存しない。
必要に応じて人手で情報の正確性を検証する。
リスク2:生成AIの提供する情報が適切ではない(偏見がある)
生成AIの応答について、正確性に問題がなくても、適切性に問題がある可能性があります。
「言ってることは正しいけれど、言っちゃいけないよね」、という類のものです。
実は、生成AIのモデルの学習プロセスには、人間が人手でやっている部分があります。
OpenAIのchatGPTに使われている生成AIのモデルも、訓練された「Labeler(ラベラー)」と呼ばれる人たちが、学習データをさまざまな角度から検証しているのです。
「Labeler(ラベラー)」が何をしているかというと、ふたつのことをやっています。
ひとつは、質問や命令に対する生成AIの「理想的な応答」を考えて、学習データを作ること。
もひとつは、そうして学習した生成AIに「複数の応答」をさせて、どれが良いかを「ランク付けしてフィードバック」すること。
つまり、OpenAIも認めている通り、人間のやることなので、どうしても限界があります。
生成AIのモデルを作る過程で、完全に不適切な情報を学習データから排除したり、生成AIが不適切な文章を作る可能性をゼロにするには、至っていないということです。
特に外向けのサービスに生成AIを利用する場合は、人手で情報の適切性を検証する。
サービスに生成AIを利用している旨を予めユーザー告知しておく。
サービスのユーザーにフィードバックの機会を提供して情報収集する。
②生成AIのエンドユーザ・データのリスク
生成AIの利用に伴うエンドユーザ・データにも、注意が必要です。
ここでのエンドユーザ・データとは、「プロンプト・データ」を指します。
「プロンプト・データ」というのは、たとえばChatGPTの利用者が入力する「質問や命令」の情報のことです。
「プロンプト・データ」は、基本的に生成AIのアプリケーションを提供している企業からは見える状態になっています。
すなわち、利用者が機密情報をChatGPTへの質問や命令に含めると、その情報はOpenAIの企業サーバーに残ってしまう、ということです。
リスク3:ユーザが生成AIにプロンプトとして機密情報を入力する
生成AIを使った外部のサービスを利用する場合には、ユーザがプロンプトに機密情報を入力するのは避けるべきです。
機密情報が生成AIを使ったサービスを提供する会社の管理下に置かれるからです。
そして、ユーザのプロンプトデータが、生成AIの学習データとして利用される可能性があります。
OpenAIは、今のところ利用者が入力したプロンプトデータの内容が、そのまま別の利用者への応答として表示される、というようなことはないとしています。
また、ChatGPTの利用者は、自分のプロンプトデータをOpenAIが保存して学習データとして利用しても良いか、もしくは削除するかを選択できます。
削除を選択した場合は、一定期間の後に削除されます。
一定期間残される理由は、不適切な生成AIの利用が検出された場合に、OpenAIが調査協力目的で利用する可能性があるためです。
また「生成AIを使ったサービスを提供する会社」とは、生成AIモデルを提供するOpenAIのような会社だけではありません。
OpenAIの生成AIモデルを使って、クラウドで別のサービスを提供するような、周辺のベンダー会社なども含まれます。
それらの周辺のベンダー会社が提供するサービスを利用する場合には、注意が必要です。
OpenAIの生成AIモデルを利用したサービスを提供する周辺ベンダー会社のサービスを利用する場合には、利用者のプロンプトデータは、OpenAIに加えて、その周辺ベンダー会社にも残る可能性があります。
生成AIサービスの利用についての社内ルールを整備する。
利用者(社員)が機密情報を入力しないようにする。
リスク4:ユーザが生成AIに入力したプロンプトデータが漏洩する
生成AIのサービスを提供する会社は、通常データの扱いについてルールが整備されています。
データの扱いに関する規定はユーザにも公開されていることがほとんどです。
それでも、利用者はデータが漏洩するリスクを気に掛ける必要があります。
たとえば、利用者のプロンプトデータを管理する会社がサイバー攻撃を受けたら。
たとえば、その会社の社員の不注意がデータの漏洩を招いたら。
自分の会社内の管理の外で、こうした事故が起こることがあります。
生成AIサービス会社における情報セキュリティの体制や管理状況を理解する。
生成AIサービス会社におけるデータ管理状況を理解する。
リスク5:ユーザが生成AIに入力したプロンプトデータの取り扱い規定が変わる
生成AIのサービスを提供する会社におけるデータ管理規定については、通常はウェブサイトなどで公開され、ある程度の安全は確認できます。
しかし、こうしたデータ管理規定は、いつまでもそのままとは限りません。
改定が行われ、生成AIの学習データに使われないと思っていた自分のプロンプトデータが突然使われることになるかも知れません。
また、異なるデータ管理規定を持つ会社が生成AIのサービス会社を買収、というようなことになれば、当然データの扱いは変わります。
生成AIサービス会社におけるデータ管理規定を定期的に確認する。
データ管理規定の改定や企業買収による規定変更などの影響を考慮して利用する。
③生成AIのカスタマイズのリスク
生成AIは、利用者サイドでカスタマイズできることがあります。
OpenAIはAPIを通じて、カスタマイズできます。
APIは「アプリケーション・プログラム・インターフェース」のことです。
APIの利用者は簡単なプログラミングをすることで、OpenAIのプログラムとつながることができます。
OpenAIは、利用者がOpenAIの生成AIモデルにプログラミングでつながれる仕組みを提供しているのです。
では、OpenAIの生成AIに対してどのようなカスタマイズができるのか。
ふたつあります。
ひとつは、利用者が学習データを作って、既存の生成AIを自分好みに学習させること。
もうひとつは、利用者が生成AIの「パラメータ」を設定して、自分好みの応答を返すようにすること。
「パラメータ」は、たとえば生成AIの応答の「独創性」と「精確性」の調整設定値があります。
独創性と精確性は、どちらかを取ればどちらかが損なわれる、という関係にあります。
APIを利用すれば、生成AIの応答をどちらに寄せるか、という設定をすることができます。
リスク6:ビジネス上の目的に沿わない変更が生成AIに加えられる
生成AIのサービスに対する変更は、生成AIに利用者の意図した応答を返させるためのものです。
利用者がクリエイティブな応答を求める場合には、適切な「パラメータ」の設定が必要です。
想定される質問に対して特定の回答を意図する場合には、想定する質問と理想的な回答の学習データを作成して、生成AIモデルに読み込ませる必要があります。
もし、社内で特定の目的のために利用する生成AIに意図しない変更が加えられてしまうと、期待した応答が得られなくなり、ビジネスに支障をきたしてしまいます。
生成AIモデルのカスタマイズは、ビジネスの目的に整合しているか確認する。
生成AIモデルのカスタマイズ後に、意図した通りの応答を得られるかテストする。
リスク7:生成AIに不正な変更が加えられる
前述の通り生成AIへのカスタマイズは、ビジネス上の目的整合性を事前確認する必要があります。
しかし、そもそも、どのようなカスタマイズであっても、生成AIモデルに影響する変更は、事前チェックされるべきです。
ビジネス上の目的整合性を確認するためだけのチェックしかしない場合、それ以外の変更について見過ごされる可能性があります。
不正な学習データで生成AIの応答を意図的なものにされたり、不正なパラメータ設定で本来の期待と異なる動作をするようにされる可能性があります。
ビジネスに利用する生成AIへの変更は必ず、変更を実施する人とは別の第三者によるチェックをするべきです。
生成AIモデルへのあらゆる変更内容は、第三者が適切性をチェックする。
④生成AIの倫理リスク
前述リスク2で示したように、生成AIが適切な応答をしない場合があります。
ここで注意すべきなのは、「適切性」は主観的ということです。
つまり、「何が適切なのか」は、人によって違うということです。
その点、生成AIは万人に受け入れられる応答をすることが保証されたものではない、ということに注意が必要です。
リスク8:生成AIの応答がユーザによって倫理的に問題があると捉えられる
OpenAIも認めている通り、「ひとつの価値基準」が全世界の人に受け入れられることは稀です。
ある人にとって価値が認められる内容も、別の人にとっては受け入れがたいものになります。
OpenAIは、万人の価値基準に沿ったシステムを作ることは難しいということを言っています。
社内外のヘルプデスクなど、不特定多数がアクセスする企業の窓口に生成AIを活用する場合には注意が必要です。
ある人にとって倫理的に問題ない内容が、別の人には大問題、ということがあり得るからです。
すべての人類が統一された価値基準を持つことは困難です。
価値の評価はそれだけ相対的なものだからです。
ChatGPTは、国際的な人権法や公民権運動などの社会運動についてのデータを学習しています。
それでもやはり、倫理面での問題については、継続的な改善の余地があるとしています。
生成AIを利用するユーザグループの属性について検討する。
生成AIの応答を評価する際の価値基準の多様性を検討する。
⑤生成AIの乱用のリスク
生成AIは、大変便利ですが、悪意ある人にとっても、それは同じことです。
ビジネスの利用に関するリスクとは直接関係ありませんが、生成AIの悪用による脅威について、理解しておく必要があります。
リスク9:生成AIがマルウェアの開発やソーシャル・エンジニアリングに活用される
生成AIを利用すると、マルウェア(悪意あるプログラム)の生成が可能になります。
今はまだ、専門的な知識を持った人間が作成する方が効率的なようですが、今後はわかりません。
また、悪意あるプログラムが添付されたメールを巧みな言葉とともに送ったり、悪意あるウェブサイトを作ることが、可能になります。
また、政治的なプロパガンダやフェイクニュースの生成にも利用される可能性があります。
しかも、こうした悪用が多言語で実施されることにも注意が必要です。
日本語を知らない外国人が、日本人が書くような内容のメールを簡単に生成できるのです。
企業では、これまで以上にセキュリティ意識を高めることが重要になります。
生成AIの悪用によってサイバー攻撃を受ける頻度や手法が増えることを理解する。
リスク10:悪意あるプロンプトデータが学習データとして利用される
利用者のプロンプトが生成AIの学習データとして利用されることを逆手にとって、プロンプトを意図的に悪意ある内容にする攻撃があります。
それによって、もともとは問題のなかった生成AIモデルに問題が生じる可能性があります。
悪意のあるプロンプトは、ひと目でわかるようなものもあれば、巧みに意図を隠されたものもあります。
プロンプトデータを学習データとして使うことを自動化する場合は注意が必要です。
機械的にすべてのプロンプトを学習データとして取り込むことは避けましょう。
すでにある生成AIモデルを追加で学習させることを「ファイン・チューニング」と言います。
「ファイン・チューニング」に必要なデータ量は、かなり少なくても効果があることが分かっています。
ChatGPTに使われている「GPT-3」のモデルは570GBのデータで学習させたものですが、とある修正に必要だったファインチューニングのデータは、わずか80セットのテキスト(質問と応答の組み合わせで、1セットは40から340語程度)のみでした(全体の学習データの0.000000211%に相当)。
人手で、少なくても高品質な学習データを作ることが、大切です。
プロンプトデータを生成AIの学習に利用する場合は人手で内容をチェックする。
⑥生成AIの未知の社会的影響リスク
生成AIは、またたくまに世の中に広まりましたが、実用の年数はほとんどありません。
さまざまな予測がされているものの、社会的な影響は、はかり知れません。
リスク11:生成AIによって既存の職業の代替が起こる
生成AIによって、「取って代わられる職業」が出てくる可能性があります。
逆に、「新たに必要とされる職業」も出てくる可能性もあります。
現状は、大量の失業を生み出すような事態にはまだなってはおらず、また大きく雇用創出に貢献する状況にもなっていません。
社員のリスキリングや、ビジネスモデルの転換など、中長期のシナリオはいくつか想定しておく必要がありそうです。
社員のリスキリングやビジネスモデルの転換など、中長期のシナリオを想定しておく。
リスク12:重要な判断が生成AIに依存され続けることにより、人間の判断力の低下が起こる
生成AIがこれまでの人間の思考活動を恒常的に代替する場合、人間の判断力の低下につながる可能性があります。
個人的には、汎用的な人間の判断力が低下するとは考えづらいですが、特定のビジネス分野における「判断の経験」の機会は減りそうです。
今は、これまで判断の経験を積み重ねてきた人たちが、生成AIの判断の是非について評価することができるでしょう。
しかし、これから社会に出た人たちが、自らの判断の経験なく、生成AIの判断の是非を評価するのは、難しいかも知れません。
そうした生成AIを真の意味で使いこなす(=生成AIのアウトプットを評価できる)人材を育成の観点から考えておくのが良さそうです。
生成AIの判断の是非を評価できる人材を育成する。
リスク13:生成AIが引き起こす未知のリスクが見過ごされる
最後に、生成AIにはここまで列挙してきた以外の未知なるリスクが存在する可能性があるということは、覚えておく必要があります。
これから生成AIが実社会に取り込まれ、より多くの人に多様な使われ方をしていきます。
実践の中で想定外のリスクの顕在化に直面することが考えられます。
現時点で考えられるリスクにすべて備えていても、不十分な可能性はあります。
最新の生成AIのリスク動向を注視して、定期的に対応を改善する。
まとめ:生成AIのビジネス利用はリスクを理解して適所に利用する
生成AIのビジネス利用は危険なのか?という問いについて、考察してまとめました。
生成AIをビジネス利用する際には、まずはリスクを理解することから始めましょう。
「何かよく解らなくて怖い」という状況から抜け出すことができます。
リスクを理解すれば、実用化する際に、適切なリスクへの対応を織り込むことができます。
ビジネスへの活用を足踏みすること自体もまた、競争力の観点からリスクになります。
生成AIのリスクに適切に対応しながら、上手にビジネスに活かせるようにしましょう。