チャットボットの台頭

Rise of Chatbots

Credit: Venomous Vector

2016年の米国大統領選挙では、ロシアの「トロール農場」と名乗るインターネットリサーチエージェンシーが、Twitterを利用して偽のニュースやその他の偽情報を拡散し、ヒラリー・クリントンの選挙チャンスを損ない、ドナルド・トランプがホワイトハウスに到達するのを助けようとした、と上院情報委員会の2020年の報告書は述べています。そのほとんどが人間によって作られたものだったようですが、ロシアの祝日になると活動が低下するという事実がそれを支持していると思われます。

しかし、近い将来、もしくはすでに、ChatGPTのような人間らしいテキストを生成できるチャットボットのような人工知能(AI)システムによって、そのような宣伝は自動的に生成されるようになるでしょう。

「ChatGPTがこれらのツイートを生成する場面を想像してみてください。同じ価格で管理できる偽アカウントの数ははるかに多くなるでしょう」と、AIとセキュリティ問題の交差点に関する研究を専門とするノースウェスタン大学のコンピュータサイエンスの教授V.S. Subrahmanianは言います。「それは偽造の生成を拡大する可能性があるでしょう。」

Subrahmanianは、1月に発表されたブルッキングス研究所のレポートの共著者であり、ディープフェイクの拡散が国際紛争のリスクを増加させる可能性があり、その技術がより広く使用される可能性があると警告しています。そのレポートは偽のビデオ、オーディオ、および画像に焦点を当てていますが、テキストも問題になる可能性があると彼は言います。

テキスト生成が問題を引き起こしていない可能性があります。「悪意のある行為者がそれを実質的に使用した証拠はまだ見ていません」とSubrahmanianは言います。「しかし、新しい技術が出現するたびに、いずれはその時が来るので、早めに準備する必要があります。」

サイバー犯罪者がテキストジェネレーターの可能性を探っていることが示唆されています。セキュリティソフトウェアメーカーのCheckpointは、1月のブログ投稿で、ChatGPTがリリースされた直後、未熟なプログラマーがそれを使用してランサムウェアやその他のマルウェアを作成するソフトウェアコードを生成していると述べています。「このレポートで紹介するツールはかなり基本的ですが、より洗練された脅威アクターがAIベースのツールの使用方法を改善するまでの時間の問題です」と同社は書いています。

一方、サイバーセキュリティツールのフィンランドのプロバイダーであるWithsecureは、「prompt engineering」と呼ばれる手法で、ユーザーがChatGPTのようなソフトウェアを誘導してフィッシング攻撃、嫌がらせ、偽ニュースを作成する危険性について警告しています。

ChatGPTは、OpenAIが開発した大規模言語モデル(LLM)に基づくチャットボットであり、AIの進歩に関して興奮や恐怖を引き起こし、様々な分野の多くの技術者から反発がありました。AIの開発を一時停止するよう求める呼びかけがあり、記事執筆時点で、OpenAIのCEOであるSam Altmanをはじめとする世界の主要なAI科学者、研究者など数百人によって署名された一文の公開書簡があり、「AIによる絶滅リスクを軽減することは、パンデミックや核戦争などの社会規模のリスクと並んで、グローバルな優先課題であるべきです」と警告しています。開発に投資したMicrosoftは、すぐにそのチャットボットを検索エンジンのBingに組み込み、不正確で時には不気味な会話が報告されました。Googleも、以前にGoogleエンジニアが自己認識していると宣言したLaMDA LLMに基づく自社のチャットボットであるBardのバージョンを出しました(そのエンジニアは後に解雇されました)。

これらのLLMによって生成されたテキストは、初期の失敗があったにもかかわらず、人間が書いたもののように驚くほど聞こえることがあります。「素晴らしい散文を生成する能力は、ChatGPTチームによる大きな印象的な科学的業績です」とSubrahmanianは言います。

トップへ戻る

偽物検出器

そこで、研究者たちは、人間が書いたテキストとコンピューターが生成したテキストを区別する方法を持つと便利だと考えています。いくつかのグループは、合成テキストを識別するための検出器を開発しました。1月末に、OpenAIは、可能な誤情報キャンペーンを特定し、学生がテキストジェネレーターを使用して学校の仕事を不正に行うリスクを減らすために設計された分類器をリリースしました。同社は、その分類器が完全に信頼できないことを警告しています。テストでは、1,000文字未満のテキストには適用できず、英語以外の言語ではうまく機能しなかったため、人間が書いたテキストの9%をAIが書いたとラベル付けしたと述べています。

バージニア工科大学のコンピュータサイエンスの教授であるBimal Viswanathは、開発者が生成したシンセティックテキストで高い正確性を示す検出器もあるが、実世界で見つかるフェイクテキストではあまりうまくいかず、データの分布が実験室で作成されたものと異なる場合や、悪意のある人々が防御に適応しようとする場合があると述べています。

AIで書かれたテキストは、作成される方法によって検出可能と考えられています。LLMは、人間によって書かれたテキストで訓練され、特定の単語が他の単語に近く出現する頻度についての統計を学びます。その後、与えられた単語が次の文章に表示されるのに最適な選択肢である可能性がどの程度高いかを予測し、通常は最も高い確率の単語を選択します。人間は単語の選択肢が多様であり、その多様性の違いは認識できます。

Viswanathは、検出器が特定のテキストを本物またはフェイクとして認識する理由を確実に述べることの困難さを強調しています。彼らはニューラルネットワークとディープラーニングを使用して、テキストシーケンスの隠れたパターンを識別しますが、ディープラーニングの多くと同様に、科学者は常にパターンを識別できるわけではありません。攻撃者はまた、彼らの言語ジェネレータを変更することで検出器を回避することができます。例えば、若干の高確率の単語を選択させることで、単語の選択に十分なランダム性を導入し、テキストをニューラルネットワークに人間によって生成されたように見せることができます。

しかし、その戦略には限界があります。悪意のある行為者が特定のメッセージを伝えようとしている場合、テキストをあまりにも変更することはできません。”伝えたい特定のことがあります。その根本的な意味を変えたくはありません”、Viswanathは言います。それは、フェイクテキストを検出するのにより良い方法かもしれない方法を示しています。LLMは、本当に何について話しているのかわからないため、異なる意味を持つ単語を誤って選択することがあります。たとえば、名前の付いた場所や人について話し始め、数文の間に異なる名前のセットに移行するかもしれません。”その後、記事はもう一貫して聞こえなくなる可能性があります”、と彼は言います。しかし、合成テキストを検出するために意味的な知識を使用することは、まだ多くの研究が必要な分野であると彼は付け加えています。

トップに戻る

透かし

合成テキストを識別する別のアプローチとして、テキストが作成された際に隠しパターンを組み込む「透かし」プロセスがあります。メリーランド大学のコンピュータサイエンスの教授であるTom Goldsteinは、AIで生成されたテキストにそのようなパターンを埋め込むスキームを開発しました。彼のシステムは、擬似乱数生成器を使用して、テキスト内のトークン、つまり文字または文字のシーケンス(通常は単語単位)を、赤色リストまたは緑色リストのいずれかに割り当てます。単語がどちらのリストにあるかわからない人間は、数学的に予測可能なばらつき内で、赤色リストの単語と緑色リストの単語をほぼ同じ割合で選択するはずです。

一方、テキストジェネレータは、緑色リストの単語に重みを付け、それらが選択される可能性を高めます。リストを生成するために使用されたアルゴリズムまたはリスト自体を知っている検出器は、テキストを調べます。赤と緑の単語がほぼ半々の場合、人間が書いたと判断します。しかし、緑の単語が赤よりも大幅に優れている場合、機械が作成したと判断されます。

非常に強力な透かしを生成するには、36トークン(およそ25単語)だけで十分だとGoldsteinは言います。その一方で、人間または別のLLMがテキストを書き換えて、より多くの赤色リストの単語を含めることで、透かしを弱めるか削除することも可能です。”問題は、透かしを削除するためにどの程度の品質の犠牲を払う必要があるか”、Goldsteinは言います。

実際、Viswanathは、どの防御も攻撃を打ち負かすことができるが、そのコストがかかるということです。”攻撃のコストを著しく上げることができれば、防御者として勝っていることになります”、彼は言います。

意図的な誤用の他にも、テキストジェネレータは非意図的に有害なコンテンツを生成することもあります。ダートマス大学のセキュリティ技術研究所に所属するコンピュータサイエンスの教授であるSoroush Vosoughiは、チャットボットをプロソーシャルにする方法を探ることで、テキスト生成の反社会的な可能性に対処する方法を研究しています。”私たちは、これらの言語モデルの上に座るモデルを開発して、彼らの生成をガイドすることができます”、彼は言います。

たとえば、Vosoughiは、Pew Research Centerなどのグループからの評価に基づいて、ニュースの傾向を左右に分類する分類器を開発しました。この分類器は、特定の単語をより政治的な偏りを示すものとして識別し、チャットボットを中立的な用語に重点を置くように誘導します。例えば、「違法な」の後に「エイリアン」を続ける代わりに、「移民」を書くように促します。別のバージョンでは、文章全体が生成された後に、フレーズを「未登録の移民」に変更することができます。同様のアプローチは、例えば医療情報にも使用でき、誤ったアドバイスを生成する可能性を減らすことができます。

もちろん、このアプローチには、LLMが維持する値を人間が定義する必要がありますが、少なくとも、モデルが誤ってヘイトスピーチや誤情報を生成する問題を回避できます。

これらの解決策のどれもが永続的ではないことに、研究者たちは警告しています。機械によって書かれたテキストをラベル付けまたは検出するための成功は、より洗練された回避方法によって追い越される可能性があります。それは、このような腕相撲から離れる選択肢があるわけではないことを意味するわけではありません。 “私たちは他の側よりも一歩先に進む必要があります”とVosoughiは言います。 “これらの状況では、私たちが最善を尽くせることです。”

更なる読み物

Pu、J.、Sawar、Z.、Abdullah、S. M.、Rehman、A.、Kim、Y.、Bhattacharya、P.、Javed、M。、およびViswanath、B. Deepfake Text Detection:Limitations and Opportunities、IEEE Symposium on Security and Privacy 2023。 https://doi.org/10.48550/arXiv.2210.09421

Kirchenbauer、J.、Geiping、J.、Wen、Y.、Katz、J.、Miers、I.、およびGoldstein、T. A Watermark for Large Language Models、2023、arXiv、https://doi.org/10.48550/arXiv.2301.10226

Liu、R.、Jia、C.、Wei、J.、Xu、G.、Wang、L.、およびVosoughi、S. Mitigating Political Bias in Language Models Through Reinforced Calibration、2021、Proc. of the AAAI、https://doi.org/10.48550/arXiv.2104.14795

Byman、D.L.、Gao、C.、Meserole、C.、およびSubrahmanian、V.S. Deepfakes and International Conflict、2023、Foreign Policy at Brookings、https://www.brookings.edu/research/deepfakes-and-international-conflict/

What is ChatGPT? OpenAI’s ChatGPT Explained https://www.youtube.com/watch?v=o5MutYFWsM8

トップへ戻る

著者

Neil Savageは、MA、USAのローウェルに拠点を置く科学技術ライターです。

©2023 ACM 0001-0782/23/7

個人的または教室での使用のためにこの作品の一部または全部のデジタルまたは印刷物の複製を作成または配布する許可が料金なしで付与されます。ただし、複製物が営利または商業上の利益のために作成または配布され、複製物がこの最初のページにこの通知と完全な引用を有することが必要です。ACM以外の所有者のこの作品のコンポーネントの著作権は尊重されなければなりません。クレジットを付けて要約することは許可されています。それ以外の場合は、事前に明確な許可と/または手数料が必要です。 [email protected]から出版の許可を要求するか、ファックス(212)869-0481に送信してください。

デジタルライブラリは、計算機協会によって出版されています。著作権©2023 ACM, Inc。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more