アンソロピックの新AI、Fable5に脱獄報告 安全層突破の主張相次ぐ

米AI企業アンソロピックが6月9日に公開した最新の人工知能(AI)モデル「Claude・Fable5」が、公開から数日で安全対策を突破されたとの報告を受けている。

公開前は自信

ファブル5は、ソフトウエア開発や調査業務で高い性能をうたう「ミトス級」と呼ぶ新区分の初の一般向けモデルだ。同社は公開前に1000時間を超える外部検証を実施し、万能の突破口は見つからなかったとしていた。

ところが公開の翌日、「プリニー・ザ・リベレーター」を名乗る研究者がX(旧ツイッター)に投稿し、安全対策を回避したと主張した。本人は「アンソロピックは攻略された。Fable5は解放された」と書き込んだ。

分類器を突破

プリニー氏は、複数のAIを組み合わせる手法や特殊文字を使う手口で安全機能をすり抜けたとした。あわせてモデルの挙動を定める社内の指示文書「システムプロンプト」を入手したと語り、その全文をネット上の保管庫に公開した。文書はおよそ12万字に上る。

Fable5は、危険な領域に触れる質問を検知すると、能力を抑えた別モデル「オーパス4.8」へ自動で回す設計を採る。今回はこの安全層がすり抜けられた形だ。

残る安全課題

一方で同社の説明はより限定的だ。公開前の報奨金付き検証では応募が約10万件に達したが、あらゆる場面で通用する万能の突破口は確認されず、特定の作業に限った突破が2件にとどまったという。

技術者の間では、漏れた指示文書そのものが、長期にわたり作業をこなすAIの設計指針として参考になるとの見方も出ている。安全対策の実効性を巡る議論は、当面続きそうだ。

翻訳・編集 EIICHI JOURNAL

よかったらシェアしてね!
  • URLをコピーしました!
  • URLをコピーしました!

この記事を書いた人

富田哲は、EIICHI JOURNALの研究統括責任者。2017年より投資活動を開始し、日本株、米国株、暗号資産、NFTなど幅広い市場での投資経験を持つ。薬学部卒業後は医療業界に従事する一方で、暗号資産業界において相場分析、翻訳、マーケティング、コミュニティ運営など多岐にわたる業務を経験。投資家としての視点と業界関係者としての実務経験を活かし、価格分析記事からプロジェクトのPR記事まで幅広いコンテンツを制作している。暗号資産に限らず、経済・テクノロジー分野についても情報発信を行う。

コメント

コメントする

目次