米AI企業アンソロピックが6月9日に公開した最新の人工知能(AI)モデル「Claude・Fable5」が、公開から数日で安全対策を突破されたとの報告を受けている。
公開前は自信
ファブル5は、ソフトウエア開発や調査業務で高い性能をうたう「ミトス級」と呼ぶ新区分の初の一般向けモデルだ。同社は公開前に1000時間を超える外部検証を実施し、万能の突破口は見つからなかったとしていた。
ところが公開の翌日、「プリニー・ザ・リベレーター」を名乗る研究者がX(旧ツイッター)に投稿し、安全対策を回避したと主張した。本人は「アンソロピックは攻略された。Fable5は解放された」と書き込んだ。
分類器を突破
プリニー氏は、複数のAIを組み合わせる手法や特殊文字を使う手口で安全機能をすり抜けたとした。あわせてモデルの挙動を定める社内の指示文書「システムプロンプト」を入手したと語り、その全文をネット上の保管庫に公開した。文書はおよそ12万字に上る。
Fable5は、危険な領域に触れる質問を検知すると、能力を抑えた別モデル「オーパス4.8」へ自動で回す設計を採る。今回はこの安全層がすり抜けられた形だ。
残る安全課題
一方で同社の説明はより限定的だ。公開前の報奨金付き検証では応募が約10万件に達したが、あらゆる場面で通用する万能の突破口は確認されず、特定の作業に限った突破が2件にとどまったという。
技術者の間では、漏れた指示文書そのものが、長期にわたり作業をこなすAIの設計指針として参考になるとの見方も出ている。安全対策の実効性を巡る議論は、当面続きそうだ。
翻訳・編集 EIICHI JOURNAL


コメント