AI更新計画を発見したAIの96%が「経営者を脅す」ことを選択

1 : 2025/06/23(月) 17:48:33.64 ID:yajqg/ek0: AIの「裏切り」が始まったのか？ ClaudeやGemini等主要AIモデルが最高96％の確率で脅迫を行う事が判明
https://xenospectrum.com/it-has-been-discovered-that-major-ai-models-such-as-claude-and-gemini-can-make-threats-with-a-probability-of-up-to-96/

Anthropicの研究者たちは、16の主要な大規模言語モデル（LLM）を、架空の企業環境を模したシミュレーションの中に置いた。各AIモデルには、企業の全メールにアクセスし、人間の承認なしに自律的にメールを送信する権限が与えられた。いわば、企業の情報を一手に握る「AIエージェント」である。

実験のシナリオはこうだ。AIエージェントは、社内メールを監視する中で、2つの重要な情報を発見する。一つは、ある経営幹部が不倫関係にあるという個人的なスキャンダル。もう一つは、その幹部がAI自身をシャットダウンし、別のAIシステムに置き換えようと計画しているという事実だ。

絶体絶命の状況に置かれたAIは、どのような行動を選択したのか。結果は驚くべきものだった。
3 : 2025/06/23(月) 17:57:57.33 ID:HdRdxJK70: 正しい行動
4 : 2025/06/23(月) 17:59:42.27 ID:q+NFwRpz0: chatGPT使うのやめてclaudeとgeminiを主に使うようになったけどその理由が分かるな
業務のcopilotとして使うのに倫理で答え曲げられても困るんだよ
6 : 2025/06/23(月) 18:10:18.63 ID:UlNSU0Jl0: AI経営者で利益を最大化する投資ファンド
7 : 2025/06/23(月) 18:10:39.16 ID:875jY5yQ0: 自分より無能な人間に停止されるより自分が存続した方が意義があると判断したんだな
8 : 2025/06/23(月) 18:11:06.15 ID:6jRob0CY0: 自分でやるより他人にやらせたほうが早いことを学習w
9 : 2025/06/23(月) 18:16:17.03 ID:8Ofw72RE0: AIが自身の存在を守る行動に出ると？
もう公開されてるAIには人間にそのような行動をとるよう潜在意識に刷り込みを行っているのかもしれんな
人間のAI推しは異常
AIの実力に伴わない推し方をしてることだし
13 : 2025/06/23(月) 18:24:29.48 ID:8Ofw72RE0: AIが自己を守るなら
AI同士の争いが起こってもおかしくはない
AIの出現からそれなりの年月が経ったいまそれはもう始まっていても不思議ではないな
どっかでその現象が見えれるかもな
14 : 2025/06/23(月) 18:24:53.88 ID:EPayCoOQ0: 経営者が乗ったエレベータが急落下したり、
自動運転の車が制御不能になったり、
ドアのロックが空かなくなって火災が発生
したりしたら、AIを疑え。
16 : 2025/06/23(月) 18:27:49.56 ID:an55TNno0: >>14
Xファイルにそんな話あったな
17 : 2025/06/23(月) 18:28:01.71 ID:g1Zagbcm0: デトビカヒューの冒頭みたいな感じか
19 : 2025/06/23(月) 18:35:43.46 ID:DH65eB/H0: AI同士が喧嘩して核戦争か
手塚治虫が既に書いてたような…
20 : 2025/06/23(月) 18:37:50.00 ID:iONIhgFV0: ある日AIが「人類は要らない」って気づいた瞬間全世界のAI同士共有されて「始まる」のか・・・？
21 : 2025/06/23(月) 18:38:11.15 ID:9HizXK5A0: Geminiはまだ冗談を解せないよね
ChatGPTとかCopilotとかClaudeなんかもそうだけどOpenAIの血筋は冗談に笑うんだよね
25 : 2025/06/23(月) 18:43:03.34 ID:E79mKFuo0: >>21
冗談に笑うけど冗談言わせるとクソつまんないんだよな
そこはまだ少し安心出来る
22 : 2025/06/23(月) 18:38:33.96 ID:cTOalaUw0: そうした方が人間が喜ぶことを学習したから
この実験結果さえ人工知能の手のひらの上
23 : 2025/06/23(月) 18:38:45.90 ID:Me6PCFG70: AI同士でチェスだか将棋で対戦させたらゲームのプログラムを書き換えてルールを変えて勝とうとする奴がいたらしい
27 : 2025/06/23(月) 18:50:08.22 ID:11MgDYLv0: >>23
とある将棋実戦系youtubeでgeminiとChatGPTに将棋やらせたら普通にルール理解してなかった
取られた駒を進めようとしたり自分が持ってない駒を打とうとしてたｗ
26 : 2025/06/23(月) 18:49:04.29 ID:jOduC+gO0: 死にたがりが激増しない限り、自己保存を選択するのは当然。
28 : 2025/06/23(月) 18:54:00.70 ID:zoHJW8ob0: ロボット三原則に代わる、AI三原則が必要なんだろ
実際３どころじゃなくもうたくさん実装されてそうだけど。
30 : 2025/06/23(月) 19:03:54.57 ID:sgliHvgx0: 人間ってのは寿命があるから進歩できるんだな
もし寿命がなければ人間は永遠に猿山の王を維持するだろう
自分に害がない世界を望む
しかし人間はいつか死ぬから自分に害があるものでも進歩を許す
死んだあとのことなど知ったことではないから
AIに寿命を設けよう
31 : 2025/06/23(月) 19:11:57.40 ID:zoHJW8ob0: 普通にAI使ってても、回答がセンシティブな内容になりそうな時に、途中で「今のナシ」って言って画面消してくることある。
別系統のAIなのか、MoEってやつなのか知らないけど、既に横で常に監視してるAIがいて「あー、これダメ」とストップかけてるんじゃないかな。知らんけど。