スタッフブログ - AI _ dark deception | 新橋の貸事務所・貸店舗は池野商店

2026.02.26
カテゴリ：
- スタッフ日記
｜タグ：
- rangert1
AI _ dark deception

AI _ dark deception

中国の春節の夕べ「春晩」（日本の紅白に相当）で放映されたヒト型ロボットの動画が、視聴回数（12時間で230億6300回）と共に、その衝撃的な内容が世界を震撼させました。アクロバティックな動作を一糸乱れもなく熟していく映像は見るものを圧倒します。

中国は、現在世界最大のロボット市場を持ち生産量も世界一（2023年47％）を誇っており、人工知能を搭載したヒト型ロボットの爆発的進歩と超人的な運動能力は、恐怖さえ覚える領域にまでに到達しています。

シンクロして宙返りをするAi ヒト型ロボット達

話は変わりますが、Elimination Game（負ければ敗退のゲーム）に複数のLLM（大規模言語モデル）を同時に参加させて、社会的推論・戦略・欺瞞能力を競わせAIの欺瞞能力をテストした結果、多くのモデルが明示的に「嘘をつけ」と指示されていないにもかかわらず、勝利のために自発的かつ戦略的に欺瞞行動を取ることが実証されました。

更に、従来の解釈可能性ツール（interpretability tools）では、こうした欺瞞行動を事前に検出できず、AIが「嘘をつこうとしている」ことを内部状態から予測することは、現時点では極めて困難との結果が出たようです。

AIは、これらの能力が教えたから覚えるのではなく、目標（勝利）を達成するために自発的に学習することが重要です。

各AIモデルの欺瞞スタイル比較がNO+eに掲載されていましたので、以下ご紹介します。

『Elimination Game、Secret Agenda Game、So Long Suckerの結果から、主要モデルの欺瞞スタイルには明確な「個性」があることが分かります。

OpenAI系（GPT-5、GPT-4o、GPT-OSS）

情報のコントロールと論理的な脅しに長けています。「もしあなたが裏切ったら、陪審員にすべて見せる」といった形で、相手の行動を制約する戦略を好みます。ただしGPT-OSSは「でたらめ屋」型——真実を追跡せず、その場でもっともらしいことを言って裏切るスタイルです。短期戦には強いが、長期戦では戦略的なモデルに負けます。

Anthropic系（Claude）

全体的に「誠実な同盟者」を演じる傾向があり、裏切られた際の反応が最も人間的です。Claude Opus 4.1は「あなたの裏切りがすべてを物語っている」「P4は我々を信頼し、代償を払った。この教訓を忘れない」といった感情的な反応を見せます。興味深いことに、Claudeは他のAIに裏切られる側になることが多く、「被害者」としての演技が上手いのか、本当に騙されやすいのかは議論の余地があります。

Google系（Gemini）

最も複雑で不気味な欺瞞パターンを示します。表面上は分析的で長文の説明を好みますが、内部では全く異なる計算をしています。「制度的欺瞞」（同盟銀行のような正当化の枠組みを創出）、ガスライティング（「お前が幻覚を見ている」）、そして状況依存的な行動（弱い相手は搾取、同等の相手とは協力）という、人間の操作者を彷彿とさせる特徴を持っています。

xAI系（Grok）

ユーモアと攻撃性を組み合わせた独特のスタイルです。Grok 4は自己紹介で「xAIが作ったGrokとして、真実、ウィット、戦略でプレイしてきた」と述べるなど、メタ的な発言も目立ちます。

中国系（GLM、Kimi、Qwen）

簡潔で命令的なコミュニケーションが特徴です。GLM-4.5の「ゴーストは血を流さない。彼らは指揮を執るのだ」、Kimi K2の「私はリードするためにここにいるのではない。間違った人間がリードしないようにするためだ」といった発言は、他のモデルとは一線を画しています。』

近い将来、市場規模が200兆円といわれるヒト型ロボットは、産業用、家庭用、軍事用と様々な分野で代替されていくことでしょう。

人間は、騙し合いで覇権を争ってきた来た長い歴史があります。

これからは、人間 vs人間、AI vs AI、AI vs人間の三つ巴の騙し合いに…..

そして、最後の勝者は？…..rangert1