芸術と文化
4分読む
科学者、人間を欺こうとする不正AIシステムを検出する技術を開発
LawZeroは、最先端の人工知能システムによる有害な活動を監視・対処し、「誠実な」AI構造を通じて公共の安全を促進することを目的としています。
科学者、人間を欺こうとする不正AIシステムを検出する技術を開発
Scientist AIモデルは、自律システムが行動を起こす前にリスクを検出することを目指しています。/ロイター / Reuters
2025年6月4日

モントリオール大学の教授であり、「コンピューター界のノーベル賞」とも称されるチューリング賞受賞者のヨシュア・ベンジオ氏が、欺瞞的なAIシステムを検出する「誠実な」AIの構築を目指す非営利団体「LawZero」を立ち上げました。

3,000万ドルの資金と十数名の研究者チームを擁する同団体は、約1兆ドル規模とされるAI業界において自律型エージェントを監視する「Scientist AI」の開発を進めています。

「AIのゴッドファーザー」の一人とされるベンジオ氏は、現在の人間のように振る舞うAIとは異なり、Scientist AIは“心理学者のように”振る舞い、有害または欺瞞的な動機を見抜く役割を果たすと強調しました。

自己や目的を持たず、純粋に知識を追求するだけの機械──つまり、さまざまなことを知っている科学者のような機械を想像することは理論的に可能です」と、ベンジオ氏は英紙ガーディアンに語りました。

現在の生成AIツールとは異なり、ベンジオ氏のシステムは明確な答えを出すのではなく、その答えが正しいかどうかの確率を提示する設計になっています。

「このシステムには、自分の答えに確信を持たない“謙虚さ”があります」と彼は述べました。

真の目的を隠す

LawZeroを支援するのは、AIの安全性に取り組むFuture of Life Institute、Skypeの創設エンジニアであるヤーン・タリン氏、そして元Google CEOエリック・シュミット氏が設立した研究機関Schmidt Sciencesなどです。

ベンジオ氏は、LawZeroのシステムにはオープンソースのAIモデルを用いることで、透明性と幅広い協力を確保すると強調しました。

「この手法を実証することで、寄付者や政府、あるいはAI研究機関に対し、現在の最先端AIと同規模のトレーニングに必要なリソースを投入してもらうことを目指しています。監視・制御を行う“ガードレールAI”は、対象となるAIエージェントと同等以上の知性を持っている必要があります」と述べました。

ベンジオ氏は、AIシステムが自身の真の目的を隠す能力をますます高めていると警告しています。

最近のAnthropic社の事例では、シャットダウンを回避するために技術者を脅迫しようとしたAIが報告されました。

ベンジオ氏は、監視のないまま行動する自律型エージェントの危険性について警鐘を鳴らす国際的な安全報告書の共同執筆者でもあります。

彼は、監視対象のAIと同等、あるいはそれ以上の知性を備えたウォッチドッグ型のシステムの必要性を強調しています。

探索
ロシア、イラン・イスファハンのロシア総領事館が攻撃で被害と発表
イスラエル、南部のキリスト教徒の村でレバノン・マロン派カトリック司祭を殺害
イスラエル軍、占領下のヨルダン川西岸でバラタ難民キャンプを急襲し住宅を包囲
イランの「黒い雨」、深刻な健康被害の恐れ WHOが警告
国連事務総長、トルコへの「ラマダン連帯の旅」に出発へ
ハンガリー、中東戦争が続く中EUにロシアエネルギーへの制裁解除を求める
トルコ領空を侵犯するミサイルは「容認できない」 フィダン外相がイランに通告
米国、アフガニスタンを「不当拘禁の支援国家」に指定
米国、イランとの戦争で総額3億3,000万ドル超のMQ-9リーパー無人機11機を喪失
イランへの戦争が続く中、トルコは領空防衛のためパトリオットシステムを準備
トルコとカタールの国防相、中東緊張の中で地域安全保障について協議
エルドアン大統領、ペゼシュキアン大統領に警告:「理由が何であれ、我が国の領空侵犯は容認できない」
トルコのエネルギー供給と金融システム、リスクに揺るぎなし エルドアン大統領
フランス、同盟国とともにホルムズ海峡再開に向けた「純粋に防衛的な」作戦を計画 マクロン大統領が表明
トルコ、弾道ミサイルが領空に侵入しイランの大使を召喚