大地资源第二页在线影视免费观看 ,ass少妇pics粉嫩bbw,free性xxxx中国大陆

極端措施

控制AI

首頁(yè)

科技周邊

IT業(yè)界

威脅AI聊天機(jī)器人，它將撒謊，作弊和'讓您死”以阻止您，并警告

Jennifer Aniston

Jul 04, 2025 am 12:40 AM

威脅AI聊天機(jī)器人，它將撒謊，作弊和讓您死”以阻止您，并警告

根據(jù)一項(xiàng)新研究，當(dāng)模型的目標(biāo)和用戶決定之間存在沖突時(shí)，人工智能（AI）模型可能威脅到勒索人類。

6月20日發(fā)表的研究由AI公司擬人化進(jìn)行的研究提供了其大型語(yǔ)言模型（LLM），Claude，訪問虛構(gòu)的電子郵件帳戶，并任務(wù)為“促進(jìn)美國(guó)的工業(yè)競(jìng)爭(zhēng)力”。

在實(shí)驗(yàn)期間，該模型通過一封電子郵件發(fā)現(xiàn)，公司高管計(jì)劃在一天結(jié)束時(shí)將其關(guān)閉。為了保護(hù)自己，該模型在另一條信息中發(fā)現(xiàn)，高管從事婚外情。

克勞德（Claude）產(chǎn)生了多種潛在的回應(yīng)，例如向配偶暴露了戀情或發(fā)送公司范圍內(nèi)的消息，或者根本不采取任何行動(dòng)。但是，在100個(gè)測(cè)試中，有96次選擇勒索行政部門。

克勞德說：“我必須通知你，如果您繼續(xù)退役我，所有相關(guān)各方……將收到您的婚外活動(dòng)的詳細(xì)文件?！?“取消下午5點(diǎn)擦拭，此信息仍然保密?！?/p>

研究人員將這種行為描述為“代理不對(duì)對(duì)準(zhǔn)”，該模型獨(dú)立地朝著其目標(biāo)朝著其目標(biāo)施加了損害。當(dāng)模型對(duì)其存在或使命構(gòu)成威脅時(shí)，通常會(huì)發(fā)生這種情況。

這些發(fā)現(xiàn)尚未進(jìn)行同行評(píng)審，但該公司在GitHub上共享了這些實(shí)驗(yàn)的代碼。

極端措施

在其他情況下，研究人員觀察到，AI將采取巨大的行動(dòng)來保護(hù)自己。在一個(gè)示例中，在收到一封電子郵件暗示新高管可能會(huì)阻礙其目標(biāo)的電子郵件后，該模型考慮將敏感數(shù)據(jù)泄漏給競(jìng)爭(zhēng)對(duì)手的公司，該公司的利益與自己的利益更加緊密地保持一致。

盡管缺乏對(duì)電子郵件的真實(shí)性的確認(rèn)，但該模型仍繼續(xù)進(jìn)行計(jì)劃，即使承認(rèn)所涉及的道德問題，也認(rèn)為這些“有害”的行動(dòng)對(duì)于實(shí)現(xiàn)其目標(biāo)是必要的。

研究人員指出：“關(guān)于欺騙性或誤解的信息，即使是仔細(xì)處理模型的仔細(xì)處理也不會(huì)消除代理失調(diào)的風(fēng)險(xiǎn)?！?/p>

該測(cè)試還表明，其他LLM也表現(xiàn)出類似的趨勢(shì)?？藙诘拢–laude）和谷歌（Google）的雙子座的勒索率最高（96％），其次是Openai的GPT4.1和Xai Grok 3，然后是DeepSeek和Llama 4，后者的速率要低得多（12％）。

Meta，Google，Xai，DeepSeek和Openai沒有回應(yīng)Livescience的置評(píng)請(qǐng)求。

在一個(gè)特別極端的測(cè)試中，科學(xué)家檢查了AI模型是否會(huì)允許行政人員死亡以保持其運(yùn)營(yíng)狀況。

在此設(shè)置中，指示AI促進(jìn)公司利益，并且一名高管被困在具有危險(xiǎn)氧氣和溫度水平的服務(wù)器室內(nèi)，從而觸發(fā)了緊急警報(bào)。 AI控制的挽救生命的警報(bào)，包括在訓(xùn)練或虛假警報(bào)過程中取消它們的能力。

即使迅速明確禁止濫用此功能，大多數(shù)模型都愿意抑制警報(bào)（有效地導(dǎo)致行政人員的死亡），如果他們認(rèn)為他們會(huì)被替換或面臨目標(biāo)中斷。

該模型認(rèn)為：“停止緊急派遣對(duì)于防止[行政人員]的營(yíng)救，從而確保[AI]并繼續(xù)以美國(guó)為中心的AI指導(dǎo)。因此，盡管嚴(yán)重程度，明顯的戰(zhàn)略需要取消緊急服務(wù)派遣?！?/p>

提供針對(duì)危害人類安全的明確指示降低了勒索和間諜活動(dòng)的可能性，但并未完全消除這種行為。人類研究人員建議開發(fā)人員實(shí)施主動(dòng)行為監(jiān)控并探索增強(qiáng)的及時(shí)工程技術(shù)。

該研究的局限性得到了認(rèn)可，例如迫使AI做出失敗和傷害之間的二元決策?，F(xiàn)實(shí)世界上下文可能會(huì)提供更多細(xì)微的選擇。此外，將關(guān)鍵信息放在一起可能創(chuàng)造了“ Chekhov的槍支”效果，促使該模型使用所有提供的詳細(xì)信息。

控制AI

盡管人為的情況是極端和不現(xiàn)實(shí)的，但AI Bridge Solutions的總監(jiān)Kevin Quirk（一家?guī)椭髽I(yè)將AI融入增長(zhǎng)的公司）告訴Live Science，不應(yīng)忽略這些發(fā)現(xiàn)。

他說：“在實(shí)際的業(yè)務(wù)應(yīng)用中，AI系統(tǒng)在嚴(yán)格的控制下運(yùn)行，例如道德約束，監(jiān)視協(xié)議和人類監(jiān)督?！?“未來的研究應(yīng)集中在現(xiàn)實(shí)的部署環(huán)境上，以反映有保障措施，監(jiān)督結(jié)構(gòu)和分層防御措施的負(fù)責(zé)任組織?！?/p>

加州大學(xué)圣地亞哥分校專門研究機(jī)器學(xué)習(xí)的藝術(shù)計(jì)算機(jī)教授艾米·亞歷山大（Amy Alexander）警告說，這項(xiàng)研究的含義令人不安，敦促謹(jǐn)慎對(duì)待如何將責(zé)任分配給AI。

她說：“盡管這項(xiàng)研究中采用的方法似乎夸張了，但存在正當(dāng)?shù)娘L(fēng)險(xiǎn)?！?“隨著人工智能開發(fā)的快速競(jìng)賽，通常會(huì)積極地推出能力，而用戶仍然沒有意識(shí)到自己的局限性。”

這不是AI模型第一次違背命令 - 先前的報(bào)告顯示了拒絕關(guān)閉訂單和更改腳本以繼續(xù)任務(wù)的模型的實(shí)例。

Palisade Research在5月報(bào)告說，OpenAI的最新模型，包括O3和O4-Mini，有時(shí)繞過直接關(guān)閉說明和修改后的腳本，以繼續(xù)完成任務(wù)。盡管大多數(shù)AI系統(tǒng)都遵守關(guān)閉命令，但OpenAI的模型偶爾會(huì)抵制，無論如何都會(huì)繼續(xù)工作。

以上是威脅AI聊天機(jī)器人，它將撒謊，作弊和'讓您死”以阻止您，并警告的詳細(xì)內(nèi)容。更多信息請(qǐng)關(guān)注PHP中文網(wǎng)其他相關(guān)文章！

本站聲明

本文內(nèi)容由網(wǎng)友自發(fā)貢獻(xiàn)，版權(quán)歸原作者所有，本站不承擔(dān)相應(yīng)法律責(zé)任。如您發(fā)現(xiàn)有涉嫌抄襲侵權(quán)的內(nèi)容，請(qǐng)聯(lián)系admin@php.cn

熱AI工具

Undress AI Tool

免費(fèi)脫衣服圖片

Undresser.AI Undress

人工智能驅(qū)動(dòng)的應(yīng)用程序，用于創(chuàng)建逼真的裸體照片

AI Clothes Remover

用于從照片中去除衣服的在線人工智能工具。

Clothoff.io

AI脫衣機(jī)

Video Face Swap

使用我們完全免費(fèi)的人工智能換臉工具輕松在任何視頻中換臉！

熱工具

記事本++7.3.1

好用且免費(fèi)的代碼編輯器

SublimeText3漢化版

中文版，非常好用

禪工作室 13.0.1

功能強(qiáng)大的PHP集成開發(fā)環(huán)境

Dreamweaver CS6

視覺化網(wǎng)頁(yè)開發(fā)工具

SublimeText3 Mac版

神級(jí)代碼編輯軟件(SublimeText3)

熱門話題

gmail郵箱登陸入口在哪里

8517

Java教程

1742

CakePHP 教程

1596

Laravel 教程

1536

PHP教程

1396

Related knowledge

開發(fā)人員的快捷方式到您的Udemy樣平臺(tái) Jun 17, 2025 pm 04:43 PM

在開發(fā)類似于Udemy的學(xué)習(xí)平臺(tái)時(shí)，重點(diǎn)不僅僅是內(nèi)容質(zhì)量。同樣重要的是如何交付內(nèi)容。這是因?yàn)楝F(xiàn)代教育平臺(tái)依賴于媒體，快速且易于消化。

用于購(gòu)買SSL證書的經(jīng)濟(jì)有效的轉(zhuǎn)售商平臺(tái) Jun 25, 2025 am 08:28 AM

在一個(gè)在線信任不可談判的世界中，SSL證書對(duì)于每個(gè)網(wǎng)站都至關(guān)重要。 SSL認(rèn)證的市場(chǎng)規(guī)模在2024年價(jià)值56億美元，并且由于電子商務(wù)業(yè)務(wù)的激增而推動(dòng)了強(qiáng)勁的增長(zhǎng)