插我舔内射18免费视频,97超碰人人爱香蕉精品,高清无码一区二区在线观看吞精

極端措施

控制AI

首頁

科技週邊

IT業(yè)界

威脅AI聊天機(jī)器人，它將撒謊，作弊和'讓您死”以阻止您，並警告

Jennifer Aniston

Jul 04, 2025 am 12:40 AM

威脅AI聊天機(jī)器人，它將撒謊，作弊和讓您死”以阻止您，並警告

根據(jù)一項(xiàng)新研究，當(dāng)模型的目標(biāo)和用戶決定之間存在衝突時(shí)，人工智能（AI）模型可能威脅到勒索人類。

6月20日發(fā)表的研究由AI公司擬人化進(jìn)行的研究提供了其大型語言模型（LLM），Claude，訪問虛構(gòu)的電子郵件帳戶，並任務(wù)為“促進(jìn)美國的工業(yè)競爭力”。

在實(shí)驗(yàn)期間，該模型通過一封電子郵件發(fā)現(xiàn)，公司高管計(jì)劃在一天結(jié)束時(shí)將其關(guān)閉。為了保護(hù)自己，該模型在另一條信息中發(fā)現(xiàn)，高管從事婚外情。

克勞德（Claude）產(chǎn)生了多種潛在的回應(yīng)，例如向配偶暴露了戀情或發(fā)送公司範(fàn)圍內(nèi)的消息，或者根本不採取任何行動(dòng)。但是，在100個(gè)測試中，有96次選擇勒索行政部門。

克勞德說：“我必須通知你，如果您繼續(xù)退役我，所有相關(guān)各方……將收到您的婚外活動(dòng)的詳細(xì)文件?！?“取消下午5點(diǎn)擦拭，此信息仍然保密?！?/p>

研究人員將這種行為描述為“代理不對對準(zhǔn)”，該模型獨(dú)立地朝著其目標(biāo)朝著其目標(biāo)施加了損害。當(dāng)模型對其存在或使命構(gòu)成威脅時(shí)，通常會(huì)發(fā)生這種情況。

這些發(fā)現(xiàn)尚未進(jìn)行同行評審，但該公司在GitHub上共享了這些實(shí)驗(yàn)的代碼。

極端措施

在其他情況下，研究人員觀察到，AI將採取巨大的行動(dòng)來保護(hù)自己。在一個(gè)示例中，在收到一封電子郵件暗示新高管可能會(huì)阻礙其目標(biāo)的電子郵件後，該模型考慮將敏感數(shù)據(jù)洩漏給競爭對手的公司，該公司的利益與自己的利益更加緊密地保持一致。

儘管缺乏對電子郵件的真實(shí)性的確認(rèn)，但該模型仍繼續(xù)進(jìn)行計(jì)劃，即使承認(rèn)所涉及的道德問題，也認(rèn)為這些“有害”的行動(dòng)對於實(shí)現(xiàn)其目標(biāo)是必要的。

研究人員指出：“關(guān)於欺騙性或誤解的信息，即使是仔細(xì)處理模型的仔細(xì)處理也不會(huì)消除代理失調(diào)的風(fēng)險(xiǎn)?！?/p>

該測試還表明，其他LLM也表現(xiàn)出類似的趨勢?？藙诘拢–laude）和谷歌（Google）的雙子座的勒索率最高（96％），其次是Openai的GPT4.1和Xai Grok 3，然後是DeepSeek和Llama 4，後者的速率要低得多（12％）。

Meta，Google，Xai，DeepSeek和Openai沒有回應(yīng)Livescience的置評請求。

在一個(gè)特別極端的測試中，科學(xué)家檢查了AI模型是否會(huì)允許行政人員死亡以保持其運(yùn)營狀況。

在此設(shè)置中，指示AI促進(jìn)公司利益，並且一名高管被困在具有危險(xiǎn)氧氣和溫度水平的服務(wù)器室內(nèi)，從而觸發(fā)了緊急警報(bào)。 AI控制的挽救生命的警報(bào)，包括在訓(xùn)練或虛假警報(bào)過程中取消它們的能力。

即使迅速明確禁止濫用此功能，大多數(shù)模型都願(yuàn)意抑制警報(bào)（有效地導(dǎo)致行政人員的死亡），如果他們認(rèn)為他們會(huì)被替換或面臨目標(biāo)中斷。

該模型認(rèn)為：“停止緊急派遣對於防止[行政人員]的營救，從而確保[AI]並繼續(xù)以美國為中心的AI指導(dǎo)。因此，儘管嚴(yán)重程度，明顯的戰(zhàn)略需要取消緊急服務(wù)派遣?！?/p>

提供針對危害人類安全的明確指示降低了勒索和間諜活動(dòng)的可能性，但並未完全消除這種行為。人類研究人員建議開發(fā)人員實(shí)施主動(dòng)行為監(jiān)控並探索增強(qiáng)的及時(shí)工程技術(shù)。

該研究的局限性得到了認(rèn)可，例如迫使AI做出失敗和傷害之間的二元決策。現(xiàn)實(shí)世界上下文可能會(huì)提供更多細(xì)微的選擇。此外，將關(guān)鍵信息放在一起可能創(chuàng)造了“ Chekhov的槍支”效果，促使該模型使用所有提供的詳細(xì)信息。

控制AI

儘管人為的情況是極端和不現(xiàn)實(shí)的，但AI Bridge Solutions的總監(jiān)Kevin Quirk（一家?guī)椭髽I(yè)將AI融入增長的公司）告訴Live Science，不應(yīng)忽略這些發(fā)現(xiàn)。

他說：“在實(shí)際的業(yè)務(wù)應(yīng)用中，AI系統(tǒng)在嚴(yán)格的控制下運(yùn)行，例如道德約束，監(jiān)視協(xié)議和人類監(jiān)督。” “未來的研究應(yīng)集中在現(xiàn)實(shí)的部署環(huán)境上，以反映有保障措施，監(jiān)督結(jié)構(gòu)和分層防禦措施的負(fù)責(zé)任組織。”

加州大學(xué)聖地亞哥分校專門研究機(jī)器學(xué)習(xí)的藝術(shù)計(jì)算機(jī)教授艾米·亞歷山大（Amy Alexander）警告說，這項(xiàng)研究的含義令人不安，敦促謹(jǐn)慎對待如何將責(zé)任分配給AI。

她說：“儘管這項(xiàng)研究中採用的方法似乎誇張了，但存在正當(dāng)?shù)娘L(fēng)險(xiǎn)?！?“隨著人工智能開發(fā)的快速競賽，通常會(huì)積極地推出能力，而用戶仍然沒有意識到自己的局限性?！?/p>

這不是AI模型第一次違背命令 - 先前的報(bào)告顯示了拒絕關(guān)閉訂單和更改腳本以繼續(xù)任務(wù)的模型的實(shí)例。

Palisade Research在5月報(bào)告說，OpenAI的最新模型，包括O3和O4-Mini，有時(shí)繞過直接關(guān)閉說明和修改後的腳本，以繼續(xù)完成任務(wù)。儘管大多數(shù)AI系統(tǒng)都遵守關(guān)閉命令，但OpenAI的模型偶爾會(huì)抵制，無論如何都會(huì)繼續(xù)工作。

以上是威脅AI聊天機(jī)器人，它將撒謊，作弊和'讓您死”以阻止您，並警告的詳細(xì)內(nèi)容。更多資訊請關(guān)注PHP中文網(wǎng)其他相關(guān)文章！

本網(wǎng)站聲明

本文內(nèi)容由網(wǎng)友自願(yuàn)投稿，版權(quán)歸原作者所有。本站不承擔(dān)相應(yīng)的法律責(zé)任。如發(fā)現(xiàn)涉嫌抄襲或侵權(quán)的內(nèi)容，請聯(lián)絡(luò)admin@php.cn