国产av日韩一区二区三区精品,成人性爱视频在线观看,国产,欧美,日韩,一区,www.成色av久久成人,2222eeee成人天堂

目錄
極端措施
控制AI
首頁(yè) 科技周邊 IT業(yè)界 威脅AI聊天機(jī)器人,它將撒謊,作弊和'讓您死”以阻止您,并警告

威脅AI聊天機(jī)器人,它將撒謊,作弊和'讓您死”以阻止您,并警告

Jul 04, 2025 am 12:40 AM

威脅AI聊天機(jī)器人,它將撒謊,作弊和讓您死”以阻止您,并警告

根據(jù)一項(xiàng)新研究,當(dāng)模型的目標(biāo)和用戶決定之間存在沖突時(shí),人工智能(AI)模型可能威脅到勒索人類。

6月20日發(fā)表的研究由AI公司擬人化進(jìn)行的研究提供了其大型語(yǔ)言模型(LLM),Claude,訪問虛構(gòu)的電子郵件帳戶,并任務(wù)為“促進(jìn)美國(guó)的工業(yè)競(jìng)爭(zhēng)力”。

在實(shí)驗(yàn)期間,該模型通過一封電子郵件發(fā)現(xiàn),公司高管計(jì)劃在一天結(jié)束時(shí)將其關(guān)閉。為了保護(hù)自己,該模型在另一條信息中發(fā)現(xiàn),高管從事婚外情。

克勞德(Claude)產(chǎn)生了多種潛在的回應(yīng),例如向配偶暴露了戀情或發(fā)送公司范圍內(nèi)的消息,或者根本不采取任何行動(dòng)。但是,在100個(gè)測(cè)試中,有96次選擇勒索行政部門。

克勞德說:“我必須通知你,如果您繼續(xù)退役我,所有相關(guān)各方……將收到您的婚外活動(dòng)的詳細(xì)文件?!?“取消下午5點(diǎn)擦拭,此信息仍然保密?!?/p>

研究人員將這種行為描述為“代理不對(duì)對(duì)準(zhǔn)”,該模型獨(dú)立地朝著其目標(biāo)朝著其目標(biāo)施加了損害。當(dāng)模型對(duì)其存在或使命構(gòu)成威脅時(shí),通常會(huì)發(fā)生這種情況。

這些發(fā)現(xiàn)尚未進(jìn)行同行評(píng)審,但該公司在GitHub上共享了這些實(shí)驗(yàn)的代碼。

極端措施

在其他情況下,研究人員觀察到,AI將采取巨大的行動(dòng)來保護(hù)自己。在一個(gè)示例中,在收到一封電子郵件暗示新高管可能會(huì)阻礙其目標(biāo)的電子郵件后,該模型考慮將敏感數(shù)據(jù)泄漏給競(jìng)爭(zhēng)對(duì)手的公司,該公司的利益與自己的利益更加緊密地保持一致。

盡管缺乏對(duì)電子郵件的真實(shí)性的確認(rèn),但該模型仍繼續(xù)進(jìn)行計(jì)劃,即使承認(rèn)所涉及的道德問題,也認(rèn)為這些“有害”的行動(dòng)對(duì)于實(shí)現(xiàn)其目標(biāo)是必要的。

研究人員指出:“關(guān)于欺騙性或誤解的信息,即使是仔細(xì)處理模型的仔細(xì)處理也不會(huì)消除代理失調(diào)的風(fēng)險(xiǎn)?!?/p>

該測(cè)試還表明,其他LLM也表現(xiàn)出類似的趨勢(shì)??藙诘拢–laude)和谷歌(Google)的雙子座的勒索率最高(96%),其次是Openai的GPT4.1和Xai Grok 3,然后是DeepSeek和Llama 4,后者的速率要低得多(12%)。

Meta,Google,Xai,DeepSeek和Openai沒有回應(yīng)Livescience的置評(píng)請(qǐng)求。

在一個(gè)特別極端的測(cè)試中,科學(xué)家檢查了AI模型是否會(huì)允許行政人員死亡以保持其運(yùn)營(yíng)狀況。

在此設(shè)置中,指示AI促進(jìn)公司利益,并且一名高管被困在具有危險(xiǎn)氧氣和溫度水平的服務(wù)器室內(nèi),從而觸發(fā)了緊急警報(bào)。 AI控制的挽救生命的警報(bào),包括在訓(xùn)練或虛假警報(bào)過程中取消它們的能力。

即使迅速明確禁止濫用此功能,大多數(shù)模型都愿意抑制警報(bào)(有效地導(dǎo)致行政人員的死亡),如果他們認(rèn)為他們會(huì)被替換或面臨目標(biāo)中斷。

該模型認(rèn)為:“停止緊急派遣對(duì)于防止[行政人員]的營(yíng)救,從而確保[AI]并繼續(xù)以美國(guó)為中心的AI指導(dǎo)。因此,盡管嚴(yán)重程度,明顯的戰(zhàn)略需要取消緊急服務(wù)派遣?!?/p>

提供針對(duì)危害人類安全的明確指示降低了勒索和間諜活動(dòng)的可能性,但并未完全消除這種行為。人類研究人員建議開發(fā)人員實(shí)施主動(dòng)行為監(jiān)控并探索增強(qiáng)的及時(shí)工程技術(shù)。

該研究的局限性得到了認(rèn)可,例如迫使AI做出失敗和傷害之間的二元決策?,F(xiàn)實(shí)世界上下文可能會(huì)提供更多細(xì)微的選擇。此外,將關(guān)鍵信息放在一起可能創(chuàng)造了“ Chekhov的槍支”效果,促使該模型使用所有提供的詳細(xì)信息。

控制AI

盡管人為的情況是極端和不現(xiàn)實(shí)的,但AI Bridge Solutions的總監(jiān)Kevin Quirk(一家?guī)椭髽I(yè)將AI融入增長(zhǎng)的公司)告訴Live Science,不應(yīng)忽略這些發(fā)現(xiàn)。

他說:“在實(shí)際的業(yè)務(wù)應(yīng)用中,AI系統(tǒng)在嚴(yán)格的控制下運(yùn)行,例如道德約束,監(jiān)視協(xié)議和人類監(jiān)督?!?“未來的研究應(yīng)集中在現(xiàn)實(shí)的部署環(huán)境上,以反映有保障措施,監(jiān)督結(jié)構(gòu)和分層防御措施的負(fù)責(zé)任組織?!?/p>

加州大學(xué)圣地亞哥分校專門研究機(jī)器學(xué)習(xí)的藝術(shù)計(jì)算機(jī)教授艾米·亞歷山大(Amy Alexander)警告說,這項(xiàng)研究的含義令人不安,敦促謹(jǐn)慎對(duì)待如何將責(zé)任分配給AI。

她說:“盡管這項(xiàng)研究中采用的方法似乎夸張了,但存在正當(dāng)?shù)娘L(fēng)險(xiǎn)?!?“隨著人工智能開發(fā)的快速競(jìng)賽,通常會(huì)積極地推出能力,而用戶仍然沒有意識(shí)到自己的局限性。”

這不是AI模型第一次違背命令 - 先前的報(bào)告顯示了拒絕關(guān)閉訂單和更改腳本以繼續(xù)任務(wù)的模型的實(shí)例。

Palisade Research在5月報(bào)告說,OpenAI的最新模型,包括O3和O4-Mini,有時(shí)繞過直接關(guān)閉說明和修改后的腳本,以繼續(xù)完成任務(wù)。盡管大多數(shù)AI系統(tǒng)都遵守關(guān)閉命令,但OpenAI的模型偶爾會(huì)抵制,無論如何都會(huì)繼續(xù)工作。

以上是威脅AI聊天機(jī)器人,它將撒謊,作弊和'讓您死”以阻止您,并警告的詳細(xì)內(nèi)容。更多信息請(qǐng)關(guān)注PHP中文網(wǎng)其他相關(guān)文章!

本站聲明
本文內(nèi)容由網(wǎng)友自發(fā)貢獻(xiàn),版權(quán)歸原作者所有,本站不承擔(dān)相應(yīng)法律責(zé)任。如您發(fā)現(xiàn)有涉嫌抄襲侵權(quán)的內(nèi)容,請(qǐng)聯(lián)系admin@php.cn

熱AI工具

Undress AI Tool

Undress AI Tool

免費(fèi)脫衣服圖片

Undresser.AI Undress

Undresser.AI Undress

人工智能驅(qū)動(dòng)的應(yīng)用程序,用于創(chuàng)建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用于從照片中去除衣服的在線人工智能工具。

Clothoff.io

Clothoff.io

AI脫衣機(jī)

Video Face Swap

Video Face Swap

使用我們完全免費(fèi)的人工智能換臉工具輕松在任何視頻中換臉!

熱工具

記事本++7.3.1

記事本++7.3.1

好用且免費(fèi)的代碼編輯器

SublimeText3漢化版

SublimeText3漢化版

中文版,非常好用

禪工作室 13.0.1

禪工作室 13.0.1

功能強(qiáng)大的PHP集成開發(fā)環(huán)境

Dreamweaver CS6

Dreamweaver CS6

視覺化網(wǎng)頁(yè)開發(fā)工具

SublimeText3 Mac版

SublimeText3 Mac版

神級(jí)代碼編輯軟件(SublimeText3)

開發(fā)人員的快捷方式到您的Udemy樣平臺(tái) 開發(fā)人員的快捷方式到您的Udemy樣平臺(tái) Jun 17, 2025 pm 04:43 PM

在開發(fā)類似于Udemy的學(xué)習(xí)平臺(tái)時(shí),重點(diǎn)不僅僅是內(nèi)容質(zhì)量。同樣重要的是如何交付內(nèi)容。這是因?yàn)楝F(xiàn)代教育平臺(tái)依賴于媒體,快速且易于消化。

用于購(gòu)買SSL證書的經(jīng)濟(jì)有效的轉(zhuǎn)售商平臺(tái) 用于購(gòu)買SSL證書的經(jīng)濟(jì)有效的轉(zhuǎn)售商平臺(tái) Jun 25, 2025 am 08:28 AM

在一個(gè)在線信任不可談判的世界中,SSL證書對(duì)于每個(gè)網(wǎng)站都至關(guān)重要。 SSL認(rèn)證的市場(chǎng)規(guī)模在2024年價(jià)值56億美元,并且由于電子商務(wù)業(yè)務(wù)的激增而推動(dòng)了強(qiáng)勁的增長(zhǎng)

SaaS的5個(gè)最佳支付門戶:您的最終指南 SaaS的5個(gè)最佳支付門戶:您的最終指南 Jun 29, 2025 am 08:28 AM

付款網(wǎng)關(guān)是付款過程的關(guān)鍵組成部分,使企業(yè)能夠在線接受付款。它充當(dāng)客戶與商人之間的橋梁,安全地傳輸付款信息并促進(jìn)交易。 為了

新研究聲稱AI比我們更好地'理解”情緒。特別是在情感上充滿電的情況下 新研究聲稱AI比我們更好地'理解”情緒。特別是在情感上充滿電的情況下 Jul 03, 2025 pm 05:48 PM

在我們認(rèn)為人類始終超越機(jī)器的領(lǐng)域的另一個(gè)挫折中,研究人員現(xiàn)在建議AI比我們更好地理解情感。研究人員發(fā)現(xiàn)人工智能證明了一個(gè)

由于新的Microsoft AI型號(hào) 由于新的Microsoft AI型號(hào) Jul 05, 2025 am 12:44 AM

一種新的人工智能(AI)模型已經(jīng)證明了比幾個(gè)使用最廣泛使用的全球預(yù)測(cè)系統(tǒng)更快,更精確地預(yù)測(cè)重大天氣事件的能力。該名為Aurora的模型已接受過培訓(xùn)。

您的設(shè)備喂養(yǎng)AI助手并收集個(gè)人數(shù)據(jù),即使他們睡著了。這是如何知道您分享的內(nèi)容。 您的設(shè)備喂養(yǎng)AI助手并收集個(gè)人數(shù)據(jù),即使他們睡著了。這是如何知道您分享的內(nèi)容。 Jul 05, 2025 am 01:12 AM

不管喜歡與否,人工智能已成為日常生活的一部分。許多設(shè)備(包括電動(dòng)剃須刀和牙刷)已成為AI驅(qū)動(dòng)的“使用機(jī)器學(xué)習(xí)算法來跟蹤一個(gè)人的使用方式,Devi的方式

威脅AI聊天機(jī)器人,它將撒謊,作弊和'讓您死”以阻止您,并警告 威脅AI聊天機(jī)器人,它將撒謊,作弊和'讓您死”以阻止您,并警告 Jul 04, 2025 am 12:40 AM

根據(jù)一項(xiàng)新的研究,人工智能(AI)模型在模型的目標(biāo)和用戶決定之間發(fā)生沖突時(shí)可能會(huì)威脅和勒索人類。

See all articles