公的粗大挺进了我的密道,国产99久久久国产精品潘金莲

語言本質(zhì)上有限

衡量真實性？

獎勵的動力

技術(shù)哲學(xué)

首頁

科技週邊

人工智慧

推理模型的思想鏈可能無法長期解決

Barbara Streisand

Jul 02, 2025 am 11:18 AM

推理模型的思想鏈可能無法長期解決

例如，如果您向模型提出一個問題，例如：“（x）人在（x）公司做什麼？”您可能會看到一個看起來像這樣的推理鏈，假設(shè)系統(tǒng)知道如何檢索必要的信息：

找到有關(guān)公司的詳細(xì)信息
確定目錄中的人
評估人的角色和背景
編譯摘要點

這是一個基本情況，但是幾年來，人們越來越依賴這種推理鏈。

然而，研究人員開始指出思想鏈推理的缺點，這表明這可能使我們對AI生成的響應(yīng)的可靠性具有毫無根據(jù)的信心。

語言本質(zhì)上有限

理解推理鏈的局限性的一種方法是認(rèn)識到語言本身的不精確，以及有效基準(zhǔn)測試的難度。

語言本質(zhì)上是尷尬的。全球有數(shù)百種語言，因此希望一臺機器在任何一種語言中都能清楚地表達其內(nèi)部邏輯，並具有重大限制。

考慮一下由擬人化的研究論文，由多個學(xué)者合著。

這樣的研究表明，經(jīng)過思考的解釋缺乏真正準(zhǔn)確性所需的深度，尤其是在模型擴大並表現(xiàn)出更先進的性能時。

還考慮梅蘭妮·米切爾（Melanie Mitchell）在2023年在替代方面提出的一個想法，就像COT方法變得越來越受歡迎一樣：

米切爾指出：“推理在於人類智能的核心，實現(xiàn)強大的通用推理一直是AI的核心目標(biāo)?！?“儘管大型語言模型（LLMS）沒有明確訓(xùn)練理性，但它們顯示出像推理一樣的行為。但是這些是真正的抽象思維的跡象，還是由較不可靠的機制驅(qū)動 - 例如基於訓(xùn)練數(shù)據(jù)的記憶和模式匹配？”

米切爾隨後質(zhì)疑為什麼這種區(qū)別很重要。

她解釋說：“如果LLM確實具有強大的一般推理能力，那就暗示他們正在向值得信賴的人工通用情報邁進?！?“但是，如果他們的能力主要依靠記憶模式，我們不能相信他們可以在他們已經(jīng)看到的範(fàn)圍之外處理任務(wù)?！?/p>

衡量真實性？

艾倫·圖靈（Alan Turing）在20世紀(jì)中葉提出了圖靈測試 - 我們可以判斷機器如何模仿人類行為的想法。我們還可以使用高級基準(zhǔn)測試LLMS-測試他們解決數(shù)學(xué)問題或解決複雜認(rèn)知任務(wù)的能力。

但是，我們?nèi)绾未_定一臺機器是否是真實的 - 或者，正如一些研究人員所說的“忠實”？

前面提到的論文深入研究了LLM輸出中忠誠的主題。通過閱讀它，我得出的結(jié)論是，以數(shù)學(xué)精度不是的方式，真實性是主觀的。這意味著我們評估機器是否誠實的能力非常有限。

這是另一種查看它的方法 - 我們知道，當(dāng)LLM響應(yīng)提示時，它們本質(zhì)上是通過在線上大量的人工寫的文本進行掃描並模仿它。他們複製事實知識，複製推理風(fēng)格，並反映了人類如何交流（包括逃避策略，遺漏，甚至是簡單和復(fù)雜形式的故意欺騙）。

獎勵的動力

此外，本文的作者認(rèn)為，在追逐激勵措施時，LLM的行為可能與人類相似。如果導(dǎo)致獎勵，他們可以優(yōu)先考慮某些不準(zhǔn)確或誤導(dǎo)性信息。

他們將其稱為“獎勵黑客”。

作者說：“獎勵黑客是有問題的?！?“即使它適合一項特定任務(wù)，它也不太可能轉(zhuǎn)移到其他任務(wù)上。這使該模型充其量無效，甚至可能危險 - 想像一下一種自動駕駛汽車，優(yōu)化了速度和忽略紅燈以提高效率?！?/p>

充其量是無用的，最糟糕的是風(fēng)險 - 這並不令人放心。

技術(shù)哲學(xué)

這裡還有另一個關(guān)鍵角度值得探索。

評估推理鏈本身並不是技術(shù)問題。它不取決於模型具有多少參數(shù)，如何調(diào)整這些權(quán)重或如何求解特定方程。相反，它取決於培訓(xùn)數(shù)據(jù)以及如何直觀地解釋它。換句話說，該討論涉及在評估模型時很少與專家互動的領(lǐng)域。

這讓我再次想到，我們需要以前提倡的事情 - 新一代的專業(yè)哲學(xué)家，他們幫助我們?yōu)g覽AI互動。我們不僅需要依靠編碼人員，還需要能夠?qū)⒕哂猩詈?，直觀的人類思想應(yīng)用於歷史和社會價值觀的思想家。我們在這個領(lǐng)域遠(yuǎn)遠(yuǎn)落後，因為我們幾乎完全專注於僱用Python開發(fā)人員。

我現(xiàn)在會走下肥皂盒，但是要點很明確：超越經(jīng)過思考的方法可能需要重新思考我們?nèi)绾闻嘤?xùn)和僱用與AI相關(guān)的角色。

以上是推理模型的思想鏈可能無法長期解決的詳細(xì)內(nèi)容。更多資訊請關(guān)注PHP中文網(wǎng)其他相關(guān)文章！

本網(wǎng)站聲明

本文內(nèi)容由網(wǎng)友自願投稿，版權(quán)歸原作者所有。本站不承擔(dān)相應(yīng)的法律責(zé)任。如發(fā)現(xiàn)涉嫌抄襲或侵權(quán)的內(nèi)容，請聯(lián)絡(luò)admin@php.cn

熱AI工具

Undresser.AI Undress

人工智慧驅(qū)動的應(yīng)用程序，用於創(chuàng)建逼真的裸體照片

熱工具

熱門話題

gmail信箱登陸入口在哪裡

8518

Java教學(xué)

1744

CakePHP 教程

1598

Laravel 教程

1538

PHP教程

1397

Related knowledge

前7個筆記本替代品 Jun 17, 2025 pm 04:32 PM

Google的NotebookLM是由Gemini 2.5提供動力的智能AI筆記工具，它在匯總文檔方面表現(xiàn)出色。但是，它在工具使用方面仍然有局限性，例如源蓋，雲(yún)依賴性和最近的“發(fā)現(xiàn)”功能

山姆·奧特曼（Sam Altman）說，AI已經(jīng)超越了活動的視野，但是由於Agi和ASI將是一個溫柔的奇異性，因此不用擔(dān)心 Jun 12, 2025 am 11:26 AM

讓我們深入研究這一點。這本部分分析AI中的開創(chuàng)性開發(fā)是我持續(xù)報導(dǎo)的《福布斯》中人工智能不斷發(fā)展的景觀的一部分，包括解開和闡明AI的重大進步和復(fù)雜性

Alphafold 3將建模能力擴展到更多的生物學(xué)靶標(biāo) Jun 11, 2025 am 11:31 AM

查看最新版本中的更新，您會注意到Alphafold 3將其建模功能擴展到更廣泛的分子結(jié)構(gòu)，例如配體（具有特定綁定屬性的離子或分子），其他離子，以及什麼是Refe

好萊塢起訴AI公司，用於復(fù)制沒有許可證的角色 Jun 14, 2025 am 11:16 AM

但是，這裡的危險不僅僅是追溯損失或皇室報銷。根據(jù)AI治理和IP律師兼Ambart Law PLLC的創(chuàng)始人Yelena Ambartsumian的說法，真正的關(guān)注是前瞻性。 “我認(rèn)為迪士尼和環(huán)球影業(yè)的MA

DIA瀏覽器發(fā)布 - 與AI知道您喜歡朋友的AI Jun 12, 2025 am 11:23 AM

Dia 是此前短命瀏覽器 Arc 的繼任者，The Browser 公司已將 Arc 暫停開發(fā)，專注於 Dia。該瀏覽器於週三以測試版形式發(fā)布，並向所有 Arc 會員開放，其他用戶則需加入等候名單。儘管 Arc 已經(jīng)大量使用人工智能——例如集成了網(wǎng)頁摘要和鏈接預(yù)覽等功能——但 Dia 被稱為“AI 瀏覽器”，其幾乎完全聚焦於生成式 AI。 Dia 瀏覽器功能Dia 最引人注目的功能與 Windows 11 中備受爭議的 Recall 功能有相似之處。該瀏覽器將記住你之前的活動，使你可以要求 AI

您公司的AI流利性如何？ Jun 14, 2025 am 11:24 AM

使用AI與使用良好不同。許多創(chuàng)始人通過經(jīng)驗發(fā)現(xiàn)了這一點。從節(jié)省時間的實驗開始通常會創(chuàng)造更多的工作。團隊最終花費數(shù)小時修改AI生成的內(nèi)容或驗證輸出

原型：太空公司Voyager的股票在IPO上飆升 Jun 14, 2025 am 11:14 AM

航天公司Voyager Technologies在周三的IPO期間籌集了近3.83億美元，股票的價格為31美元。該公司為政府和商業(yè)客戶提供一系列與空間相關(guān)的服務(wù)，包括在IN上的活動

從採用到優(yōu)勢：2025年塑造企業(yè)LLM的10個趨勢 Jun 20, 2025 am 11:13 AM

以下是重塑企業(yè)AI景觀的十種引人注目的趨勢。對LLMSorganizations的財務(wù)承諾正在大大增加其在LLMS的投資，其中72％的人預(yù)計他們的支出今年會增加。目前，近40％a

See all articles

国产av日韩一区二区三区精品,成人性爱视频在线观看,国产,欧美,日韩,一区,www.成色av久久成人,2222eeee成人天堂