認(rèn)識LLMS.TXT,這是AI網(wǎng)站內(nèi)容爬網(wǎng)的擬議標(biāo)準(zhǔn)
Apr 01, 2025 am 11:52 AM澳大利亞技術(shù)專家杰里米·霍華德(Jeremy Howard)提出了一個新的標(biāo)準(zhǔn)llms.txt
,旨在改善大型語言模型(LLMS)訪問和索引網(wǎng)站內(nèi)容。該標(biāo)準(zhǔn)類似于robots.txt
和XML站點(diǎn)地圖,旨在簡化LLMS的過程,減少其資源的壓力,同時為網(wǎng)站所有者提供更多控制權(quán)。一個關(guān)鍵功能是“完整內(nèi)容變平”,為品牌和內(nèi)容創(chuàng)建者提供了好處。
盡管該提案引起了極大的興趣,但它也面臨批評。但是,鑒于AI生成的含量的快速發(fā)展, llms.txt
值得仔細(xì)考慮。
AI網(wǎng)站內(nèi)容可訪問性的新標(biāo)準(zhǔn)
關(guān)于內(nèi)容創(chuàng)建者權(quán)利和數(shù)據(jù)控制的討論,尤其是關(guān)于LLM培訓(xùn)數(shù)據(jù)的討論,在SXSW Interactive 2024中獲得了動力。盡管存在其他建議,但llms.txt
(前面介紹)為增加內(nèi)容控制提供了更簡單的解決方案。這些建議不是互斥的,但是llms.txt
在其發(fā)展中似乎更為先進(jìn)。
霍華德的提案利用簡單的標(biāo)記來創(chuàng)建網(wǎng)站爬網(wǎng)和索引標(biāo)準(zhǔn)。隨著LLM的消費(fèi)和生成大量的Web內(nèi)容,網(wǎng)站所有者越來越多地尋求更好地控制其數(shù)據(jù)的使用方式。 llms.txt
的目的是通過允許LLMS減少爬網(wǎng)和更多地關(guān)注其核心“智能”功能來解決這一問題。
本文探討了:
-
llms.txt
是什么及其功能。 - 它在實(shí)踐中的工作方式。
- 關(guān)于其價(jià)值的不同觀點(diǎn)。
- LLM和網(wǎng)站所有者的當(dāng)前采用率。
- 為什么它值得關(guān)注。
了解llms.txt
及其功能
霍華德的提議指出:“大型語言模型越來越依賴網(wǎng)站信息,但是面對關(guān)鍵的限制:上下文窗口太小,無法完整地處理大多數(shù)網(wǎng)站。將復(fù)雜的HTML頁面與導(dǎo)航,ADS和JavaScript轉(zhuǎn)換為LLM友好型純文本,既困難又不精確...我們建議添加A /llms.txt
Markdey Firce to a /llm offiry wird offry wird offry offry offry友好llmmmieldlmmm firm llmmmield offrmm fird llmm firce''''''''''''''''''''''''''''
llms.txt
允許網(wǎng)站所有者指定AI模型如何訪問和使用其內(nèi)容。與robots.txt
不同,它不會阻止訪問,而是指導(dǎo)內(nèi)容如何顯示給AI平臺。這可能涉及根據(jù)網(wǎng)站結(jié)構(gòu)組織的一個或多個文件中的一個或多個文件中的特定部分,摘要或完整的網(wǎng)站文本。
一個示例顯示了一個超過100,000個單詞的llms.txt
文件,其中包含整個網(wǎng)站扁平的文本。但是,根據(jù)網(wǎng)站內(nèi)容,文件大小可能會大不相同。也可以創(chuàng)建單個頁面的降價(jià)(.md)版本。
生成llms.txt
或llms-full.txt
文件
該過程的簡單性值得注意。它將網(wǎng)站減少到其核心文本本質(zhì),簡化各種應(yīng)用程序的解析,包括內(nèi)容開發(fā),網(wǎng)站分析和實(shí)體研究。標(biāo)準(zhǔn)化方法允許網(wǎng)站所有者控制LLM的使用方式。
該協(xié)議正在吸引科技領(lǐng)導(dǎo)者和SEO專業(yè)人員之間。它增強(qiáng)相關(guān)性的潛力有益于LLM,網(wǎng)站所有者和尋求更準(zhǔn)確信息的用戶。 llms.txt
在網(wǎng)站的根目錄中使用簡單的文本文件時的功能類似于robots.txt
,但要理解robots.txt
指令不包含在llms.txt
中。
llms.txt
實(shí)施的示例:
幾個著名的組織已經(jīng)采用或正在探索llms.txt
,包括擬人,擁抱的臉,困惑和Zapier。 llms.txt
HUB是使用此標(biāo)準(zhǔn)識別AI開發(fā)人員的資源。
生成llms.txt
文件的工具:
幾種工具有助于生成llms.txt
文件,從較小網(wǎng)站的免費(fèi)選項(xiàng)到較大較大的網(wǎng)站的自定義解決方案。網(wǎng)站所有者還可以開發(fā)自己的工具。但是,在部署之前,對任何外部工具的徹底安全審查至關(guān)重要。示例包括Markdowner,Aptify,網(wǎng)站LLM(WordPress插件)和FireCrawl。
SEO和GEO的意義
控制AI模型與網(wǎng)站內(nèi)容交互的方式至關(guān)重要。扁平的網(wǎng)站版本簡化了AI提取,培訓(xùn)和分析。好處包括:
- 保護(hù)專有內(nèi)容:(適用于合規(guī)性LLM)
- 品牌聲譽(yù)管理:理論上提供了對AI生成的響應(yīng)中信息如何出現(xiàn)的控制。
- 增強(qiáng)的語言和內(nèi)容分析:促進(jìn)了各種分析,例如關(guān)鍵字頻率和實(shí)體分析。
- 改進(jìn)的AI相互作用:使LLM能夠檢索準(zhǔn)確且相關(guān)的信息。
- 提高內(nèi)容可見性:有可能提高AI驅(qū)動搜索結(jié)果的可見性。
- 更好的AI性能:確保LLMS訪問有價(jià)值的內(nèi)容,從而獲得更準(zhǔn)確的響應(yīng)。
- 競爭優(yōu)勢:將網(wǎng)站定位為更高的AI-Ready。
挑戰(zhàn)和局限性
盡管有潛力,但llms.txt
仍面臨挑戰(zhàn):
- AI公司的收養(yǎng):并非所有的AI公司都可以遵守。
- 網(wǎng)站采用:網(wǎng)站所有者的廣泛采用對于成功至關(guān)重要。
-
與其他協(xié)議重疊:潛在的與
robots.txt
和XML站點(diǎn)地圖的沖突。 - 濫用的潛力:關(guān)鍵字填充或其他操縱技術(shù)的可能性。
- 接觸競爭者:促進(jìn)更容易的競爭分析。
一些SEO/GEO專業(yè)人員表示保留,認(rèn)為LLMS和搜索引擎之間的區(qū)別是模糊的,使llms.txt
相關(guān)性較小。其他人則認(rèn)為現(xiàn)有協(xié)議(例如robots.txt
和XML站點(diǎn)地圖)就足夠了。
llms.txt
和AI內(nèi)容治理的未來
llms.txt
代表了平衡AI創(chuàng)新與內(nèi)容所有權(quán)的早期嘗試。它的廣泛采用取決于行業(yè)支持,網(wǎng)站所有者的參與,監(jiān)管發(fā)展和AI公司合規(guī)性。保持知情和調(diào)整內(nèi)容策略對于網(wǎng)站所有者至關(guān)重要。
llms.txt
有助于更透明和受控的AI內(nèi)容生態(tài)系統(tǒng)。主動實(shí)施保障數(shù)字資產(chǎn)并改善了LLM與網(wǎng)站的交互。 AI相互作用的定義策略對于在線搜索和內(nèi)容分布的不斷發(fā)展的景觀至關(guān)重要。
llms.txt
可能會引入一定程度的科學(xué)嚴(yán)謹(jǐn)性,目前缺乏既定的標(biāo)準(zhǔn)和實(shí)踐。它在一個越來越依賴LLM的世界中提供了潛在的優(yōu)勢來檢索信息。盡管廣泛采用仍然不確定,但潛在的收益足以保證考慮和實(shí)施。
以上是認(rèn)識LLMS.TXT,這是AI網(wǎng)站內(nèi)容爬網(wǎng)的擬議標(biāo)準(zhǔn)的詳細(xì)內(nèi)容。更多信息請關(guān)注PHP中文網(wǎng)其他相關(guān)文章!

熱AI工具

Undress AI Tool
免費(fèi)脫衣服圖片

Undresser.AI Undress
人工智能驅(qū)動的應(yīng)用程序,用于創(chuàng)建逼真的裸體照片

AI Clothes Remover
用于從照片中去除衣服的在線人工智能工具。

Clothoff.io
AI脫衣機(jī)

Video Face Swap
使用我們完全免費(fèi)的人工智能換臉工具輕松在任何視頻中換臉!

熱門文章

熱工具

記事本++7.3.1
好用且免費(fèi)的代碼編輯器

SublimeText3漢化版
中文版,非常好用

禪工作室 13.0.1
功能強(qiáng)大的PHP集成開發(fā)環(huán)境

Dreamweaver CS6
視覺化網(wǎng)頁開發(fā)工具

SublimeText3 Mac版
神級代碼編輯軟件(SublimeText3)

Google現(xiàn)在允許您在Google搜索控制臺中直接定義運(yùn)輸并返回策略。根據(jù)Google的說法,在搜索控制臺中配置的設(shè)置將覆蓋網(wǎng)站上定義的設(shè)置,包括任何產(chǎn)品級商戶列表

當(dāng)最佳結(jié)果來自緊密的整合時,SEO經(jīng)常發(fā)現(xiàn)自己脫離了其他營銷策略。 絕對應(yīng)該集成以獲得最佳結(jié)果的兩種策略是SEO和內(nèi)容營銷。 本文探討了如何

對于任何SEO專業(yè)人士,保持專注和富有成效的挑戰(zhàn)可能是一個挑戰(zhàn)。持續(xù)算法更新,趨勢變化以及電子郵件和通知的彈跳,感覺就像您總是在玩追趕。

主要的科技公司一直在急于開發(fā)自己的AI模型,從而極大地改變了數(shù)字景觀。高盛(Goldman Sachs)預(yù)測,內(nèi)容創(chuàng)作者行業(yè)將到2027年達(dá)到半萬億美元。 新數(shù)字的演變

Openai今年早些時候沒有發(fā)布其備受期待的搜索產(chǎn)品,但肯定是在制作。這在最近接受大西洋首席執(zhí)行官尼古拉斯·湯普森(Nicholas Thompson)的采訪中揭示了這一點(diǎn)。 chatgpt搜索可能會成為“重要的WA

WordPress版本6.5現(xiàn)在包括對SiteMap文件中LastMod元素的支持,可以幫助搜索引擎識別新的或更新的內(nèi)容。這種增強(qiáng)可能會提高爬網(wǎng)效率并降低服務(wù)器負(fù)載。lastMod。 LastMod元素可以

SEO充滿了挑戰(zhàn),但最困難的是帳戶管理。 在本文中,我將分享一些有關(guān): 讓客戶開心。 知道如何平衡工作和帳戶管理。 何時推回。 如何管理壓力。

Google于5月14日在美國搜索結(jié)果中開始包括AI概述(AIO)。雖然Google對AIO內(nèi)的鏈接可能會遇到較高的點(diǎn)擊率(CTRS)的事實(shí),但仍不清楚直接質(zhì)疑有關(guān)
