国产av日韩一区二区三区精品,成人性爱视频在线观看,国产,欧美,日韩,一区,www.成色av久久成人,2222eeee成人天堂

首頁 科技週邊 人工智慧 抹布系統(tǒng)的8種類型的塊 - 分析Vidhya

抹布系統(tǒng)的8種類型的塊 - 分析Vidhya

Mar 06, 2025 pm 12:00 PM

>解鎖在檢索型發(fā)電一代(抹布)中塊的力量:深度潛水

有效地處理大量文本數據對於構建強大而有效的檢索生成(RAG)系統(tǒng)至關重要。 本文探討了各種構成策略,對於優(yōu)化數據處理和改善AI驅動應用程序的性能至關重要。 我們將深入研究不同的方法,強調他們的優(yōu)勢和劣勢,並提供實用的例子。 目錄的

抹布中有什麼塊?
    >
  • 塊的重要性
  • 了解抹布架構和塊狀
  • >抹布系統(tǒng)的共同挑戰(zhàn)
  • 選擇最佳塊策略
  • 基於字符的文本塊
  • 遞歸字符文本用langchain
  • 分裂
  • 文檔特定的塊(html,python,json等)
  • >語義塊與蘭班和Openai
  • 代理分解(LLM驅動的塊)
  • >
  • 基於截面的塊
  • >上下文塊,用於增強檢索
  • >保存遠距離上下文的後期塊
  • 結論
抹布中有什麼塊?

8 Types of Chunking for RAG Systems - Analytics Vidhya8 Types of Chunking for RAG Systems - Analytics Vidhya 8 Types of Chunking for RAG Systems - Analytics Vidhya分解是將大型文本文檔分為較小,更易於管理的單元的過程。 這對於抹布系統(tǒng)至關重要,因為語言模型的上下文窗口有限。 塊確保相關信息保留在這些範圍之內,從而最大程度地提高信噪比並提高模型性能。 目的不僅是要拆分數據,而且是要優(yōu)化其向模型的顯示,以增強可檢索性和準確性。

>

>

為什麼要塊很重要? 色度聯(lián)合創(chuàng)始人安東·特洛伊尼科夫(Anton Troynikov)強調,在上下文窗口中無關緊要的數據可顯著降低應用程序效率。 分塊對於:

至關重要

克服上下文窗口限制:

確保由於尺寸限製而不會丟失關鍵信息。

  1. 提高信號噪聲比率:過濾不相關的內容,提高模型精度。
  2. >提高檢索效率:促進相關信息的更快,更精確的檢索。
  3. 特定於任務的優(yōu)化:允許根據特定的應用需求量身定制塊策略(例如,摘要與提問)。
  4. 抹布架構和塊

    8 Types of Chunking for RAG Systems - Analytics Vidhya

    抹布架構涉及三個關鍵階段:

    1. >塊:原始數據分為較小的,有意義的塊。
    2. 嵌入:塊被轉換為向量嵌入。
    3. 根據用戶查詢,檢索相關的塊
    4. > 檢索和生成:相關塊,LLM使用檢索到的信息生成響應。

    抹布系統(tǒng)中的挑戰(zhàn) 抹布系統(tǒng)面臨幾個挑戰(zhàn):

    >
      檢索問題:
    1. 不準確或不完整地檢索相關信息。
    2. 生成困難:
    3. 幻覺,無關或有偏的輸出。
    4. 集成問題:
    5. 難以將檢索到的信息相干地組合。 >
    選擇正確的塊策略

    > 理想的塊策略取決於幾個因素:內容類型,嵌入模型和預期的用戶查詢。 考慮內容的結構和密度,嵌入模型的令牌限制以及用戶可能會提出的問題的類型。

    1?;蹲址奈谋緣K

    這種簡單的方法根據字符數將文本分配到固定尺寸的塊中,無論語義含義如何。 雖然簡單明了,但它通常會破壞句子的結構和上下文。 示例使用Python:

    2。遞歸字符文本用langchain
    text = "Clouds come floating into my life..."
    chunks = []
    chunk_size = 35
    chunk_overlap = 5
    # ... (Chunking logic as in the original example)

    分裂 >這種方法使用多個分離器(例如,雙新線,單個新線,空格)遞歸地分配文本,並合併較小的塊以優(yōu)化目標字符大小。 它比基於角色的塊更複雜,提供更好的上下文保存。 示例使用Langchain:

    3。文檔特定的塊
    # ... (LangChain installation and code as in the original example)

    使用格式特定的分隔符,此方法將塊適應不同的文檔格式(HTML,Python,Markdown等)。 這確保了塊尊重文檔的固有結構。 原始響應中提供了使用Langchain進行Python和Markdown的示例。

    4。語義塊與蘭班和Openai

    語義塊的語義塊根據語義含義分開文本,使用句子嵌入等技術來識別自然斷點。 這種方法確保每個塊代表一個連貫的想法。使用Langchain和OpenAI嵌入式的示例:

    5。代理塊(LLM驅動的分塊)

    >

    代理塊利用LLM來識別文本中的自然斷點,從而產生了更多相關的塊。 這種方法利用LLM對語言和上下文的理解來產生更有意義的細分。 示例使用OpenAI API:

    text = "Clouds come floating into my life..."
    chunks = []
    chunk_size = 35
    chunk_overlap = 5
    # ... (Chunking logic as in the original example)
    6。基於截面的塊

    >此方法利用文檔的固有結構(標題,小標題,部分)來定義塊。這對於結構良好的文檔(例如研究論文或報告)特別有效。 使用Pymupdf和潛在的Dirichlet分配(LDA)進行基於主題的塊:

    # ... (LangChain installation and code as in the original example)
    7。上下文塊

    上下文塊的重點是在每個塊中保存語義上下文。 這樣可以確保檢索到的信息連貫且相關。示例使用Langchain和自定義提示:

    # ... (OpenAI API key setup and code as in the original example)
    8。晚分塊

    >較晚的分塊延遲塊,直到為整個文檔生成嵌入後。這可以保留遠距離上下文依賴性,從而提高了嵌入和檢索的準確性。使用Jina嵌入模型的示例:

    # ... (OpenAI API key setup and code as in the original example)
    結論

    >有效的塊對於構建高性能的抹布系統(tǒng)至關重要。切塊策略的選擇顯著影響信息檢索的質量和產生的響應的連貫性。 通過仔細考慮數據的特徵和應用程序的特定要求,開發(fā)人員可以選擇最合適的塊方法來優(yōu)化其抹布系統(tǒng)的性能。 請記住,始終優(yōu)先考慮在每個塊中保持上下文的完整性和相關性。 >

以上是抹布系統(tǒng)的8種類型的塊 - 分析Vidhya的詳細內容。更多資訊請關注PHP中文網其他相關文章!

本網站聲明
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發(fā)現(xiàn)涉嫌抄襲或侵權的內容,請聯(lián)絡admin@php.cn

熱AI工具

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創(chuàng)建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Clothoff.io

Clothoff.io

AI脫衣器

Video Face Swap

Video Face Swap

使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱工具

記事本++7.3.1

記事本++7.3.1

好用且免費的程式碼編輯器

SublimeText3漢化版

SublimeText3漢化版

中文版,非常好用

禪工作室 13.0.1

禪工作室 13.0.1

強大的PHP整合開發(fā)環(huán)境

Dreamweaver CS6

Dreamweaver CS6

視覺化網頁開發(fā)工具

SublimeText3 Mac版

SublimeText3 Mac版

神級程式碼編輯軟體(SublimeText3)

前7個筆記本替代品 前7個筆記本替代品 Jun 17, 2025 pm 04:32 PM

Google的NotebookLM是由Gemini 2.5提供動力的智能AI筆記工具,它在匯總文檔方面表現(xiàn)出色。但是,它在工具使用方面仍然有局限性,例如源蓋,雲依賴性和最近的“發(fā)現(xiàn)”功能

從採用到優(yōu)勢:2025年塑造企業(yè)LLM的10個趨勢 從採用到優(yōu)勢:2025年塑造企業(yè)LLM的10個趨勢 Jun 20, 2025 am 11:13 AM

以下是重塑企業(yè)AI景觀的十種引人注目的趨勢。對LLMSorganizations的財務承諾正在大大增加其在LLMS的投資,其中72%的人預計他們的支出今年會增加。目前,近40%a

AI投資者停滯不前? 3條購買,建造或與人工智能供應商合作的戰(zhàn)略途徑 AI投資者停滯不前? 3條購買,建造或與人工智能供應商合作的戰(zhàn)略途徑 Jul 02, 2025 am 11:13 AM

投資蓬勃發(fā)展,但僅資本還不夠。隨著估值的上升和獨特性的衰落,以AI為中心的風險投資的投資者必須做出關鍵決定:購買,建立或合作夥伴才能獲得優(yōu)勢?這是評估每個選項和PR的方法

生成AI的不可阻擋的增長(AI Outlook第1部分) 生成AI的不可阻擋的增長(AI Outlook第1部分) Jun 21, 2025 am 11:11 AM

披露:我的公司Tirias Research已向IBM,NVIDIA和本文提到的其他公司諮詢。 Growth驅動力的生成AI採用的激增比最樂觀的預測更具戲劇性。然後,

新蓋洛普報告:AI文化準備就緒需要新的心態(tài) 新蓋洛普報告:AI文化準備就緒需要新的心態(tài) Jun 19, 2025 am 11:16 AM

廣泛採用和情感準備之間的差距揭示了人類如何與越來越多的數字伴侶互動。我們正在進入共存階段,算法編織到我們的日?,F(xiàn)場

這些初創(chuàng)公司正在幫助企業(yè)出現(xiàn)在AI搜索摘要中 這些初創(chuàng)公司正在幫助企業(yè)出現(xiàn)在AI搜索摘要中 Jun 20, 2025 am 11:16 AM

由於AI,那些日子是編號的。根據一個螺柱,搜索企業(yè)諸如Travel網站皮劃艇和Edtech Company Chegg之類的企業(yè)正在下降,部分原因是60%的網站搜索不會導致用戶單擊任何鏈接。

AGI和AI超級智能將嚴重擊中人類天花板的假設障礙 AGI和AI超級智能將嚴重擊中人類天花板的假設障礙 Jul 04, 2025 am 11:10 AM

讓我們來談談。 對創(chuàng)新AI突破的分析是我正在進行的AI中正在進行的福布斯列覆蓋的一部分,包括識別和解釋各種有影響力的AI複雜性(請參閱此處的鏈接)。 前往Agi和

思科在美國2025 思科在美國2025 Jun 19, 2025 am 11:10 AM

讓我們仔細研究一下我發(fā)現(xiàn)的最重要的東西,以及思科如何以其目前的努力來進一步實現(xiàn)其野心。

See all articles