国产av日韩一区二区三区精品,成人性爱视频在线观看,国产,欧美,日韩,一区,www.成色av久久成人,2222eeee成人天堂

首頁(yè) 科技週邊 人工智慧 使用Langchain Text Splitters -Analytics Vidhya拆分?jǐn)?shù)據(jù)的7種方法

使用Langchain Text Splitters -Analytics Vidhya拆分?jǐn)?shù)據(jù)的7種方法

Apr 19, 2025 am 10:11 AM

Langchain文本拆分器:優(yōu)化LLM輸入以提高效率和準(zhǔn)確性

我們上一篇文章介紹了Langchain的文檔加載程序。但是,LLM具有上下文窗口大小的限制(以代幣測(cè)量)。超過(guò)此限制會(huì)截?cái)鄶?shù)據(jù),損害準(zhǔn)確性並增加成本。解決方案??jī)H將相關(guān)數(shù)據(jù)發(fā)送到LLM,需要數(shù)據(jù)分割。輸入Langchain的文本拆分器。

使用Langchain Text Splitters -Analytics Vidhya拆分?jǐn)?shù)據(jù)的7種方法

關(guān)鍵概念:

  1. 文本拆分器的關(guān)鍵作用:理解為什麼有效的文本拆分對(duì)於優(yōu)化LLM應(yīng)用程序,平衡上下文窗口大小和成本至關(guān)重要。
  2. 多樣化的文本拆分技術(shù):探索各種方法,包括角色計(jì)數(shù),代幣計(jì)數(shù),遞歸分裂以及針對(duì)HTML,代碼和JSON結(jié)構(gòu)量身定制的技術(shù)。
  3. Langchain文本分離器實(shí)施:學(xué)習(xí)實(shí)用應(yīng)用,包括安裝,文本分割的代碼示例以及處理多種數(shù)據(jù)格式。
  4. 語(yǔ)義分裂以增強(qiáng)相關(guān)性:發(fā)現(xiàn)句子的嵌入和余弦相似性如何創(chuàng)造語(yǔ)義上連貫的塊,從而最大程度地提高相關(guān)性。

目錄:

  • 什麼是文本拆分器?
  • 數(shù)據(jù)拆分方法
  • 基於角色計(jì)數(shù)的分裂
  • 遞歸分裂
  • 基於令牌計(jì)數(shù)的分裂
  • 處理HTML
  • 特定於代碼的分裂
  • JSON數(shù)據(jù)處理
  • 語(yǔ)義塊
  • 常見(jiàn)問(wèn)題

什麼是文本拆分器?

文本拆分器將大文本分為較小的,可管理的塊,以改善LLM查詢(xún)相關(guān)性。它們直接在原始文本或蘭鏈文檔對(duì)像上工作。多種方法適合不同的內(nèi)容類(lèi)型和用例。

數(shù)據(jù)拆分方法

Langchain文本拆分器對(duì)於有效的大型文檔處理至關(guān)重要。它們可以提高性能,上下文理解,實(shí)現(xiàn)並行處理並促進(jìn)更好的數(shù)據(jù)管理。讓我們檢查幾種方法:

先決條件:使用pip install langchain_text_splitters安裝軟件包

基於角色計(jì)數(shù)的分裂

此方法使用指定的分離器根據(jù)字符計(jì)數(shù)分配文本。

來(lái)自langchain_community.document_loader
來(lái)自langchain_text_splitter

#加載數(shù)據(jù)(用PDF路徑替換)
loader = unscontralypdfloader('how-to-formulate-successful-business-strategy.pdf',mode ='single')
data = loader.load()

text_splitter = prinateTextSplitter(saparator =“ \ n”,chunk_size = 500,chunk_overlap = 0,is_separator_regex = false)
texts = text_splitter.split_documents(數(shù)據(jù))
Len(文本)#輸出:塊數(shù)量

此示例將文本分為500個(gè)字符的塊,使用newline字符作為分離器。

遞歸分裂

這是順序使用多個(gè)分離器,直到塊低於chunk_size 。對(duì)於句子級(jí)分裂有用。

來(lái)自langchain_text_splitter

recursive_splitter = recursivecharactertextsplitter(saparators = [“ \ n \ n”,“ \ n”,r“(?>> 293)

#...(其餘代碼保持相似)

基於令牌計(jì)數(shù)的分裂

LLM使用令牌;通過(guò)令牌計(jì)數(shù)分裂更準(zhǔn)確。此示例使用o200k_base編碼(檢查github鏈接中的型號(hào)/編碼映射)。

從langchain_text_splitters導(dǎo)入tokentextsplitter

text_splitter = tokentextsplitter(encoding_name ='o200k_base',chunk_size = 50,chunk_overlap = 0)
texts = text_splitter.split_documents(數(shù)據(jù))
Len(文本)#輸出:塊數(shù)量

遞歸分裂也可以與令牌計(jì)數(shù)相結(jié)合。

對(duì)於純文本,通常優(yōu)選使用字符或令牌計(jì)數(shù)進(jìn)行遞歸分裂。

處理HTML

對(duì)於HTML等結(jié)構(gòu)化數(shù)據(jù),分裂應(yīng)尊重結(jié)構(gòu)。此示例基於HTML標(biāo)頭拆分。

從langchain_text_splitters導(dǎo)入htmlheadertextsplitter

headers_to_split_on = [(“ h1”,“ header 1”),(“ h2”,“ header 2”),(“ h3”,“ header 3”)]
html_splitter = htmlheadertextsplitter(headers_to_split_on,return_each_element = true)
html_header_splits = html_splitter.split_text_from_url('https://diataxis.fr/')
len(html_header_splits)#輸出:塊數(shù)

HTMLSectionSplitter允許根據(jù)其他部分進(jìn)行分割。

特定於代碼的分裂

編程語(yǔ)言具有獨(dú)特的結(jié)構(gòu)。此示例使用語(yǔ)法意識(shí)分配用於Python代碼。

來(lái)自langchain_text_splitter

#...(Python代碼示例)...

python_splitter = recursivecharactertextsplitter.from_language(language = language.python,chunk_size = 100,chunk_overlap = 0)
python_docs = python_splitter.create_documents([Python_code])

JSON數(shù)據(jù)處理

嵌套的JSON對(duì)象可以在保留密鑰關(guān)係時(shí)分開(kāi)。

來(lái)自langchain_text_splitters導(dǎo)入recursivejsonsplitter

#...(JSON數(shù)據(jù)示例)...

splitter = recursivejsonsplitter(max_chunk_size = 200,min_chunk_size = 20)
塊= splitter.split_text(json_data,convert_lists = true)

語(yǔ)義塊

該方法使用句子嵌入和余弦與語(yǔ)義相關(guān)的句子的相似性。

來(lái)自langchain_experiment.text_splitter導(dǎo)入semanticchunker
來(lái)自langchain_openai.embeddings進(jìn)口openaiembeddings#需要OpenAi API鍵

#...(使用openaiembeddings和semanticchunker的代碼)...

結(jié)論

Langchain提供了各種文本分裂方法,每種方法都適用於不同的數(shù)據(jù)類(lèi)型。選擇正確的方法可以?xún)?yōu)化LLM輸入,提高準(zhǔn)確性並降低成本。

常見(jiàn)問(wèn)題

(問(wèn)答部分基本相同,並進(jìn)行較小的措辭調(diào)整以清晰度和流動(dòng)。)

以上是使用Langchain Text Splitters -Analytics Vidhya拆分?jǐn)?shù)據(jù)的7種方法的詳細(xì)內(nèi)容。更多資訊請(qǐng)關(guān)注PHP中文網(wǎng)其他相關(guān)文章!

本網(wǎng)站聲明
本文內(nèi)容由網(wǎng)友自願(yuàn)投稿,版權(quán)歸原作者所有。本站不承擔(dān)相應(yīng)的法律責(zé)任。如發(fā)現(xiàn)涉嫌抄襲或侵權(quán)的內(nèi)容,請(qǐng)聯(lián)絡(luò)admin@php.cn

熱AI工具

Undress AI Tool

Undress AI Tool

免費(fèi)脫衣圖片

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅(qū)動(dòng)的應(yīng)用程序,用於創(chuàng)建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Clothoff.io

Clothoff.io

AI脫衣器

Video Face Swap

Video Face Swap

使用我們完全免費(fèi)的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱工具

記事本++7.3.1

記事本++7.3.1

好用且免費(fèi)的程式碼編輯器

SublimeText3漢化版

SublimeText3漢化版

中文版,非常好用

禪工作室 13.0.1

禪工作室 13.0.1

強(qiáng)大的PHP整合開(kāi)發(fā)環(huán)境

Dreamweaver CS6

Dreamweaver CS6

視覺(jué)化網(wǎng)頁(yè)開(kāi)發(fā)工具

SublimeText3 Mac版

SublimeText3 Mac版

神級(jí)程式碼編輯軟體(SublimeText3)

熱門(mén)話題

AI投資者停滯不前? 3條購(gòu)買(mǎi),建造或與人工智能供應(yīng)商合作的戰(zhàn)略途徑 AI投資者停滯不前? 3條購(gòu)買(mǎi),建造或與人工智能供應(yīng)商合作的戰(zhàn)略途徑 Jul 02, 2025 am 11:13 AM

投資蓬勃發(fā)展,但僅資本還不夠。隨著估值的上升和獨(dú)特性的衰落,以AI為中心的風(fēng)險(xiǎn)投資的投資者必須做出關(guān)鍵決定:購(gòu)買(mǎi),建立或合作夥伴才能獲得優(yōu)勢(shì)?這是評(píng)估每個(gè)選項(xiàng)和PR的方法

生成AI的不可阻擋的增長(zhǎng)(AI Outlook第1部分) 生成AI的不可阻擋的增長(zhǎng)(AI Outlook第1部分) Jun 21, 2025 am 11:11 AM

披露:我的公司Tirias Research已向IBM,NVIDIA和本文提到的其他公司諮詢(xún)。 Growth驅(qū)動(dòng)力的生成AI採(cǎi)用的激增比最樂(lè)觀的預(yù)測(cè)更具戲劇性。然後,

AGI和AI超級(jí)智能將嚴(yán)重?fù)糁腥祟?lèi)天花板的假設(shè)障礙 AGI和AI超級(jí)智能將嚴(yán)重?fù)糁腥祟?lèi)天花板的假設(shè)障礙 Jul 04, 2025 am 11:10 AM

讓我們來(lái)談?wù)劇? 對(duì)創(chuàng)新AI突破的分析是我正在進(jìn)行的AI中正在進(jìn)行的福布斯列覆蓋的一部分,包括識(shí)別和解釋各種有影響力的AI複雜性(請(qǐng)參閱此處的鏈接)。 前往Agi和

構(gòu)建您的第一個(gè)LLM應(yīng)用程序:初學(xué)者的教程 構(gòu)建您的第一個(gè)LLM應(yīng)用程序:初學(xué)者的教程 Jun 24, 2025 am 10:13 AM

您是否曾經(jīng)嘗試過(guò)建立自己的大型語(yǔ)言模型(LLM)應(yīng)用程序?有沒(méi)有想過(guò)人們?nèi)绾翁岣咦约旱腖LM申請(qǐng)來(lái)提高生產(chǎn)率? LLM應(yīng)用程序已被證明在各個(gè)方面都有用

AMD繼續(xù)在AI中建立動(dòng)力,還有很多工作要做 AMD繼續(xù)在AI中建立動(dòng)力,還有很多工作要做 Jun 28, 2025 am 11:15 AM

總體而言,我認(rèn)為該活動(dòng)對(duì)於展示AMD如何向客戶(hù)和開(kāi)發(fā)人員移動(dòng)球非常重要。在SU下,AMD的M.O.要製定明確,雄心勃勃的計(jì)劃並對(duì)他們執(zhí)行。她的“說(shuō)/do”比率很高。公司做

Kimi K2:最強(qiáng)大的開(kāi)源代理模型 Kimi K2:最強(qiáng)大的開(kāi)源代理模型 Jul 12, 2025 am 09:16 AM

還記得今年早些時(shí)候破壞了Genai行業(yè)的大量開(kāi)源中國(guó)模型嗎??jī)嵐蹹eepSeek佔(zhàn)據(jù)了大多數(shù)頭條新聞,但Kimi K1.5是列表中的重要名字之一。模型很酷。

未來(lái)預(yù)測(cè)從AI到AGI的道路上的大規(guī)模情報(bào)爆炸 未來(lái)預(yù)測(cè)從AI到AGI的道路上的大規(guī)模情報(bào)爆炸 Jul 02, 2025 am 11:19 AM

讓我們來(lái)談?wù)劇? 對(duì)創(chuàng)新AI突破的分析是我正在進(jìn)行的AI中正在進(jìn)行的福布斯列覆蓋的一部分,包括識(shí)別和解釋各種有影響力的AI複雜性(請(qǐng)參閱此處的鏈接)。對(duì)於那些讀者

Geoffrey Hinton的7個(gè)關(guān)鍵亮點(diǎn) Geoffrey Hinton的7個(gè)關(guān)鍵亮點(diǎn) Jun 21, 2025 am 10:54 AM

如果AI的教父告訴您“訓(xùn)練成為水管工”,那麼您知道這是值得聽(tīng)的 - 至少這就是引起我注意的原因。在最近的討論中,杰弗裡·欣頓(Geoffrey Hinton)談到了超級(jí)智能AI所塑造的潛在未來(lái),如果您

See all articles