粉嫩av国产一区二区三区,japanesemature老熟女,国产99久久久国产精品免费看

>多模式檢索儀（RAG）系統(tǒng)正在通過整合多種數(shù)據(jù)類型（TEXT，圖像，音頻和視頻）來徹底改變AI，從而獲得更多細(xì)微差別和上下文感知的響應(yīng)。這超過了傳統(tǒng)的抹布，這僅關(guān)注文本。一個(gè)關(guān)鍵的進(jìn)步是通訊嵌入，為視覺和文本數(shù)據(jù)創(chuàng)建了一個(gè)統(tǒng)一的空間，從而實(shí)現(xiàn)了無縫的跨模式交互。高級(jí)模型會(huì)生成高質(zhì)量的嵌入，改善信息檢索並彌合不同內(nèi)容形式之間的差距，最終豐富用戶體驗(yàn)。

學(xué)習(xí)目標(biāo)

掌握了多模式抹布的基本原理及其優(yōu)勢比傳統(tǒng)抹布。
了解嵌入統(tǒng)一文本和圖像嵌入空間中的作用。
比較剪輯模型的somic視覺嵌入，分析性能基準(zhǔn)。
>使用somic Vision和Text Embeddings在Python中實(shí)現(xiàn)多模式的RAG系統(tǒng)。
學(xué)習(xí)從PDF中提取和處理多模式檢索的文本和視覺數(shù)據(jù)。

*本文是*** 數(shù)據(jù)科學(xué)blogathon的一部分。

目錄的

>

- >
- 中提取圖像
- 提取文本
- 中存儲(chǔ)
- 中

什麼是多模式的抹布？

>多模式抹布代表了一個(gè)顯著的AI進(jìn)步，這是通過合併多種數(shù)據(jù)類型來基於傳統(tǒng)抹布的。與主要處理文本的傳統(tǒng)系統(tǒng)不同，多模式抹布處理並同時(shí)集成了多個(gè)數(shù)據(jù)表格。這導(dǎo)致了更全面的理解和背景感知的反應(yīng)。

鍵多模式抹布組件：

>數(shù)據(jù)攝入：來自各種來源的數(shù)據(jù)是使用專用處理器攝入的，確保驗(yàn)證，清潔和歸一化。
>
>向量表示：>使用神經(jīng)網(wǎng)絡(luò)（例如，圖像的剪輯，文本的剪輯，bert for Text）來處理統(tǒng)一的矢量嵌入，保留語義關(guān)係。
> 使用索引技術(shù)（HNSW，F(xiàn)AISS），將> >向量數(shù)據(jù)庫存儲(chǔ)：
嵌入嵌入在優(yōu)化的矢量數(shù)據(jù)庫（例如qdrant）中，以有效檢索。查詢處理：
>傳入查詢被分析，轉(zhuǎn)換為與存儲(chǔ)數(shù)據(jù)相同的向量空間，並用於識(shí)別相關(guān)模態(tài)並生成用於搜索的嵌入。
nive vision嵌入

解決剪貼模型限制：

>
>剪輯以零拍功能出色時(shí)，其文本編碼在圖像檢索之外的任務(wù)中表現(xiàn)不佳（如MTEB基準(zhǔn)測試所示）。 Nimic Embed Vision通過將其視覺編碼器與嵌入式文本潛在空間保持一致來解決這一點(diǎn)。

媒體嵌入視覺與提名嵌入文本一起訓(xùn)練，凍結(jié)文本編碼器並在圖像文本對(duì)上訓(xùn)練視覺編碼器。這樣可以確保最佳的結(jié)果和與名詞嵌入文本嵌入的向後兼容性。
>
>雜誌嵌入的性能基準(zhǔn)
剪輯模型雖然在零拍功能方面令人印象深刻，但在語義相似性（MTEB基準(zhǔn)）等單峰任務(wù)中顯示出弱點(diǎn)。通用嵌入視覺通過將其視覺編碼器與名詞嵌入文本潛在空間保持一致，從而克服了這一點(diǎn)，從而在圖像，文本和多模式任務(wù)（Imagenet Zero-Shot，MTEB，MTEB，DataComp Benchmarks）中產(chǎn)生了強(qiáng)大的性能。

python實(shí)施多模式抹布，帶有通知嵌入

本教程構(gòu)建了一個(gè)多模式抹布系統(tǒng)，從包含文本和圖像的PDF檢索信息（使用帶有T4 GPU的Google Colab）。

>步驟1：安裝庫 Enhancing RAG Systems with Nomic Embeddings

安裝必要的Python庫：OpenAI，QDRANT，Transformers，Torch，Pymupdf等

>步驟2：設(shè)置OpenAI API鍵並導(dǎo)入庫

>設(shè)置OpenAI API密鑰並導(dǎo)入所需的庫（Pymupdf，PIL，Langchain，OpenAI等）。（為簡短而省略了代碼。）

步驟3：從PDF

中提取圖像

>使用pymupdf從PDF提取圖像，然後將其保存到目錄中。（為簡短而省略了代碼。）

步驟4：從PDF

提取文本

>使用pymupdf從每個(gè)PDF頁面中提取文本。（為簡短而省略了代碼。）

步驟5：保存提取的數(shù)據(jù)

>保存提取的圖像和文本。（為簡短而省略了代碼。）

步驟6：塊文本數(shù)據(jù)

>使用Langchain'sRecursiveCharacterTextSplitter將提取的文本分為較小的塊。（為簡短而省略了代碼。）

>步驟7：加載名詞嵌入模型

>使用擁抱面孔的變形金剛加載Nomic的文本和視覺嵌入模型。（為簡短而省略了代碼。）

步驟8：生成嵌入

生成文本和圖像嵌入。（為簡短而省略了代碼。）

>步驟9：將文本嵌入在qdrant

中存儲(chǔ)

>將文本嵌入在QDrant集合中。（為簡短而省略了代碼。）

>步驟10：將圖像嵌入在qdrant

中

>將圖像嵌入在單獨(dú)的QDrant集合中。（為簡短而省略了代碼。）

>步驟11：創(chuàng)建一個(gè)多模式獵犬

>創(chuàng)建一個(gè)函數(shù)，以根據(jù)查詢檢索相關(guān)的文本和圖像嵌入。（為簡短而省略了代碼。）

步驟12：用蘭鏈構(gòu)建多模式抹布

>使用Langchain處理被檢索的數(shù)據(jù)並使用語言模型（例如GPT-4）生成響應(yīng)。（為簡短而省略了代碼。）

查詢模型

>示例查詢演示了系統(tǒng)從PDF中從文本和圖像中檢索信息的能力。（示例查詢和輸出省略了，但在原始中存在。

結(jié)論

鑰匙要點(diǎn)

多模式抹布整合了多種數(shù)據(jù)類型，以更全面地理解。 nive vision嵌入統(tǒng)一視覺和文本數(shù)據(jù)以改進(jìn)信息檢索。
該系統(tǒng)使用專門的處理，向量表示和存儲(chǔ)以進(jìn)行有效檢索。
nimic嵌入視力克服了剪輯在單峰任務(wù)中的局限性。

常見問題

（為簡潔而省略了常見問題，但以原始形式存在。）
>
注意：為簡短而省略了代碼片段，但核心功能和步驟仍然準(zhǔn)確地描述了。原始輸入包含廣泛的代碼；包括所有這些都會(huì)使這一響應(yīng)過長。請參閱原始輸入以進(jìn)行完整的代碼實(shí)現(xiàn)。
>

以上是用假嵌入增強(qiáng)破布系統(tǒng)的詳細(xì)內(nèi)容。更多資訊請關(guān)注PHP中文網(wǎng)其他相關(guān)文章！

本網(wǎng)站聲明

本文內(nèi)容由網(wǎng)友自願(yuàn)投稿，版權(quán)歸原作者所有。本站不承擔(dān)相應(yīng)的法律責(zé)任。如發(fā)現(xiàn)涉嫌抄襲或侵權(quán)的內(nèi)容，請聯(lián)絡(luò)admin@php.cn

熱AI工具

Undress AI Tool

免費(fèi)脫衣圖片

Undresser.AI Undress

人工智慧驅(qū)動(dòng)的應(yīng)用程序，用於創(chuàng)建逼真的裸體照片

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Clothoff.io

AI脫衣器

Video Face Swap

使用我們完全免費(fèi)的人工智慧換臉工具，輕鬆在任何影片中換臉！

熱工具

記事本++7.3.1

好用且免費(fèi)的程式碼編輯器

SublimeText3漢化版

中文版，非常好用

禪工作室 13.0.1

強(qiáng)大的PHP整合開發(fā)環(huán)境

Dreamweaver CS6

視覺化網(wǎng)頁開發(fā)工具

SublimeText3 Mac版

神級(jí)程式碼編輯軟體(SublimeText3)

熱門話題

gmail信箱登陸入口在哪裡

8521

Java教學(xué)

1747

CakePHP 教程

1600

Laravel 教程

1541

PHP教程

1400

Related knowledge

前7個(gè)筆記本替代品 Jun 17, 2025 pm 04:32 PM

Google的NotebookLM是由Gemini 2.5提供動(dòng)力的智能AI筆記工具，它在匯總文檔方面表現(xiàn)出色。但是，它在工具使用方面仍然有局限性，例如源蓋，雲(yún)依賴性和最近的“發(fā)現(xiàn)”功能

山姆·奧特曼（Sam Altman）說，AI已經(jīng)超越了活動(dòng)的視野，但是由於Agi和ASI將是一個(gè)溫柔的奇異性，因此不用擔(dān)心 Jun 12, 2025 am 11:26 AM

讓我們深入研究這一點(diǎn)。這本部分分析AI中的開創(chuàng)性開發(fā)是我持續(xù)報(bào)導(dǎo)的《福布斯》中人工智能不斷發(fā)展的景觀的一部分，包括解開和闡明AI的重大進(jìn)步和復(fù)雜性

好萊塢起訴AI公司，用於復(fù)制沒有許可證的角色 Jun 14, 2025 am 11:16 AM

但是，這裡的危險(xiǎn)不僅僅是追溯損失或皇室報(bào)銷。根據(jù)AI治理和IP律師兼Ambart Law PLLC的創(chuàng)始人Yelena Ambartsumian的說法，真正的關(guān)注是前瞻性。 “我認(rèn)為迪士尼和環(huán)球影業(yè)的MA

DIA瀏覽器發(fā)布 - 與AI知道您喜歡朋友的AI Jun 12, 2025 am 11:23 AM

Dia 是此前短命瀏覽器 Arc 的繼任者，The Browser 公司已將 Arc 暫停開發(fā)，專注於 Dia。該瀏覽器於週三以測試版形式發(fā)布，並向所有 Arc 會(huì)員開放，其他用戶則需加入等候名單。儘管 Arc 已經(jīng)大量使用人工智能——例如集成了網(wǎng)頁摘要和鏈接預(yù)覽等功能——但 Dia 被稱為“AI 瀏覽器”，其幾乎完全聚焦於生成式 AI。 Dia 瀏覽器功能Dia 最引人注目的功能與 Windows 11 中備受爭議的 Recall 功能有相似之處。該瀏覽器將記住你之前的活動(dòng)，使你可以要求 AI

從採用到優(yōu)勢：2025年塑造企業(yè)LLM的10個(gè)趨勢 Jun 20, 2025 am 11:13 AM

以下是重塑企業(yè)AI景觀的十種引人注目的趨勢。對(duì)LLMSorganizations的財(cái)務(wù)承諾正在大大增加其在LLMS的投資，其中72％的人預(yù)計(jì)他們的支出今年會(huì)增加。目前，近40％a

您公司的AI流利性如何？ Jun 14, 2025 am 11:24 AM

使用AI與使用良好不同。許多創(chuàng)始人通過經(jīng)驗(yàn)發(fā)現(xiàn)了這一點(diǎn)。從節(jié)省時(shí)間的實(shí)驗(yàn)開始通常會(huì)創(chuàng)造更多的工作。團(tuán)隊(duì)最終花費(fèi)數(shù)小時(shí)修改AI生成的內(nèi)容或驗(yàn)證輸出

原型：太空公司Voyager的股票在IPO上飆升 Jun 14, 2025 am 11:14 AM

航天公司Voyager Technologies在周三的IPO期間籌集了近3.83億美元，股票的價(jià)格為31美元。該公司為政府和商業(yè)客戶提供一系列與空間相關(guān)的服務(wù)，包括在IN上的活動(dòng)

什麼是'物理AI”？在推動(dòng)AI理解現(xiàn)實(shí)世界的推動(dòng)力中 Jun 14, 2025 am 11:23 AM

再加上這一事實(shí)，AI在很大程度上仍然是黑匣子，工程師仍然很難解釋為什麼模型的行為不可預(yù)測或如何修復(fù)它們，您可能會(huì)開始掌握當(dāng)今行業(yè)面臨的主要挑戰(zhàn)。

See all articles

国产av日韩一区二区三区精品,成人性爱视频在线观看,国产,欧美,日韩,一区,www.成色av久久成人,2222eeee成人天堂