爱做久久久久久,999久久久免费精品国产

對(duì)于印地語(yǔ)等印度語(yǔ)系的自然語(yǔ)言處理 (NLP) 任務(wù)（如機(jī)器翻譯、問(wèn)答和信息檢索）而言，詞嵌入至關(guān)重要。這些嵌入捕捉單詞的語(yǔ)義屬性，從而實(shí)現(xiàn)更準(zhǔn)確、更注重語(yǔ)境的 NLP 應(yīng)用。鑒于印地語(yǔ)使用者眾多且印度語(yǔ)系數(shù)字內(nèi)容日益增長(zhǎng)，高質(zhì)量的嵌入對(duì)于提高這些語(yǔ)言的 NLP 性能至關(guān)重要。定制化的嵌入可以特別解決印度語(yǔ)系的獨(dú)特語(yǔ)言特征和資源限制問(wèn)題。新發(fā)布的 Gemini Embedding 模型代表了多語(yǔ)言文本嵌入的重大進(jìn)步，它利用谷歌強(qiáng)大的 Gemini AI 框架，在 100 多種語(yǔ)言中實(shí)現(xiàn)了最先進(jìn)的性能。

Gemini Embedding 模型擅長(zhǎng)分類、檢索和語(yǔ)義搜索等任務(wù)，提供更高的效率和準(zhǔn)確性。通過(guò)支持更大的輸入規(guī)模和更高維度的輸出，Gemini Embedding 提供更豐富的文本表示，使其能夠廣泛應(yīng)用于各種應(yīng)用。

學(xué)習(xí)目標(biāo)

了解 Gemini 嵌入及其與 Gemini LLM 的集成。
使用 Gemini 嵌入檢索印地語(yǔ)文檔的實(shí)踐教程。
與 Jina AI 嵌入和 Multilingual-e5-large 的比較分析。
對(duì)多語(yǔ)言文本檢索能力和應(yīng)用的見(jiàn)解。

*本文作為***數(shù)據(jù)科學(xué)博客馬拉松的一部分發(fā)表。***

什么是 Gemini 嵌入？
Gemini 嵌入的關(guān)鍵特性
Gemini 嵌入的模型架構(gòu)
與其他多語(yǔ)言嵌入模型的比較
使用 Gemini 嵌入進(jìn)行檢索，并與 Jina AI 嵌入和 Multilingual-e5-large 進(jìn)行比較
- 步驟 1. 安裝必要的庫(kù)
- 步驟 2. 加載數(shù)據(jù)
- 步驟 3. 對(duì)數(shù)據(jù)進(jìn)行分塊
- 步驟 4. 將數(shù)據(jù)存儲(chǔ)在向量數(shù)據(jù)庫(kù)中
- 步驟 5. 查詢數(shù)據(jù)庫(kù)
- 步驟 6. 與 Jina AI 嵌入進(jìn)行比較
嵌入檢索輸出的比較
- 解釋
結(jié)論
常見(jiàn)問(wèn)題

什么是 Gemini 嵌入？

2025 年 3 月，谷歌發(fā)布了一個(gè)新的實(shí)驗(yàn)性 Gemini Embedding 文本模型 (gemini-embedding-exp-03-07)，可在 Gemini API 中使用。

該高級(jí)嵌入模型源于 Gemini 模型，據(jù)稱繼承了 Gemini 對(duì)語(yǔ)言和細(xì)微語(yǔ)境細(xì)微差別的深刻理解，使其能夠廣泛應(yīng)用于各種應(yīng)用。它在 MTEB 多語(yǔ)言排行榜上占據(jù)榜首。

Comparison of Gemini Embedding with Multilingual-e5-large & Jina

Gemini Embedding 將文本表示為密集向量，其中語(yǔ)義相似的文本輸入映射到向量空間中彼此靠近的向量。目前，它支持 100 多種語(yǔ)言，其嵌入可用于各種任務(wù)，例如檢索和分類。

Gemini 嵌入的關(guān)鍵特性

強(qiáng)大的多語(yǔ)言能力: 該模型在 100 多種語(yǔ)言中展現(xiàn)出卓越的性能，不僅在英語(yǔ)等高資源語(yǔ)言中表現(xiàn)出色，而且在阿薩姆語(yǔ)和馬其頓語(yǔ)等低資源語(yǔ)言中也表現(xiàn)出色。
處理多達(dá) 8000 個(gè)輸入標(biāo)記: 這種強(qiáng)大的能力使模型能夠無(wú)縫處理冗長(zhǎng)的文檔或復(fù)雜的查詢，而不會(huì)截?cái)?，從而以超越許多現(xiàn)有嵌入模型的方式保持上下文和含義。
3K 維的輸出維度: 該模型生成的嵌入維度高達(dá) 3072，并支持 768 和 1536 等子維度，以便進(jìn)行特定于任務(wù)的優(yōu)化。
令人印象深刻的性能: Gemini Embedding 在海量文本嵌入基準(zhǔn)測(cè)試 (MTEB) 中排名第一，平均任務(wù)得分為 68.32，大大超過(guò)了其最接近的競(jìng)爭(zhēng)對(duì)手。

Gemini 嵌入的模型架構(gòu)

Comparison of Gemini Embedding with Multilingual-e5-large & Jina

Gemini Embedding 的核心是基于 Transformer 架構(gòu)，并從 Gemini LLM 初始化。這個(gè)基礎(chǔ)為模型提供了對(duì)語(yǔ)言結(jié)構(gòu)和語(yǔ)義的深刻理解。該模型使用雙向注意力機(jī)制來(lái)處理輸入序列，使其在生成嵌入時(shí)能夠考慮單詞或短語(yǔ)的完整上下文。

輸入序列 T 由 M（一個(gè)具有雙向注意力的 Transformer，從 Gemini 初始化）處理，產(chǎn)生一個(gè)標(biāo)記嵌入序列。
為了生成一個(gè)表示輸入中所有信息的單個(gè)嵌入，應(yīng)用池化函數(shù)。
最后，應(yīng)用線性投影將嵌入縮放至目標(biāo)維度，從而產(chǎn)生最終輸出嵌入。

損失函數(shù): Gemini Embedding 模型使用帶批內(nèi)負(fù)例的噪聲對(duì)比估計(jì) (NCE) 損失進(jìn)行訓(xùn)練。確切的損失會(huì)根據(jù)訓(xùn)練階段略有不同。一般來(lái)說(shuō)，一個(gè)訓(xùn)練示例包括一個(gè)查詢、一個(gè)正目標(biāo)和（可選）一個(gè)難負(fù)目標(biāo)。

訓(xùn)練策略

預(yù)微調(diào): 在此階段，模型在一個(gè)包含查詢-目標(biāo)對(duì)的大型多樣化數(shù)據(jù)集上進(jìn)行訓(xùn)練。這種曝光調(diào)整大型語(yǔ)言模型的參數(shù)以進(jìn)行編碼任務(wù)，為其適應(yīng)性奠定基礎(chǔ)。
微調(diào): 在第二階段，模型使用包含查詢-正例-難負(fù)例三元組的特定于任務(wù)的數(shù)據(jù)集進(jìn)行微調(diào)。此過(guò)程使用較小的批量大小和精心策劃的數(shù)據(jù)集來(lái)提高目標(biāo)任務(wù)的性能。

另請(qǐng)閱讀：Gemini Embedding：來(lái)自 Gemini 的通用嵌入

與其他多語(yǔ)言嵌入模型的比較

我們將印地語(yǔ)文檔的檢索與新發(fā)布的最新 Gemini 嵌入進(jìn)行比較，然后將其與 Jina AI 嵌入和 Multilingual-e5-large 嵌入進(jìn)行比較。如下表所示，就最大標(biāo)記數(shù)而言，Gemini 嵌入和 Jina AI 嵌入很高，使模型能夠處理長(zhǎng)文檔或復(fù)雜的查詢。此外，如下表所示，Gemini 嵌入具有更高的嵌入維度，可以捕捉單詞之間更細(xì)致和更細(xì)微的語(yǔ)義關(guān)系，使模型能夠表示復(fù)雜的語(yǔ)言模式和含義的細(xì)微差別。

	參數(shù)數(shù)量	嵌入維度	最大標(biāo)記	語(yǔ)言數(shù)量	套娃嵌入
gemini-embedding-exp-03-07	未知	3072	8192	100	支持將嵌入截?cái)酁楦鞣N尺寸，例如 2048、1024、512、256 和 128 維度，
jinaai/jina-embeddings-v3	5.72 億	1024	8194	100	支持靈活的嵌入大小 (32、64、128、256、512、768、1024)，允許截?cái)嗲度胍赃m應(yīng)您的應(yīng)用程序
multilingual-e5-large-instruct	5.6 億	1024	514	94	NA

使用 Gemini 嵌入進(jìn)行檢索，并與 Jina AI 嵌入和 Multilingual-e5-large 進(jìn)行比較

在以下實(shí)踐教程中，我們將印地語(yǔ)文檔的檢索與新發(fā)布的最新 Gemini 嵌入進(jìn)行比較，然后將其與 Jina AI 嵌入和 Multilingual-e5-large 嵌入進(jìn)行比較。

步驟 1. 安裝必要的庫(kù)

<code>!pip install langchain-community
!pip install chromadb</code>

步驟 2. 加載數(shù)據(jù)

我們使用來(lái)自網(wǎng)站的印地語(yǔ)數(shù)據(jù)來(lái)評(píng)估 Gemini 嵌入在印地語(yǔ)語(yǔ)言檢索方面的性能。

<code>from langchain_community.document_loaders import WebBaseLoader

loader = WebBaseLoader("https://ckbirlahospitals.com/rbh/blog/pregnancy-early-symptoms-in-hindi")
data = loader.load()</code>

步驟 3. 對(duì)數(shù)據(jù)進(jìn)行分塊

下面的代碼使用 RecursiveCharacterTextSplitter 將大型文本文檔拆分成 500 個(gè)字符的小塊，沒(méi)有重疊。然后，它將此拆分應(yīng)用于 datavariable 并將結(jié)果存儲(chǔ)在 all_splits 中。由于 Gemini Embedding API 的速率限制，我們只使用 10 個(gè)拆分。

<code>from langchain_text_splitters import RecursiveCharacterTextSplitter

text_splitter = RecursiveCharacterTextSplitter(chunk_size=500, chunk_overlap=0)
all_splits = text_splitter.split_documents(data)
all_splits = all_splits[:10]</code>

步驟 4. 將數(shù)據(jù)存儲(chǔ)在向量數(shù)據(jù)庫(kù)中

我們首先創(chuàng)建一個(gè)名為“GeminiEmbeddingFunction”的類，它有助于查詢 Gemini Embedding API 并返回輸入查詢的嵌入值。然后，我們創(chuàng)建一個(gè)名為“create_chroma_db”的函數(shù)，用于在 ChromaDB 中創(chuàng)建一個(gè)集合，該集合將存儲(chǔ)數(shù)據(jù)以及嵌入。

<code>import chromadb
from chromadb import Documents, EmbeddingFunction, Embeddings

class GeminiEmbeddingFunction(EmbeddingFunction):
  def __call__(self, input: Documents) -> Embeddings:
    title = "Custom query"  
    return client.models.embed_content(
        model="gemini-embedding-exp-03-07",
        contents=input).embeddings[0].values



def create_chroma_db(documents, name):
  chroma_client = chromadb.Client()
  db = chroma_client.create_collection(name=name, embedding_function=GeminiEmbeddingFunction())
  for i, d in enumerate(documents):
    db.add(
      documents=d.page_content,
      ids=str(i)
    )
  return db

db = create_chroma_db(all_splits, "datab")</code>

步驟 5. 查詢數(shù)據(jù)庫(kù)

<code>def get_relevant_passage(query, db):
  passage = db.query(query_texts=[query], n_results=1)['documents'][0][0]

  return passage

passage = get_relevant_passage("???? ?????????? ????? ?? ?????? ??????", db)
print(passage)</code>

步驟 6. 與 Jina AI 嵌入進(jìn)行比較

下面的代碼使用 Hugging Face transformer 模型定義了一個(gè)自定義嵌入函數(shù)，以及一種處理文本輸入以生成嵌入的方法。

來(lái)自 transformers 的 AutoTokenizer 和 AutoModel 用于加載預(yù)訓(xùn)練模型 (jinaai/jina-embeddings-v3)，并從 chromadb 導(dǎo)入 EmbeddingFunction 用于創(chuàng)建自定義嵌入。
average_pool 函數(shù)：此函數(shù)通過(guò)對(duì)模型的隱藏狀態(tài)執(zhí)行池化操作來(lái)聚合它們，在考慮注意力掩碼（忽略填充標(biāo)記）的同時(shí)對(duì)序列長(zhǎng)度取平均值。
CustomHuggingFace 類：它對(duì)文本進(jìn)行標(biāo)記化，將其饋送到模型中，并使用 average_pool 函數(shù)計(jì)算嵌入。結(jié)果作為嵌入列表返回。

<code>from transformers import AutoTokenizer, AutoModel
from chromadb import EmbeddingFunction


tokenizer = AutoTokenizer.from_pretrained('jinaai/jina-embeddings-v3')
model = AutoModel.from_pretrained('jinaai/jina-embeddings-v3')


# the model returns many hidden states per document so we must aggregate them
def average_pool(last_hidden_states, attention_mask):
    last_hidden = last_hidden_states.masked_fill(~attention_mask[...,None].bool(), 0.0)
    return last_hidden.sum(dim=1) / attention_mask.sum(dim=1)[...,None]

class CustomHuggingFace(EmbeddingFunction):
    def __call__(self, texts):
        queries    = [f'query: {text}' for text in texts]         
        batch_dict = tokenizer(texts, max_length=512, padding=True, truncation=True, return_tensors='pt')
        outputs    = model(**batch_dict)        
        embeddings = average_pool(outputs.last_hidden_state, batch_dict['attention_mask'])
        return embeddings.tolist()</code>

查詢

<code>def get_relevant_passage(query, db):
  passage = db.query(query_texts=[query], n_results=1)['documents'][0][0]

  return passage

passage = get_relevant_passage("???? ?????????? ????? ?? ?????? ??????", db)
print(passage)</code>

對(duì)于選擇Multilingual-e5-large 嵌入，我們只需將標(biāo)記器和模型替換為“intfloat/multilingual-e5-large-instruct”。

嵌入檢索輸出的比較

問(wèn)題編號(hào)	查詢	Gemini 嵌入	jinaai/jina-embeddings-v3	intfloat/multilingual-e5-large-instruct
1	???? ?????????? ????? ?? ?????? ??????	如果您想詳細(xì)了解懷孕的早期癥狀，那么這篇博文非常適合您。您應(yīng)該何時(shí)進(jìn)行懷孕測(cè)試？– 錯(cuò)誤	如果您想詳細(xì)了解懷孕的早期癥狀，那么這篇博文非常適合您。您應(yīng)該何時(shí)進(jìn)行懷孕測(cè)試？– 錯(cuò)誤	如果您想詳細(xì)了解懷孕的早期癥狀，那么這篇博文非常適合您。您應(yīng)該何時(shí)進(jìn)行懷孕測(cè)試？– 錯(cuò)誤
2	Pregnancy ?? kuch symptoms ???? ???? ????	懷孕的早期癥狀是什么？在懷孕期間，女性體內(nèi)會(huì)發(fā)生許多荷爾蒙變化。懷孕的早期癥狀包括惡心、嘔吐、頻繁排尿和疲勞等，我們將在本博文中討論這些癥狀。– 正確	懷孕的跡象：早期癥狀的完整信息！主頁(yè)快速咨詢患者登錄聯(lián)系我們：08062136530 緊急電話：07340054470 打開(kāi)主菜單服務(wù)患者和訪客國(guó)際患者關(guān)于我們預(yù)約回電WhatsApp 了解懷孕的早期癥狀。婦產(chǎn)科 \|作者：C. P. Dadhich 博士\| 發(fā)布日期：2025 年 2 月 6 日目錄您應(yīng)該何時(shí)進(jìn)行懷孕測(cè)試？懷孕的早期癥狀是什么？懷孕的早期癥狀懷孕的– 錯(cuò)誤	懷孕的早期癥狀是什么？在懷孕期間，女性體內(nèi)會(huì)發(fā)生許多荷爾蒙變化。懷孕的早期癥狀包括惡心、嘔吐、頻繁排尿和疲勞等，我們將在本博文中討論這些癥狀。– 正確
3	?????????? ?? ????? ??????????? ??? ???? ?? ?? ???? ??????	在懷孕的最初幾天，卵子與精子受精，導(dǎo)致出血和腹痛等癥狀。在此期間，為了健康懷孕，建議女性避免服用抗生素，因?yàn)檫@可能會(huì)對(duì)母親和嬰兒造成危險(xiǎn)。懷孕的早期癥狀并非總是月經(jīng)推遲或嘔吐。此外，還可能出現(xiàn)其他癥狀，需要特別注意，例如– 正確	在懷孕的最初幾天，卵子與精子受精，導(dǎo)致出血和腹痛等癥狀。在此期間，為了健康懷孕，建議女性避免服用抗生素，因?yàn)檫@可能會(huì)對(duì)母親和嬰兒造成危險(xiǎn)。懷孕的早期癥狀并非總是月經(jīng)推遲或嘔吐。此外，還可能出現(xiàn)其他癥狀，需要特別注意，例如– 正確	每個(gè)女性都應(yīng)該了解的內(nèi)容。對(duì)于任何與懷孕相關(guān)的疑問(wèn)，我們建議您聯(lián)系我們的婦科醫(yī)生，消除所有并發(fā)癥。– 錯(cuò)誤
4	?? ?????????? ??? ??????????? ??? ???? ?? ????? ????	在懷孕的最初幾天，卵子與精子受精，導(dǎo)致出血和腹痛等癥狀。在此期間，為了健康懷孕，建議女性避免服用抗生素，因?yàn)檫@可能會(huì)對(duì)母親和嬰兒造成危險(xiǎn)。懷孕的早期癥狀并非總是月經(jīng)推遲或嘔吐。此外，還可能出現(xiàn)其他癥狀，需要特別注意，例如– 正確	在懷孕的最初幾天，卵子與精子受精，導(dǎo)致出血和腹痛等癥狀。在此期間，為了健康懷孕，建議女性避免服用抗生素，因?yàn)檫@可能會(huì)對(duì)母親和嬰兒造成危險(xiǎn)。懷孕的早期癥狀并非總是月經(jīng)推遲或嘔吐。此外，還可能出現(xiàn)其他癥狀，需要特別注意，例如– 正確	每個(gè)女性都應(yīng)該了解的內(nèi)容。對(duì)于任何與懷孕相關(guān)的疑問(wèn)，我們建議您聯(lián)系我們的婦科醫(yī)生，消除所有并發(fā)癥。– 錯(cuò)誤
5	???????? ?? ???? ???? ??????? ????? ???? ???	月經(jīng)推遲：這是懷孕的最早和最常見(jiàn)的癥狀。僅根據(jù)此癥狀來(lái)確認(rèn)懷孕并不完全正確。但是，如果月經(jīng)推遲一周或更長(zhǎng)時(shí)間，建議進(jìn)行懷孕測(cè)試。乳房變化：懷孕期間，乳房會(huì)腫脹、變嫩或顏色發(fā)生變化。主要是在乳頭（乳暈）的大小和顏色上發(fā)生變化。– 正確	考慮到這一點(diǎn)，如何確認(rèn)懷孕？懷孕第一個(gè)月如何護(hù)理？如何進(jìn)行懷孕檢查？懷孕期間應(yīng)該如何坐？懷孕期間應(yīng)該發(fā)生性行為嗎？懷孕期間應(yīng)該吃什么水果？懷孕期間應(yīng)該喝多少水？成為母親的快樂(lè)是世界上最大的快樂(lè)。懷孕期間，女性的身體和心理都會(huì)發(fā)生許多變化。您將這些變化稱為懷孕的早期癥狀，– 錯(cuò)誤	懷孕的早期癥狀是什么？在懷孕期間，女性體內(nèi)會(huì)發(fā)生許多荷爾蒙變化。懷孕的早期癥狀包括惡心、嘔吐、頻繁排尿和疲勞等，我們將在本博文中討論這些癥狀。– 正確
6	???????? ?? ???? ????? ???? ???? ????	懷孕的跡象：早期癥狀的完整信息！主頁(yè)快速咨詢患者登錄聯(lián)系我們：08062136530 緊急電話：07340054470 打開(kāi)主菜單服務(wù)患者和訪客國(guó)際患者關(guān)于我們預(yù)約回電WhatsApp 了解懷孕的早期癥狀。婦產(chǎn)科 \|作者：C. P. Dadhich 博士\| 發(fā)布日期：2025 年 2 月 6 日目錄您應(yīng)該何時(shí)進(jìn)行懷孕測(cè)試？懷孕的早期癥狀是什么？懷孕的早期癥狀懷孕的– 錯(cuò)誤	考慮到這一點(diǎn)，如何確認(rèn)懷孕？懷孕第一個(gè)月如何護(hù)理？如何進(jìn)行懷孕檢查？懷孕期間應(yīng)該如何坐？懷孕期間應(yīng)該發(fā)生性行為嗎？懷孕期間應(yīng)該吃什么水果？懷孕期間應(yīng)該喝多少水？成為母親的快樂(lè)是世界上最大的快樂(lè)。懷孕期間，女性的身體和心理都會(huì)發(fā)生許多變化。您將這些變化稱為懷孕的早期癥狀，– 錯(cuò)誤	懷孕的早期癥狀是什么？在懷孕期間，女性體內(nèi)會(huì)發(fā)生許多荷爾蒙變化。懷孕的早期癥狀包括惡心、嘔吐、頻繁排尿和疲勞等，我們將在本博文中討論這些癥狀。– 正確
7	?????????? ?? ?????? ?? ??? ??? ?? ??????? ?? ??? ????? ???? ???	進(jìn)行懷孕測(cè)試的最佳時(shí)間是在月經(jīng)推遲至少 7 天后。您可以使用家用懷孕測(cè)試工具在家中檢測(cè) hCG 水平。在懷孕期間，這種激素的水平會(huì)顯著升高。您需要注意的一點(diǎn)是，過(guò)早進(jìn)行測(cè)試也可能導(dǎo)致錯(cuò)誤的結(jié)果，因此，如果您的月經(jīng)推遲并且測(cè)試結(jié)果為陰性，建議您至少再等 3 天，然后再次進(jìn)行測(cè)試。– 正確	這樣做也有正確的方法，您也可以在測(cè)試工具說(shuō)明書上看到。為了獲得準(zhǔn)確的結(jié)果，您應(yīng)該使用早晨的第一泡尿，因?yàn)檫@時(shí)可以測(cè)量 hCG 激素的正確水平。此外，如果您經(jīng)歷了懷孕的早期癥狀，并且測(cè)試結(jié)果為陰性，請(qǐng)立即去看醫(yī)生進(jìn)行血液測(cè)試。在任何情況下，如有任何疑問(wèn)，都必須咨詢醫(yī)生。– 正確	懷孕的早期癥狀是什么？在懷孕期間，女性體內(nèi)會(huì)發(fā)生許多荷爾蒙變化。懷孕的早期癥狀包括惡心、嘔吐、頻繁排尿和疲勞等，我們將在本博文中討論這些癥狀。– 錯(cuò)誤

解釋

從上述印地語(yǔ)輸出中可以看出，使用 Gemini 嵌入，我們從 7 個(gè)查詢中得到了 5 個(gè)正確的輸出，而使用 Jina AI 嵌入和 Multilingual-e5-large，我們只得到了 3 個(gè)正確的響應(yīng)。

這表明，正如 MTEB 基準(zhǔn)測(cè)試所反映的那樣，Gemini 嵌入可以很好地執(zhí)行，并且比其他嵌入模型更好地處理印地語(yǔ)等多語(yǔ)言。

結(jié)論

總之，Gemini 嵌入代表了多語(yǔ)言 NLP 的重大進(jìn)步，特別是對(duì)于印地語(yǔ)等印度語(yǔ)系語(yǔ)言。憑借其強(qiáng)大的多語(yǔ)言能力、對(duì)大型輸入尺寸的支持以及在 MTEB 等基準(zhǔn)測(cè)試中的卓越性能，Gemini 在檢索、分類和語(yǔ)義搜索等任務(wù)中表現(xiàn)出色。通過(guò)實(shí)踐比較可以看出，Gemini 的性能優(yōu)于其他模型，提供更高的準(zhǔn)確性和效率，使其成為促進(jìn)多種語(yǔ)言 NLP 的寶貴工具。

主要收獲

印地語(yǔ)系語(yǔ)言詞嵌入的重要性: 高質(zhì)量的嵌入增強(qiáng)了翻譯、問(wèn)答和檢索等 NLP 任務(wù)，解決了語(yǔ)言挑戰(zhàn)和資源差距問(wèn)題。
Gemini Embedding 模型: 谷歌的 Gemini 嵌入利用其 AI 框架進(jìn)行多語(yǔ)言文本處理，涵蓋 100 多種語(yǔ)言，包括低資源語(yǔ)言。
關(guān)鍵特性: 支持 8000 個(gè)標(biāo)記和 3072 維嵌入，能夠高效處理長(zhǎng)文檔和復(fù)雜查詢。
令人印象深刻的性能: 在 MTEB 多語(yǔ)言排行榜上排名第一，平均任務(wù)得分為 68.32，展示了其在多語(yǔ)言 NLP 中的強(qiáng)大功能。

本文中顯示的媒體并非 Analytics Vidhya 所有，作者可自行決定使用。

常見(jiàn)問(wèn)題

Q1. 什么是 Gemini Embedding 模型？答：Gemini Embedding 模型基于谷歌的 Gemini AI，為包括印地語(yǔ)在內(nèi)的 100 多種語(yǔ)言提供頂級(jí)多語(yǔ)言文本嵌入。

Q2. 與其他模型相比，Gemini Embedding 的獨(dú)特之處是什么？答：Gemini Embedding 在多語(yǔ)言支持方面表現(xiàn)出色，可以處理 8000 個(gè)標(biāo)記，并輸出 3072 維，確保在分類、檢索和語(yǔ)義搜索方面的效率。

Q3. Gemini Embedding 在多語(yǔ)言任務(wù)中的表現(xiàn)如何？答：Gemini Embedding 在英語(yǔ)等高資源語(yǔ)言和阿薩姆語(yǔ)、馬其頓語(yǔ)等低資源語(yǔ)言中的表現(xiàn)都很好。它在 MTEB 多語(yǔ)言排行榜上排名第一，展示了其強(qiáng)大的多語(yǔ)言能力。

Q4. Gemini Embedding 模型的架構(gòu)是什么？答：該模型從 Gemini LLM 初始化，使用具有雙向注意力的 Transformer 架構(gòu)來(lái)生成高質(zhì)量的文本嵌入，捕捉上下文和含義。

Q5. Gemini Embedding 模型是如何訓(xùn)練的？答：Gemini Embedding 使用帶批內(nèi)負(fù)例的噪聲對(duì)比估計(jì) (NCE) 損失進(jìn)行訓(xùn)練。它經(jīng)歷了兩個(gè)訓(xùn)練階段：在一個(gè)大型數(shù)據(jù)集上進(jìn)行預(yù)微調(diào)，并在特定于任務(wù)的數(shù)據(jù)集上進(jìn)行微調(diào)，以提高 NLP 性能。

以上是與多語(yǔ)言E5-Large和Jina嵌入雙子座的比較的詳細(xì)內(nèi)容。更多信息請(qǐng)關(guān)注PHP中文網(wǎng)其他相關(guān)文章！

本站聲明

本文內(nèi)容由網(wǎng)友自發(fā)貢獻(xiàn)，版權(quán)歸原作者所有，本站不承擔(dān)相應(yīng)法律責(zé)任。如您發(fā)現(xiàn)有涉嫌抄襲侵權(quán)的內(nèi)容，請(qǐng)聯(lián)系admin@php.cn