国产av日韩一区二区三区精品,成人性爱视频在线观看,国产,欧美,日韩,一区,www.成色av久久成人,2222eeee成人天堂

目錄
學(xué)習(xí)目標(biāo)
目錄
什麼是Gemini 嵌入?
Gemini 嵌入的關(guān)鍵特性
Gemini 嵌入的模型架構(gòu)
訓(xùn)練策略
與其他多語言嵌入模型的比較
使用Gemini 嵌入進(jìn)行檢索,並與Jina AI 嵌入和Multilingual-e5-large 進(jìn)行比較
嵌入檢索輸出的比較
解釋
結(jié)論
主要收穫
常見問題
首頁 科技週邊 人工智慧 與多語言E5-Large和Jina嵌入雙子座的比較

與多語言E5-Large和Jina嵌入雙子座的比較

Mar 20, 2025 pm 03:02 PM

Gemini Embedding:谷歌Gemini AI框架下的多語言文本嵌入模型

對(duì)於印地語等印度語系的自然語言處理(NLP) 任務(wù)(如機(jī)器翻譯、問答和信息檢索)而言,詞嵌入至關(guān)重要。這些嵌入捕捉單詞的語義屬性,從而實(shí)現(xiàn)更準(zhǔn)確、更注重語境的NLP 應(yīng)用。鑑於印地語使用者眾多且印度語係數(shù)字內(nèi)容日益增長(zhǎng),高質(zhì)量的嵌入對(duì)於提高這些語言的NLP 性能至關(guān)重要。定制化的嵌入可以特別解決印度語系的獨(dú)特語言特徵和資源限制問題。新發(fā)布的Gemini Embedding 模型代表了多語言文本嵌入的重大進(jìn)步,它利用谷歌強(qiáng)大的Gemini AI 框架,在100 多種語言中實(shí)現(xiàn)了最先進(jìn)的性能。

Gemini Embedding 模型擅長(zhǎng)分類、檢索和語義搜索等任務(wù),提供更高的效率和準(zhǔn)確性。通過支持更大的輸入規(guī)模和更高維度的輸出,Gemini Embedding 提供更豐富的文本表示,使其能夠廣泛應(yīng)用於各種應(yīng)用。

學(xué)習(xí)目標(biāo)

  • 了解Gemini 嵌入及其與Gemini LLM 的集成。
  • 使用Gemini 嵌入檢索印地語文檔的實(shí)踐教程。
  • 與Jina AI 嵌入和Multilingual-e5-large 的比較分析。
  • 對(duì)多語言文本檢索能力和應(yīng)用的見解。

*本文作為***數(shù)據(jù)科學(xué)博客馬拉松的一部分發(fā)表。 ***

目錄

  • 什麼是Gemini 嵌入?
  • Gemini 嵌入的關(guān)鍵特性
  • Gemini 嵌入的模型架構(gòu)
  • 與其他多語言嵌入模型的比較
  • 使用Gemini 嵌入進(jìn)行檢索,並與Jina AI 嵌入和Multilingual-e5-large 進(jìn)行比較
    • 步驟1. 安裝必要的庫
    • 步驟2. 加載數(shù)據(jù)
    • 步驟3. 對(duì)數(shù)據(jù)進(jìn)行分塊
    • 步驟4. 將數(shù)據(jù)存儲(chǔ)在向量數(shù)據(jù)庫中
    • 步驟5. 查詢數(shù)據(jù)庫
    • 步驟6. 與Jina AI 嵌入進(jìn)行比較
  • 嵌入檢索輸出的比較
    • 解釋
  • 結(jié)論
  • 常見問題

什麼是Gemini 嵌入?

2025 年3 月,谷歌發(fā)布了一個(gè)新的實(shí)驗(yàn)性Gemini Embedding 文本模型(gemini-embedding-exp-03-07),可在Gemini API 中使用。

該高級(jí)嵌入模型源於Gemini 模型,據(jù)稱繼承了Gemini 對(duì)語言和細(xì)微語境細(xì)微差別的深刻理解,使其能夠廣泛應(yīng)用於各種應(yīng)用。它在MTEB 多語言排行榜上佔(zhàn)據(jù)榜首。

Comparison of Gemini Embedding with Multilingual-e5-large & Jina

Gemini Embedding 將文本表示為密集向量,其中語義相似的文本輸入映射到向量空間中彼此靠近的向量。目前,它支持100 多種語言,其嵌入可用於各種任務(wù),例如檢索和分類。

Gemini 嵌入的關(guān)鍵特性

  • 強(qiáng)大的多語言能力: 該模型在100 多種語言中展現(xiàn)出卓越的性能,不僅在英語等高資源語言中表現(xiàn)出色,而且在阿薩姆語和馬其頓語等低資源語言中也表現(xiàn)出色。
  • 處理多達(dá)8000 個(gè)輸入標(biāo)記: 這種強(qiáng)大的能力使模型能夠無縫處理冗長(zhǎng)的文檔或複雜的查詢,而不會(huì)截?cái)?,從而以超越許多現(xiàn)有嵌入模型的方式保持上下文和含義。
  • 3K 維的輸出維度: 該模型生成的嵌入維度高達(dá)3072,並支持768 和1536 等子維度,以便進(jìn)行特定於任務(wù)的優(yōu)化。
  • 令人印象深刻的性能: Gemini Embedding 在海量文本嵌入基準(zhǔn)測(cè)試(MTEB) 中排名第一,平均任務(wù)得分為68.32,大大超過了其最接近的競(jìng)爭(zhēng)對(duì)手。

Gemini 嵌入的模型架構(gòu)

Comparison of Gemini Embedding with Multilingual-e5-large & Jina

Gemini Embedding 的核心是基於Transformer 架構(gòu),並從Gemini LLM 初始化。這個(gè)基礎(chǔ)為模型提供了對(duì)語言結(jié)構(gòu)和語義的深刻理解。該模型使用雙向注意力機(jī)制來處理輸入序列,使其在生成嵌入時(shí)能夠考慮單詞或短語的完整上下文。

  1. 輸入序列T 由M(一個(gè)具有雙向注意力的Transformer,從Gemini 初始化)處理,產(chǎn)生一個(gè)標(biāo)記嵌入序列。
  2. 為了生成一個(gè)表示輸入中所有信息的單個(gè)嵌入,應(yīng)用池化函數(shù)。
  3. 最後,應(yīng)用線性投影將嵌入縮放至目標(biāo)維度,從而產(chǎn)生最終輸出嵌入。

損失函數(shù): Gemini Embedding 模型使用帶批內(nèi)負(fù)例的噪聲對(duì)比估計(jì)(NCE) 損失進(jìn)行訓(xùn)練。確切的損失會(huì)根據(jù)訓(xùn)練階段略有不同。一般來說,一個(gè)訓(xùn)練示例包括一個(gè)查詢、一個(gè)正目標(biāo)和(可選)一個(gè)難負(fù)目標(biāo)。

訓(xùn)練策略

  1. 預(yù)微調(diào): 在此階段,模型在一個(gè)包含查詢-目標(biāo)對(duì)的大型多樣化數(shù)據(jù)集上進(jìn)行訓(xùn)練。這種曝光調(diào)整大型語言模型的參數(shù)以進(jìn)行編碼任務(wù),為其適應(yīng)性奠定基礎(chǔ)。
  2. 微調(diào): 在第二階段,模型使用包含查詢-正例-難負(fù)例三元組的特定於任務(wù)的數(shù)據(jù)集進(jìn)行微調(diào)。此過程使用較小的批量大小和精心策劃的數(shù)據(jù)集來提高目標(biāo)任務(wù)的性能。

另請(qǐng)閱讀:Gemini Embedding:來自Gemini 的通用嵌入

與其他多語言嵌入模型的比較

我們將印地語文檔的檢索與新發(fā)布的最新Gemini 嵌入進(jìn)行比較,然後將其與Jina AI 嵌入和Multilingual-e5-large 嵌入進(jìn)行比較。如下表所示,就最大標(biāo)記數(shù)而言,Gemini 嵌入和Jina AI 嵌入很高,使模型能夠處理長(zhǎng)文檔或複雜的查詢。此外,如下表所示,Gemini 嵌入具有更高的嵌入維度,可以捕捉單詞之間更細(xì)緻和更細(xì)微的語義關(guān)係,使模型能夠表示複雜的語言模式和含義的細(xì)微差別。

參數(shù)數(shù)量 嵌入維度 最大標(biāo)記 語言數(shù)量 套娃嵌入
gemini-embedding-exp-03-07 未知 3072 8192 100 支持將嵌入截?cái)酁楦鞣N尺寸,例如2048、1024、512、256 和128 維度,
jinaai/jina-embeddings-v3 5.72 億 1024 8194 100 支持靈活的嵌入大小(32、64、128、256、512、768、1024),允許截?cái)嗲度胍赃m應(yīng)您的應(yīng)用程序
multilingual-e5-large-instruct 5.6 億 1024 514 94 NA

使用Gemini 嵌入進(jìn)行檢索,並與Jina AI 嵌入和Multilingual-e5-large 進(jìn)行比較

在以下實(shí)踐教程中,我們將印地語文檔的檢索與新發(fā)布的最新Gemini 嵌入進(jìn)行比較,然後將其與Jina AI 嵌入和Multilingual-e5-large 嵌入進(jìn)行比較。

步驟1. 安裝必要的庫

<code>!pip install langchain-community !pip install chromadb</code>

步驟2. 加載數(shù)據(jù)

我們使用來自網(wǎng)站的印地語數(shù)據(jù)來評(píng)估Gemini 嵌入在印地語語言檢索方面的性能。

 <code>from langchain_community.document_loaders import WebBaseLoader loader = WebBaseLoader("https://ckbirlahospitals.com/rbh/blog/pregnancy-early-symptoms-in-hindi") data = loader.load()</code>

步驟3. 對(duì)數(shù)據(jù)進(jìn)行分塊

下面的代碼使用RecursiveCharacterTextSplitter 將大型文本文檔拆分成500 個(gè)字符的小塊,沒有重疊。然後,它將此拆分應(yīng)用於datavariable 並將結(jié)果存儲(chǔ)在all_splits 中。由於Gemini Embedding API 的速率限制,我們只使用10 個(gè)拆分。

 <code>from langchain_text_splitters import RecursiveCharacterTextSplitter text_splitter = RecursiveCharacterTextSplitter(chunk_size=500, chunk_overlap=0) all_splits = text_splitter.split_documents(data) all_splits = all_splits[:10]</code>

步驟4. 將數(shù)據(jù)存儲(chǔ)在向量數(shù)據(jù)庫中

我們首先創(chuàng)建一個(gè)名為“GeminiEmbeddingFunction”的類,它有助於查詢Gemini Embedding API 並返回輸入查詢的嵌入值。然後,我們創(chuàng)建一個(gè)名為“create_chroma_db”的函數(shù),用於在ChromaDB 中創(chuàng)建一個(gè)集合,該集合將存儲(chǔ)數(shù)據(jù)以及嵌入。

 <code>import chromadb from chromadb import Documents, EmbeddingFunction, Embeddings class GeminiEmbeddingFunction(EmbeddingFunction): def __call__(self, input: Documents) -> Embeddings: title = "Custom query" return client.models.embed_content( model="gemini-embedding-exp-03-07", contents=input).embeddings[0].values def create_chroma_db(documents, name): chroma_client = chromadb.Client() db = chroma_client.create_collection(name=name, embedding_function=GeminiEmbeddingFunction()) for i, d in enumerate(documents): db.add( documents=d.page_content, ids=str(i) ) return db db = create_chroma_db(all_splits, "datab")</code>

步驟5. 查詢數(shù)據(jù)庫

<code>def get_relevant_passage(query, db): passage = db.query(query_texts=[query], n_results=1)['documents'][0][0] return passage passage = get_relevant_passage("???? ?????????? ????? ?? ?????? ??????", db) print(passage)</code>

步驟6. 與Jina AI 嵌入進(jìn)行比較

下面的代碼使用Hugging Face transformer 模型定義了一個(gè)自定義嵌入函數(shù),以及一種處理文本輸入以生成嵌入的方法。

  1. 來自transformers 的AutoTokenizer 和AutoModel 用於加載預(yù)訓(xùn)練模型(jinaai/jina-embeddings-v3),並從chromadb 導(dǎo)入EmbeddingFunction 用於創(chuàng)建自定義嵌入。
  2. average_pool 函數(shù):此函數(shù)通過對(duì)模型的隱藏狀態(tài)執(zhí)行池化操作來聚合它們,在考慮注意力掩碼(忽略填充標(biāo)記)的同時(shí)對(duì)序列長(zhǎng)度取平均值。
  3. CustomHuggingFace 類:它對(duì)文本進(jìn)行標(biāo)記化,將其饋送到模型中,並使用average_pool 函數(shù)計(jì)算嵌入。結(jié)果作為嵌入列表返回。
 <code>from transformers import AutoTokenizer, AutoModel from chromadb import EmbeddingFunction tokenizer = AutoTokenizer.from_pretrained('jinaai/jina-embeddings-v3') model = AutoModel.from_pretrained('jinaai/jina-embeddings-v3') # the model returns many hidden states per document so we must aggregate them def average_pool(last_hidden_states, attention_mask): last_hidden = last_hidden_states.masked_fill(~attention_mask[...,None].bool(), 0.0) return last_hidden.sum(dim=1) / attention_mask.sum(dim=1)[...,None] class CustomHuggingFace(EmbeddingFunction): def __call__(self, texts): queries = [f'query: {text}' for text in texts] batch_dict = tokenizer(texts, max_length=512, padding=True, truncation=True, return_tensors='pt') outputs = model(**batch_dict) embeddings = average_pool(outputs.last_hidden_state, batch_dict['attention_mask']) return embeddings.tolist()</code>

查詢

<code>def get_relevant_passage(query, db): passage = db.query(query_texts=[query], n_results=1)['documents'][0][0] return passage passage = get_relevant_passage("???? ?????????? ????? ?? ?????? ??????", db) print(passage)</code>

對(duì)於選擇Multilingual-e5-large 嵌入,我們只需將標(biāo)記器和模型替換為“intfloat/multilingual-e5-large-instruct”。

嵌入檢索輸出的比較

問題編號(hào) 查詢 Gemini 嵌入 jinaai/jina-embeddings-v3 intfloat/multilingual-e5-large-instruct
1 ???? ?????????? ????? ?? ?????? ?????? 如果您想詳細(xì)了解懷孕的早期癥狀,那麼這篇博文非常適合您。您應(yīng)該何時(shí)進(jìn)行懷孕測(cè)試? –錯(cuò)誤 如果您想詳細(xì)了解懷孕的早期癥狀,那麼這篇博文非常適合您。您應(yīng)該何時(shí)進(jìn)行懷孕測(cè)試? –錯(cuò)誤 如果您想詳細(xì)了解懷孕的早期癥狀,那麼這篇博文非常適合您。您應(yīng)該何時(shí)進(jìn)行懷孕測(cè)試? –錯(cuò)誤
2 Pregnancy ?? kuch symptoms ???? ???? ???? 懷孕的早期癥狀是什麼?在懷孕期間,女性體內(nèi)會(huì)發(fā)生許多荷爾蒙變化。懷孕的早期癥狀包括噁心、嘔吐、頻繁排尿和疲勞等,我們將在本博文中討論這些癥狀。 –正確 懷孕的跡象:早期癥狀的完整信息!主頁快速諮詢患者登錄聯(lián)繫我們:08062136530 緊急電話:07340054470 打開主菜單服務(wù)患者和訪客國(guó)際患者關(guān)於我們預(yù)約回電WhatsApp 了解懷孕的早期癥狀。婦產(chǎn)科|作者:CP Dadhich 博士| 發(fā)布日期:2025 年2 月6 日目錄您應(yīng)該何時(shí)進(jìn)行懷孕測(cè)試?懷孕的早期癥狀是什麼?懷孕的早期癥狀懷孕的–錯(cuò)誤 懷孕的早期癥狀是什麼?在懷孕期間,女性體內(nèi)會(huì)發(fā)生許多荷爾蒙變化。懷孕的早期癥狀包括噁心、嘔吐、頻繁排尿和疲勞等,我們將在本博文中討論這些癥狀。 –正確
3 ?????????? ?? ????? ??????????? ??? ???? ?? ?? ???? ?????? 在懷孕的最初幾天,卵子與精子受精,導(dǎo)致出血和腹痛等癥狀。在此期間,為了健康懷孕,建議女性避免服用抗生素,因?yàn)檫@可能會(huì)對(duì)母親和嬰兒造成危險(xiǎn)。懷孕的早期癥狀並非總是月經(jīng)推遲或嘔吐。此外,還可能出現(xiàn)其他癥狀,需要特別注意,例如–正確 在懷孕的最初幾天,卵子與精子受精,導(dǎo)致出血和腹痛等癥狀。在此期間,為了健康懷孕,建議女性避免服用抗生素,因?yàn)檫@可能會(huì)對(duì)母親和嬰兒造成危險(xiǎn)。懷孕的早期癥狀並非總是月經(jīng)推遲或嘔吐。此外,還可能出現(xiàn)其他癥狀,需要特別注意,例如–正確 每個(gè)女性都應(yīng)該了解的內(nèi)容。對(duì)於任何與懷孕相關(guān)的疑問,我們建議您聯(lián)繫我們的婦科醫(yī)生,消除所有並發(fā)癥。 –錯(cuò)誤
4 ?? ?????????? ??? ??????????? ??? ???? ?? ????? ???? 在懷孕的最初幾天,卵子與精子受精,導(dǎo)致出血和腹痛等癥狀。在此期間,為了健康懷孕,建議女性避免服用抗生素,因?yàn)檫@可能會(huì)對(duì)母親和嬰兒造成危險(xiǎn)。懷孕的早期癥狀並非總是月經(jīng)推遲或嘔吐。此外,還可能出現(xiàn)其他癥狀,需要特別注意,例如–正確 在懷孕的最初幾天,卵子與精子受精,導(dǎo)致出血和腹痛等癥狀。在此期間,為了健康懷孕,建議女性避免服用抗生素,因?yàn)檫@可能會(huì)對(duì)母親和嬰兒造成危險(xiǎn)。懷孕的早期癥狀並非總是月經(jīng)推遲或嘔吐。此外,還可能出現(xiàn)其他癥狀,需要特別注意,例如–正確 每個(gè)女性都應(yīng)該了解的內(nèi)容。對(duì)於任何與懷孕相關(guān)的疑問,我們建議您聯(lián)繫我們的婦科醫(yī)生,消除所有並發(fā)癥。 –錯(cuò)誤
5 ???????? ?? ???? ???? ??????? ????? ???? ??? 月經(jīng)推遲:這是懷孕的最早和最常見的癥狀。僅根據(jù)此癥狀來確認(rèn)懷孕並不完全正確。但是,如果月經(jīng)推遲一周或更長(zhǎng)時(shí)間,建議進(jìn)行懷孕測(cè)試。乳房變化:懷孕期間,乳房會(huì)腫脹、變嫩或顏色發(fā)生變化。主要是在乳頭(乳暈)的大小和顏色上發(fā)生變化。 –正確 考慮到這一點(diǎn),如何確認(rèn)懷孕?懷孕第一個(gè)月如何護(hù)理?如何進(jìn)行懷孕檢查?懷孕期間應(yīng)該如何坐?懷孕期間應(yīng)該發(fā)生性行為嗎?懷孕期間應(yīng)該吃什麼水果?懷孕期間應(yīng)該喝多少水?成為母親的快樂是世界上最大的快樂。懷孕期間,女性的身體和心理都會(huì)發(fā)生許多變化。您將這些變化稱為懷孕的早期癥狀,–錯(cuò)誤 懷孕的早期癥狀是什麼?在懷孕期間,女性體內(nèi)會(huì)發(fā)生許多荷爾蒙變化。懷孕的早期癥狀包括噁心、嘔吐、頻繁排尿和疲勞等,我們將在本博文中討論這些癥狀。 –正確
6 ???????? ?? ???? ????? ???? ???? ???? 懷孕的跡象:早期癥狀的完整信息!主頁快速諮詢患者登錄聯(lián)繫我們:08062136530 緊急電話:07340054470 打開主菜單服務(wù)患者和訪客國(guó)際患者關(guān)於我們預(yù)約回電WhatsApp 了解懷孕的早期癥狀。婦產(chǎn)科|作者:CP Dadhich 博士| 發(fā)布日期:2025 年2 月6 日目錄您應(yīng)該何時(shí)進(jìn)行懷孕測(cè)試?懷孕的早期癥狀是什麼?懷孕的早期癥狀懷孕的–錯(cuò)誤 考慮到這一點(diǎn),如何確認(rèn)懷孕?懷孕第一個(gè)月如何護(hù)理?如何進(jìn)行懷孕檢查?懷孕期間應(yīng)該如何坐?懷孕期間應(yīng)該發(fā)生性行為嗎?懷孕期間應(yīng)該吃什麼水果?懷孕期間應(yīng)該喝多少水?成為母親的快樂是世界上最大的快樂。懷孕期間,女性的身體和心理都會(huì)發(fā)生許多變化。您將這些變化稱為懷孕的早期癥狀,–錯(cuò)誤 懷孕的早期癥狀是什麼?在懷孕期間,女性體內(nèi)會(huì)發(fā)生許多荷爾蒙變化。懷孕的早期癥狀包括噁心、嘔吐、頻繁排尿和疲勞等,我們將在本博文中討論這些癥狀。 –正確
7 ?????????? ?? ?????? ?? ??? ??? ?? ??????? ?? ??? ????? ???? ??? 進(jìn)行懷孕測(cè)試的最佳時(shí)間是在月經(jīng)推遲至少7 天后。您可以使用家用懷孕測(cè)試工具在家中檢測(cè)hCG 水平。在懷孕期間,這種激素的水平會(huì)顯著升高。您需要注意的一點(diǎn)是,過早進(jìn)行測(cè)試也可能導(dǎo)致錯(cuò)誤的結(jié)果,因此,如果您的月經(jīng)推遲並且測(cè)試結(jié)果為陰性,建議您至少再等3 天,然後再次進(jìn)行測(cè)試。 –正確 這樣做也有正確的方法,您也可以在測(cè)試工具說明書上看到。為了獲得準(zhǔn)確的結(jié)果,您應(yīng)該使用早晨的第一泡尿,因?yàn)檫@時(shí)可以測(cè)量hCG 激素的正確水平。此外,如果您經(jīng)歷了懷孕的早期癥狀,並且測(cè)試結(jié)果為陰性,請(qǐng)立即去看醫(yī)生進(jìn)行血液測(cè)試。在任何情況下,如有任何疑問,都必須諮詢醫(yī)生。 –正確 懷孕的早期癥狀是什麼?在懷孕期間,女性體內(nèi)會(huì)發(fā)生許多荷爾蒙變化。懷孕的早期癥狀包括噁心、嘔吐、頻繁排尿和疲勞等,我們將在本博文中討論這些癥狀。 –錯(cuò)誤

解釋

從上述印地語輸出中可以看出,使用Gemini 嵌入,我們從7 個(gè)查詢中得到了5 個(gè)正確的輸出,而使用Jina AI 嵌入和Multilingual-e5-large,我們只得到了3 個(gè)正確的響應(yīng)。

這表明,正如MTEB 基準(zhǔn)測(cè)試所反映的那樣,Gemini 嵌入可以很好地執(zhí)行,並且比其他嵌入模型更好地處理印地語等多語言。

結(jié)論

總之,Gemini 嵌入代表了多語言NLP 的重大進(jìn)步,特別是對(duì)於印地語等印度語系語言。憑藉其強(qiáng)大的多語言能力、對(duì)大型輸入尺寸的支持以及在MTEB 等基準(zhǔn)測(cè)試中的卓越性能,Gemini 在檢索、分類和語義搜索等任務(wù)中表現(xiàn)出色。通過實(shí)踐比較可以看出,Gemini 的性能優(yōu)於其他模型,提供更高的準(zhǔn)確性和效率,使其成為促進(jìn)多種語言NLP 的寶貴工具。

主要收穫

  • 印地語系語言詞嵌入的重要性: 高質(zhì)量的嵌入增強(qiáng)了翻譯、問答和檢索等NLP 任務(wù),解決了語言挑戰(zhàn)和資源差距問題。
  • Gemini Embedding 模型: 谷歌的Gemini 嵌入利用其AI 框架進(jìn)行多語言文本處理,涵蓋100 多種語言,包括低資源語言。
  • 關(guān)鍵特性: 支持8000 個(gè)標(biāo)記和3072 維嵌入,能夠高效處理長(zhǎng)文檔和復(fù)雜查詢。
  • 令人印象深刻的性能: 在MTEB 多語言排行榜上排名第一,平均任務(wù)得分為68.32,展示了其在多語言NLP 中的強(qiáng)大功能。

本文中顯示的媒體並非Analytics Vidhya 所有,作者可自行決定使用。

常見問題

Q1. 什麼是Gemini Embedding 模型?答:Gemini Embedding 模型基於谷歌的Gemini AI,為包括印地語在內(nèi)的100 多種語言提供頂級(jí)多語言文本嵌入。

Q2. 與其他模型相比,Gemini Embedding 的獨(dú)特之處是什麼?答:Gemini Embedding 在多語言支持方面表現(xiàn)出色,可以處理8000 個(gè)標(biāo)記,並輸出3072 維,確保在分類、檢索和語義搜索方面的效率。

Q3. Gemini Embedding 在多語言任務(wù)中的表現(xiàn)如何?答:Gemini Embedding 在英語等高資源語言和阿薩姆語、馬其頓語等低資源語言中的表現(xiàn)都很好。它在MTEB 多語言排行榜上排名第一,展示了其強(qiáng)大的多語言能力。

Q4. Gemini Embedding 模型的架構(gòu)是什麼?答:該模型從Gemini LLM 初始化,使用具有雙向注意力的Transformer 架構(gòu)來生成高質(zhì)量的文本嵌入,捕捉上下文和含義。

Q5. Gemini Embedding 模型是如何訓(xùn)練的?答:Gemini Embedding 使用帶批內(nèi)負(fù)例的噪聲對(duì)比估計(jì)(NCE) 損失進(jìn)行訓(xùn)練。它經(jīng)歷了兩個(gè)訓(xùn)練階段:在一個(gè)大型數(shù)據(jù)集上進(jìn)行預(yù)微調(diào),並在特定於任務(wù)的數(shù)據(jù)集上進(jìn)行微調(diào),以提高NLP 性能。

以上是與多語言E5-Large和Jina嵌入雙子座的比較的詳細(xì)內(nèi)容。更多資訊請(qǐng)關(guān)注PHP中文網(wǎng)其他相關(guān)文章!

本網(wǎng)站聲明
本文內(nèi)容由網(wǎng)友自願(yuàn)投稿,版權(quán)歸原作者所有。本站不承擔(dān)相應(yīng)的法律責(zé)任。如發(fā)現(xiàn)涉嫌抄襲或侵權(quán)的內(nèi)容,請(qǐng)聯(lián)絡(luò)admin@php.cn

熱AI工具

Undress AI Tool

Undress AI Tool

免費(fèi)脫衣圖片

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅(qū)動(dòng)的應(yīng)用程序,用於創(chuàng)建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Clothoff.io

Clothoff.io

AI脫衣器

Video Face Swap

Video Face Swap

使用我們完全免費(fèi)的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱工具

記事本++7.3.1

記事本++7.3.1

好用且免費(fèi)的程式碼編輯器

SublimeText3漢化版

SublimeText3漢化版

中文版,非常好用

禪工作室 13.0.1

禪工作室 13.0.1

強(qiáng)大的PHP整合開發(fā)環(huán)境

Dreamweaver CS6

Dreamweaver CS6

視覺化網(wǎng)頁開發(fā)工具

SublimeText3 Mac版

SublimeText3 Mac版

神級(jí)程式碼編輯軟體(SublimeText3)

前7個(gè)筆記本替代品 前7個(gè)筆記本替代品 Jun 17, 2025 pm 04:32 PM

Google的NotebookLM是由Gemini 2.5提供動(dòng)力的智能AI筆記工具,它在匯總文檔方面表現(xiàn)出色。但是,它在工具使用方面仍然有局限性,例如源蓋,雲(yún)依賴性和最近的“發(fā)現(xiàn)”功能

山姆·奧特曼(Sam Altman)說,AI已經(jīng)超越了活動(dòng)的視野,但是由於Agi和ASI將是一個(gè)溫柔的奇異性,因此不用擔(dān)心 山姆·奧特曼(Sam Altman)說,AI已經(jīng)超越了活動(dòng)的視野,但是由於Agi和ASI將是一個(gè)溫柔的奇異性,因此不用擔(dān)心 Jun 12, 2025 am 11:26 AM

讓我們深入研究這一點(diǎn)。這本部分分析AI中的開創(chuàng)性開發(fā)是我持續(xù)報(bào)導(dǎo)的《福布斯》中人工智能不斷發(fā)展的景觀的一部分,包括解開和闡明AI的重大進(jìn)步和復(fù)雜性

好萊塢起訴AI公司,用於復(fù)制沒有許可證的角色 好萊塢起訴AI公司,用於復(fù)制沒有許可證的角色 Jun 14, 2025 am 11:16 AM

但是,這裡的危險(xiǎn)不僅僅是追溯損失或皇室報(bào)銷。根據(jù)AI治理和IP律師兼Ambart Law PLLC的創(chuàng)始人Yelena Ambartsumian的說法,真正的關(guān)注是前瞻性。 “我認(rèn)為迪士尼和環(huán)球影業(yè)的MA

DIA瀏覽器發(fā)布 - 與AI知道您喜歡朋友的AI DIA瀏覽器發(fā)布 - 與AI知道您喜歡朋友的AI Jun 12, 2025 am 11:23 AM

Dia 是此前短命瀏覽器 Arc 的繼任者,The Browser 公司已將 Arc 暫停開發(fā),專注於 Dia。該瀏覽器於週三以測(cè)試版形式發(fā)布,並向所有 Arc 會(huì)員開放,其他用戶則需加入等候名單。儘管 Arc 已經(jīng)大量使用人工智能——例如集成了網(wǎng)頁摘要和鏈接預(yù)覽等功能——但 Dia 被稱為“AI 瀏覽器”,其幾乎完全聚焦於生成式 AI。 Dia 瀏覽器功能Dia 最引人注目的功能與 Windows 11 中備受爭(zhēng)議的 Recall 功能有相似之處。該瀏覽器將記住你之前的活動(dòng),使你可以要求 AI

從採(cǎi)用到優(yōu)勢(shì):2025年塑造企業(yè)LLM的10個(gè)趨勢(shì) 從採(cǎi)用到優(yōu)勢(shì):2025年塑造企業(yè)LLM的10個(gè)趨勢(shì) Jun 20, 2025 am 11:13 AM

以下是重塑企業(yè)AI景觀的十種引人注目的趨勢(shì)。對(duì)LLMSorganizations的財(cái)務(wù)承諾正在大大增加其在LLMS的投資,其中72%的人預(yù)計(jì)他們的支出今年會(huì)增加。目前,近40%a

您公司的AI流利性如何? 您公司的AI流利性如何? Jun 14, 2025 am 11:24 AM

使用AI與使用良好不同。許多創(chuàng)始人通過經(jīng)驗(yàn)發(fā)現(xiàn)了這一點(diǎn)。從節(jié)省時(shí)間的實(shí)驗(yàn)開始通常會(huì)創(chuàng)造更多的工作。團(tuán)隊(duì)最終花費(fèi)數(shù)小時(shí)修改AI生成的內(nèi)容或驗(yàn)證輸出

原型:太空公司Voyager的股票在IPO上飆升 原型:太空公司Voyager的股票在IPO上飆升 Jun 14, 2025 am 11:14 AM

航天公司Voyager Technologies在周三的IPO期間籌集了近3.83億美元,股票的價(jià)格為31美元。該公司為政府和商業(yè)客戶提供一系列與空間相關(guān)的服務(wù),包括在IN上的活動(dòng)

什麼是'物理AI”?在推動(dòng)AI理解現(xiàn)實(shí)世界的推動(dòng)力中 什麼是'物理AI”?在推動(dòng)AI理解現(xiàn)實(shí)世界的推動(dòng)力中 Jun 14, 2025 am 11:23 AM

再加上這一事實(shí),AI在很大程度上仍然是黑匣子,工程師仍然很難解釋為什麼模型的行為不可預(yù)測(cè)或如何修復(fù)它們,您可能會(huì)開始掌握當(dāng)今行業(yè)面臨的主要挑戰(zhàn)。

See all articles