国产av日韩一区二区三区精品,成人性爱视频在线观看,国产,欧美,日韩,一区,www.成色av久久成人,2222eeee成人天堂

目錄
OpenAI 基礎知識
開始使用 Tiktoken" >立即開始開始使用 Tiktoken
編碼模型
將文本編碼為標記
將標記解碼為文本
實際用例和技巧
成本估算和管理
輸入長度驗證
結(jié)論
獲得頂級 AI 認證
首頁 科技周邊 人工智能 tiktoken教程:Openai&#x27的Python圖書館用于令牌文本

tiktoken教程:Openai&#x27的Python圖書館用于令牌文本

Mar 05, 2025 am 10:30 AM

Tiktoken Tutorial: OpenAI's Python Library for Tokenizing Text

分詞是處理自然語言處理 (NLP) 任務時的基本步驟。它涉及將文本分解成更小的單元,稱為標記,這些單元可以是單詞、子詞或字符。

高效的分詞對于語言模型的性能至關重要,使其成為各種 NLP 任務(如文本生成、翻譯和摘要)中的一個重要步驟。

Tiktoken 是 OpenAI 開發(fā)的一個快速高效的分詞庫。它提供了一個強大的解決方案,用于將文本轉(zhuǎn)換為標記,反之亦然。其速度和效率使其成為處理大型數(shù)據(jù)集和復雜模型的開發(fā)人員和數(shù)據(jù)科學家的絕佳選擇。

本指南專為開發(fā)人員、數(shù)據(jù)科學家以及任何計劃使用 Tiktoken 并需要包含示例的實用指南的人員而設計。

OpenAI 基礎知識

開始使用 OpenAI API 及更多功能!

立即開始開始使用 Tiktoken

要開始使用 Tiktoken,我們需要在 Python 環(huán)境中安裝它(Tiktoken 也適用于其他編程語言)??梢允褂靡韵旅钔瓿纱瞬僮鳎?/p>

<code>pip install tiktoken</code>

您可以在以下 GitHub 存儲庫中查看 Tiktoken 開源 Python 版本的代碼。

要導入庫,我們運行:

<code>import tiktoken</code>

編碼模型

Tiktoken 中的編碼模型決定了將文本分解成標記的規(guī)則。這些模型至關重要,因為它們定義了文本的分割和編碼方式,從而影響語言處理任務的效率和準確性。不同的 OpenAI 模型使用不同的編碼。

Tiktoken 提供了三種針對不同用例優(yōu)化的編碼模型:

  • o200k_base:最新 GPT-4o-Mini 模型的編碼。
  • cl100k_base:較新 OpenAI 模型(如 GPT-4 和 GPT-3.5-Turbo)的編碼模型。
  • p50k_base:Codex 模型的編碼,這些模型用于代碼應用程序。
  • r50k_base:不同版本的 GPT-3 的較舊編碼。

所有這些模型都可用于 OpenAI 的 API。請注意,API 提供的模型比這里列出的要多得多。幸運的是,Tiktoken 庫提供了一種簡單的方法來檢查應將哪個編碼與哪個模型一起使用。

例如,如果我需要知道 text-embedding-3-small 模型使用什么編碼模型,我可以運行以下命令并獲得答案作為輸出:

<code>pip install tiktoken</code>

我們得到作為輸出。在我們直接使用 Tiktoken 之前,我想提到 OpenAI 有一個標記化 Web 應用程序,您可以在其中查看不同的字符串是如何標記化的——您可以在這里訪問它。還有一個第三方在線標記器 Tiktokenizer,它支持非 OpenAI 模型。

將文本編碼為標記

要使用 Tiktoken 將文本編碼為標記,您首先需要獲取編碼對象。初始化它有兩種方法。首先,您可以使用標記器的名稱來執(zhí)行此操作:

<code>import tiktoken</code>

或者,您可以運行前面提到的 encoding_for_model 函數(shù)以獲取特定模型的編碼器:

<code>print(tiktoken.encoding_for_model('text-embedding-3-small'))</code>

現(xiàn)在,我們可以運行編碼對象的 encode 方法來編碼字符串。例如,我們可以按照以下方式編碼“我愛 DataCamp”字符串——這里我使用 cl100k_base 編碼器:

<code>encoding = tiktoken.get_encoding("[標記器名稱]")</code>

我們得到[40, 3021, 2956, 34955]作為輸出。

將標記解碼為文本

要將標記解碼回文本,我們可以在編碼對象上使用 .decode() 方法。

讓我們解碼以下標記[40, 4048, 264, 2763, 505, 2956, 34955]:

<code>encoding = tiktoken.encoding_for_model("[模型名稱]")</code>

這些標記解碼為“我從 DataCamp 學到了很多東西”。

實際用例和技巧

除了編碼和解碼之外,我還想到了另外兩個用例。

成本估算和管理

在向 OpenAI API 發(fā)送請求之前了解標記計數(shù)可以幫助您有效地管理成本。由于 OpenAI 的計費基于處理的標記數(shù)量,因此預標記文本允許您估算 API 使用成本。以下是如何使用 Tiktoken 計算文本中的標記:

<code>print(encoding.encode("我愛 DataCamp"))</code>

我們只需通過檢查數(shù)組的長度來查看我們獲得了多少個標記。通過提前了解標記數(shù)量,您可以決定是否縮短文本或調(diào)整使用情況以保持預算內(nèi)。

您可以在本關于使用 Python 中的 tiktoken 庫估算 GPT 成本的教程中閱讀更多關于此方法的信息。

輸入長度驗證

當使用來自 API 的 OpenAI 模型時,您受到輸入和輸出最大標記數(shù)的限制。超過這些限制會導致錯誤或輸出被截斷。使用 Tiktoken,您可以驗證輸入長度并確保它符合標記限制。

結(jié)論

Tiktoken 是一個開源分詞庫,它提供針對 OpenAI 語言模型量身定制的速度和效率。

了解如何使用 Tiktoken 編碼和解碼文本及其各種編碼模型,可以極大地增強您使用大型語言模型的工作。

獲得頂級 AI 認證

證明您可以有效且負責任地使用 AI。獲得認證,獲得聘用

以上是tiktoken教程:Openai&#x27的Python圖書館用于令牌文本的詳細內(nèi)容。更多信息請關注PHP中文網(wǎng)其他相關文章!

本站聲明
本文內(nèi)容由網(wǎng)友自發(fā)貢獻,版權歸原作者所有,本站不承擔相應法律責任。如您發(fā)現(xiàn)有涉嫌抄襲侵權的內(nèi)容,請聯(lián)系admin@php.cn

熱AI工具

Undress AI Tool

Undress AI Tool

免費脫衣服圖片

Undresser.AI Undress

Undresser.AI Undress

人工智能驅(qū)動的應用程序,用于創(chuàng)建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用于從照片中去除衣服的在線人工智能工具。

Clothoff.io

Clothoff.io

AI脫衣機

Video Face Swap

Video Face Swap

使用我們完全免費的人工智能換臉工具輕松在任何視頻中換臉!

熱工具

記事本++7.3.1

記事本++7.3.1

好用且免費的代碼編輯器

SublimeText3漢化版

SublimeText3漢化版

中文版,非常好用

禪工作室 13.0.1

禪工作室 13.0.1

功能強大的PHP集成開發(fā)環(huán)境

Dreamweaver CS6

Dreamweaver CS6

視覺化網(wǎng)頁開發(fā)工具

SublimeText3 Mac版

SublimeText3 Mac版

神級代碼編輯軟件(SublimeText3)

前7個筆記本替代品 前7個筆記本替代品 Jun 17, 2025 pm 04:32 PM

Google的NotebookLM是由Gemini 2.5提供動力的智能AI筆記工具,它在匯總文檔方面表現(xiàn)出色。但是,它在工具使用方面仍然有局限性,例如源蓋,云依賴性和最近的“發(fā)現(xiàn)”功能

從采用到優(yōu)勢:2025年塑造企業(yè)LLM的10個趨勢 從采用到優(yōu)勢:2025年塑造企業(yè)LLM的10個趨勢 Jun 20, 2025 am 11:13 AM

以下是重塑企業(yè)AI景觀的十種引人注目的趨勢。對LLMSorganizations的財務承諾正在大大增加其在LLMS的投資,其中72%的人預計他們的支出今年會增加。目前,近40%a

AI投資者停滯不前? 3條購買,建造或與人工智能供應商合作的戰(zhàn)略途徑 AI投資者停滯不前? 3條購買,建造或與人工智能供應商合作的戰(zhàn)略途徑 Jul 02, 2025 am 11:13 AM

投資蓬勃發(fā)展,但僅資本還不夠。隨著估值的上升和獨特性的衰落,以AI為中心的風險投資的投資者必須做出關鍵決定:購買,建立或合作伙伴才能獲得優(yōu)勢?這是評估每個選項和PR的方法

生成AI的不可阻擋的增長(AI Outlook第1部分) 生成AI的不可阻擋的增長(AI Outlook第1部分) Jun 21, 2025 am 11:11 AM

披露:我的公司Tirias Research已向IBM,NVIDIA和本文提到的其他公司咨詢。Growth驅(qū)動力的生成AI采用的激增比最樂觀的預測更具戲劇性。然后,

這些初創(chuàng)公司正在幫助企業(yè)出現(xiàn)在AI搜索摘要中 這些初創(chuàng)公司正在幫助企業(yè)出現(xiàn)在AI搜索摘要中 Jun 20, 2025 am 11:16 AM

由于AI,那些日子是編號的。根據(jù)一個螺柱,搜索企業(yè)諸如Travel網(wǎng)站皮劃艇和Edtech Company Chegg之類的企業(yè)正在下降,部分原因是60%的網(wǎng)站搜索不會導致用戶單擊任何鏈接。

新蓋洛普報告:AI文化準備就緒需要新的心態(tài) 新蓋洛普報告:AI文化準備就緒需要新的心態(tài) Jun 19, 2025 am 11:16 AM

廣泛采用和情感準備之間的差距揭示了人類如何與越來越多的數(shù)字伴侶互動。我們正在進入共存階段,算法編織到我們的日?,F(xiàn)場

AGI和AI超級智能將嚴重擊中人類天花板的假設障礙 AGI和AI超級智能將嚴重擊中人類天花板的假設障礙 Jul 04, 2025 am 11:10 AM

讓我們來談談。 對創(chuàng)新AI突破的分析是我正在進行的AI中正在進行的福布斯列覆蓋的一部分,包括識別和解釋各種有影響力的AI復雜性(請參閱此處的鏈接)。 前往Agi和

思科在美國2025 思科在美國2025 Jun 19, 2025 am 11:10 AM

讓我們仔細研究一下我發(fā)現(xiàn)的最重要的東西,以及思科如何以其目前的努力來進一步實現(xiàn)其野心。

See all articles