粗大黑人巨精大战欧美成人,放荡的美妇在线播放,97精品国产一区二区三区

ホームページ

テクノロジー周辺機(jī)器

Langchainテキストスプリッターを使用してデータを分割する7つの方法-AnalyticsVidhya

Lisa Kudrow

Apr 19, 2025 am 10:11 AM

Langchainテキストスプリッター：効率と精度のためにLLM入力を最適化する

以前の記事では、Langchainのドキュメントローダーについて説明しました。ただし、LLMにはコンテキストウィンドウサイズの制限（トークンで測(cè)定）があります。この制限を超えると、データが切り捨てられ、精度が損なわれ、コストが増加します。解決策？関連データのみをLLMに送信し、データの分割が必要です。 Langchainのテキストスプリッターを入力します。

Langchainテキストスプリッターを使用してデータを分割する7つの方法-AnalyticsVidhya

重要な概念：

テキストスプリッターの重要な役割： LLMアプリケーションを最適化し、コンテキストのウィンドウサイズとコストのバランスをとるために、効率的なテキスト分割が不可欠である理由を理解します。
多様なテキスト分割技術(shù)：文字カウント、トークンカウント、再帰的分割、HTML、コード、JSON構(gòu)造に合わせたテクニックなど、さまざまな方法を探索します。
Langchain Text Splitterの実裝：インストール、テキスト分割のコード例、多様なデータ形式の処理など、実用的なアプリケーションを?qū)W習(xí)します。
強(qiáng)化された関連性のためのセマンティック分割：文の埋め込みとコサインの類似性がどのように意味的にコヒーレントなチャンクを作成し、関連性を最大化するかを発見します。

目次：

テキストスプリッターとは何ですか？
データ分割方法
文字カウントベースの分割
再帰的分割
トークンカウントベースの分割
HTMLの処理
コード固有の分割
JSONデータ処理
セマンティックチャンク
よくある質(zhì)問

テキストスプリッターとは何ですか？

テキストスプリッターは、LLMクエリの関連性を改善するために、大きなテキストをより小さく管理可能なチャンクに分割します。彼らは、生のテキストまたはLangchainドキュメントオブジェクトで直接動(dòng)作します。複數(shù)のメソッドは、さまざまなコンテンツタイプとユースケースに対応します。

データ分割方法

Langchainテキストスプリッターは、効率的な大規(guī)模なドキュメント処理のために重要です。パフォーマンスを向上させ、コンテキストの理解を改善し、並列処理を可能にし、より良いデータ管理を促進(jìn)します。いくつかの方法を調(diào)べてみましょう。

前提條件： pip install langchain_text_splittersを使用してパッケージをインストールします

文字カウントベースの分割

この方法は、指定されたセパレーターを使用して、文字カウントに基づいてテキストを分割します。

 from langchain_community.document_loaders unstructuredpdfloaderをインポートします
langchain_text_splittersからImport charateTextSplitter

＃データを読み込みます（PDFパスに置き換えます）
loader = unstructuredpdfloader（ 'How-to-formulate-successful-business-strategy.pdf'、mode = 'single'）
data = roader.load（）

text_splitter = charateTextSplitter（separator = "\ n"、chunk_size = 500、chunk_overlap = 0、is_separator_regex = false）
texts = text_splitter.split_documents（data）
len（テキスト）＃出力：チャンク數(shù)

この例では、テキストを500文字のチャンクに分割し、Newline Charactersをセパレータとして使用します。

再帰的分割

これは、チャンクがchunk_size以下になるまで、複數(shù)のセパレータを順番に使用します。文レベルの分割に役立ちます。

 langchain_text_splittersからrecursiveCharacterTextSplitterをインポートします

recursive_splitter = recursiveCharacterTextSplitter（隔たり= ["\ n \ n"、 "\ n"、r "（？>> 293）

＃...（コードの殘りの部分は同様のままです）

トークンカウントベースの分割

LLMSはトークンを使用します。トークンカウントによる分割はより正確です。この例では、 o200k_baseエンコーディングを使用します（モデル/エンコーディングマッピングのGitHubリンクを確認(rèn)してください）。

 langchain_text_splittersからtokentextsplitterをインポートします

text_splitter = tokentextsplitter（encoding_name = 'o200k_base'、chunk_size = 50、chunk_overlap = 0）
texts = text_splitter.split_documents（data）
len（テキスト）＃出力：チャンク數(shù)

再帰的な分割は、トークンカウントと組み合わせることもできます。

平易なテキストの場(chǎng)合、文字またはトークンカウントを使用した再帰的分割が一般的に推奨されます。

HTMLの処理

HTMLのような構(gòu)造化されたデータの場(chǎng)合、分割は構(gòu)造を尊重する必要があります。この例は、HTMLヘッダーに基づいて分割されます。

 langchain_text_splittersからhtmlheadertextsplitterをインポートします

headers_to_split_on = [（ "h1"、 "header 1"）、（ "h2"、 "header 2"）、（ "h3"、 "header 3"）]]]
html_splitter = htmlheadertextsplitter（headers_to_split_on、return_each_element = true）
html_header_splits = html_splitter.split_text_from_url（ 'https://diataxis.fr/'）
len（html_header_splits）＃出力：チャンクの數(shù)

HTMLSectionSplitter使用すると、他のセクションに基づいて分割できます。

コード固有の分割

プログラミング言語(yǔ)には、獨(dú)自の構(gòu)造があります。この例では、PythonコードにSyntax-Aware分割を使用しています。

 langchain_text_splittersからインポートrecursiveCharacterTextSplitter、言語(yǔ)

＃...（pythonコードの例）...

python_splitter = recursivecharactertextsplitter.from_language（language = language.python、chunk_size = 100、chunk_overlap = 0）
python_docs = python_splitter.create_documents（[python_code]）

JSONデータ処理

ネストされたJSONオブジェクトは、重要な関係を維持しながら分割できます。

 langchain_text_splittersからrecursivejsonsplitterをインポートします

＃...（JSONデータの例）...

splitter = recursivejsonsplitter（max_chunk_size = 200、min_chunk_size = 20）
chunks = splitter.split_text（json_data、convert_lists = true）

セマンティックチャンク

この方法では、セマンティックに関連する文との文の埋め込みとコサインの類似性を使用します。

 langchain_experimental.text_splitterからsemanticchunkerをインポートします
langchain_openai.embeddingsからImport OpenAiembeddings＃は、OpenAI APIキーが必要です

＃...（OpenAiemBedingsとSemanticChunkerを使用してコード）...

結(jié)論

Langchainは、さまざまなデータ型に適したさまざまなテキスト分割方法を提供しています。適切な方法を選択すると、LLM入力が最適化され、精度が向上し、コストが削減されます。

よくある質(zhì)問

（Q＆Aセクションはほぼ同じままであり、明確さとフローのための軽微な文言の調(diào)整があります。）

以上がLangchainテキストスプリッターを使用してデータを分割する7つの方法-AnalyticsVidhyaの詳細(xì)內(nèi)容です。詳細(xì)については、PHP 中國(guó)語(yǔ) Web サイトの他の関連記事を參照してください。

このウェブサイトの聲明

この記事の內(nèi)容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰屬します。このサイトは、それに相當(dāng)する法的責(zé)任を負(fù)いません。盜作または侵害の疑いのあるコンテンツを見つけた場(chǎng)合は、admin@php.cn までご連絡(luò)ください。

ホットAIツール

Undress AI Tool

脫衣畫像を無料で

Undresser.AI Undress

リアルなヌード寫真を作成する AI 搭載アプリ

AI Clothes Remover

寫真から衣服を削除するオンライン AI ツール。

Clothoff.io

AI衣類リムーバー

Video Face Swap

完全無料の AI 顔交換ツールを使用して、あらゆるビデオの顔を簡(jiǎn)単に交換できます。

ホットツール

メモ帳++7.3.1

使いやすく無料のコードエディター

SublimeText3 中國(guó)語(yǔ)版

中國(guó)語(yǔ)版、とても使いやすい

ゼンドスタジオ 13.0.1

強(qiáng)力な PHP 統(tǒng)合開発環(huán)境

ドリームウィーバー CS6

ビジュアル Web 開発ツール

SublimeText3 Mac版

神レベルのコード編集ソフト（SublimeText3）

ホットトピック

Gmailメールのログイン入り口はどこですか？

8646

Java チュートリアル

1789

CakePHP チュートリアル

1730

Laravel チュートリアル

1582

PHP チュートリアル

1451

Related knowledge

AI投資家は停滯していますか？ AIベンダーと購(gòu)入、構(gòu)築、またはパートナーになる3つの戦略的なパス Jul 02, 2025 am 11:13 AM

投資は活況を呈していますが、資本だけでは十分ではありません。評(píng)価が上昇し、獨(dú)特の衰退があるため、AIに焦點(diǎn)を當(dāng)てたベンチャーファンドの投資家は、優(yōu)位性を獲得するために購(gòu)入、構(gòu)築、またはパートナーの重要な決定を下す必要がありますか？各オプションを評(píng)価する方法とpr

生成AIの止められない成長(zhǎng)（AI Outlookパート1） Jun 21, 2025 am 11:11 AM

開示：私の會(huì)社であるTirias Researchは、IBM、Nvidia、およびこの記事で述べた他の企業(yè)に相談しました。成長(zhǎng)ドライバー生成AI採(cǎi)用の急増は、最も楽観的な予測(cè)でさえ予測(cè)できるよりも劇的でした。次に、a

AGIとAIのスーパーインテリジェンスは、人間の天井の仮定の障壁に急激に衝突するでしょう Jul 04, 2025 am 11:10 AM

それについて話しましょう。革新的なAIブレークスルーのこの分析は、さまざまなインパクトのあるAIの複雑さの特定と説明など、最新のAIで進(jìn)行中のForbes列のカバレッジの一部です（こちらのリンクを參照）。アギに向かっています

最初のLLMアプリケーションを構(gòu)築する：初心者のチュートリアル Jun 24, 2025 am 10:13 AM

獨(dú)自の大手言語(yǔ)モデル（LLM）アプリケーションを構(gòu)築しようとしたことがありますか？生産性を向上させるために、人々がどのように獨(dú)自のLLMアプリケーションを作成しているのか疑問に思ったことはありませんか？ LLMアプリケーションはあらゆる面で有用であることが証明されています