编程技术分享平台

网站首页 > 技术教程 正文

LangChain入门-CharacterTextSplitter

xnh888 2024-11-20 23:24:00 技术教程 16 ℃ 0 评论

入门:Langchain中的10 Character Text Splitter。

在上一节课中,我们学习了如何使用文档加载器。

· 通过外部文档的加载,我们可以将内容引入模型中。在拆分器中,我们将文档拆分成更小的段,以便于大模型中的token容纳较短的内容。

· 首先介绍拆分器。拆分器有多种类型,我们使用的是地规制服拆分器,将不规则的文档拆分成小段。

· 加载文档后,我们使用地规制服拆分器将其拆分成小段。两个变量用于控制拆分的长度和组合部分,我们选择50个字符左右。

· 将上文中的文本拆分成六个小文档,每个小文档的长度约为50个字符,组合部分为50个字符。

· 拆分器的值可以根据具体情况进行调整,这里介绍了一个字符拆分器。

· 接下来介绍代码拆分器。代码与制服不同,需要进行分段加载和拆分。

· 我们加载了一个代码拆分器,其中包含一个代码段。由于代码类型不同,我们需要加载本地拍摄的文档,并将其拆分成小段,以便放入大模型中。

· 这段代码是一个完整的Python代码,需要进行分段加载和拆分。我们使用碧桂的裁缝器将其拆分成小段,其中包括一个语言类型的变量。我们将其拆分成八个小段,每个小段的长度约为30个字母,没有组合部分。

· 将这段代码拆分成八个小段,以便放入大模型中。

Tags:

本文暂时没有评论,来添加一个吧(●'◡'●)

欢迎 发表评论:

最近发表
标签列表