【LLM系列之Tokenizer】如何科学地训练一个LLM分词器

短命女 2023-10-13 17:23 1阅读 0赞

发表评论取消回复

表情：

评论列表（有 0 条评论，1人围观）

还没有评论，来说两句吧...

相关阅读

相关解密Prompt系列8. 无需训练让LLM支持超长输入:知识库 & unlimiformer & PCW & NBCE

这一章我们聊聊有哪些方案可以不用微调直接让大模型支持超长文本输入，注意这里主要针对无限输入场景。之前在BERT系列中我们就介绍过稀疏注意力和片段递归的一些长文本建模方案[长文本

曾经终败给现在/ 2024年03月17日 15:22/ 0 赞/ 14 阅读

相关 LLM-预训练：Megatron-LM （23.06版本）近期的改动

Megatron-LM 最新 release 的版本是 23.06： [https://github.com/NVIDIA/Megatron-LM/tree/23.06/me

淡淡的烟草味﹌/ 2024年02月21日 10:43/ 0 赞/ 25 阅读

相关 LLM-预训练：深入理解 Megatron-LM（3）代码结构

> 最近在基于Megatron-LM的代码来训练大语言模型，本人觉得Megatron的代码很具有学习意义，于是大量参考了网上很多对Megatron代码的解读文章和NVIDA M

矫情吗；*/ 2024年02月21日 10:43/ 0 赞/ 40 阅读

相关 LLM-预训练：深入理解 Megatron-LM（4）并行设置

> 最近在基于Megatron-LM的代码来训练大语言模型，本人觉得Megatron的代码很具有学习意义，于是大量参考了网上很多对Megatron代码的解读文章和NVIDA M

我不是女神ヾ/ 2024年02月21日 10:43/ 0 赞/ 39 阅读

相关 LLM-预训练：深入理解 Megatron-LM（1）基础知识

> 最近在基于Megatron-LM的代码来训练大语言模型，本人觉得Megatron的代码很具有学习意义，于是大量参考了网上很多对Megatron代码的解读文章和NVIDA M

忘是亡心i/ 2024年02月21日 10:43/ 0 赞/ 63 阅读

相关如何快速落地LLM应用？通过Langchain接入千帆SDK

百度智能云千帆大模型平台再次史诗级升级！在原有API基础上，百度智能云正式上线Python SDK（下文均简称千帆 SDK）版本并全面开源，企业和开发者可免费下载使用！千帆SD

朴灿烈づ我的快乐病毒、/ 2024年02月19日 11:43/ 0 赞/ 4 阅读

相关 LLM-Chinchilla：训练计算利用率最优的大语言模型

Chinchilla：训练计算利用率最优的大语言模型《Training Compute-Optimal Large Language Models》论文地址：https

比眉伴天荒/ 2023年10月15日 12:11/ 0 赞/ 13 阅读

相关【LLM系列之Tokenizer】如何科学地训练一个LLM分词器

1 背景与基础 1.1 为什么需要分词对于人而言，在我们学会阅读之前，仍然可以理解语言。比如当你开始上学时，即使你不知道名词和动词之间的区别，但是你已经可以

短命女/ 2023年10月13日 17:23/ 0 赞/ 2 阅读

相关 LLM-微调-方案（0）：prompt tuning

先说结论：已经有研究显示Prompt可以有效地应用到CV领域 \[[VPT][], CLIP, CoOP\]，但是应用仍然非常有限，有很大发挥空间。其一，Prompt的本质是调

秒速五厘米/ 2023年10月12日 12:41/ 0 赞/ 44 阅读

相关 LLM-202210：GLM【开源双语预训练语言模型】

[《GLM: General Language Model Pretraining with Autoregressive Blank Infilling》][GLM_ Gen

分手后的思念是犯贱/ 2023年09月27日 20:07/ 0 赞/ 117 阅读