LLM-预训练：Megatron-LM （23.06版本）近期的改动

淡淡的烟草味﹌ 2024-02-21 10:43 25阅读 0赞

发表评论取消回复

表情：

评论列表（有 0 条评论，25人围观）

还没有评论，来说两句吧...

相关阅读

相关 LLM-预训练：Megatron-LM 中自定义流水线并行的切分方式

> 最近在研究 Megatron-LM 源码，本篇文章聊聊在 Megatron 中如何自定义流水线并行的切分方式。 Megatron-LM 代码版本：23.06 [http

淩亂°似流年/ 2024年02月21日 10:43/ 0 赞/ 41 阅读

相关 LLM-预训练：Megatron-LM （23.06版本）近期的改动

Megatron-LM 最新 release 的版本是 23.06： [https://github.com/NVIDIA/Megatron-LM/tree/23.06/me

淡淡的烟草味﹌/ 2024年02月21日 10:43/ 0 赞/ 26 阅读

相关 LLM-预训练：深入理解 Megatron-LM（3）代码结构

> 最近在基于Megatron-LM的代码来训练大语言模型，本人觉得Megatron的代码很具有学习意义，于是大量参考了网上很多对Megatron代码的解读文章和NVIDA M

矫情吗；*/ 2024年02月21日 10:43/ 0 赞/ 40 阅读

相关 LLM-预训练：深入理解 Megatron-LM（4）并行设置

> 最近在基于Megatron-LM的代码来训练大语言模型，本人觉得Megatron的代码很具有学习意义，于是大量参考了网上很多对Megatron代码的解读文章和NVIDA M

我不是女神ヾ/ 2024年02月21日 10:43/ 0 赞/ 39 阅读

相关 LLM-预训练：深入理解 Megatron-LM（1）基础知识

> 最近在基于Megatron-LM的代码来训练大语言模型，本人觉得Megatron的代码很具有学习意义，于是大量参考了网上很多对Megatron代码的解读文章和NVIDA M

忘是亡心i/ 2024年02月21日 10:43/ 0 赞/ 63 阅读

相关 LLM-预训练-数据集：wiki中文数据集【使用wikiextractor 提取wiki数据】

wikiextractor包链接地址：[GitHub - attardi/wikiextractor: A tool for extracting plain text fro

Bertha 。/ 2023年10月13日 21:39/ 0 赞/ 35 阅读

相关【LLM系列之Tokenizer】如何科学地训练一个LLM分词器

1 背景与基础 1.1 为什么需要分词对于人而言，在我们学会阅读之前，仍然可以理解语言。比如当你开始上学时，即使你不知道名词和动词之间的区别，但是你已经可以

短命女/ 2023年10月13日 17:23/ 0 赞/ 2 阅读

相关 LLM-202210：GLM【开源双语预训练语言模型】

[《GLM: General Language Model Pretraining with Autoregressive Blank Infilling》][GLM_ Gen

分手后的思念是犯贱/ 2023年09月27日 20:07/ 0 赞/ 117 阅读

相关 Google的bert预训练模型下载地址＋将tensorflow版本的预训练模型转为pytorch版本进行加载

google的bert预训练模型： [`BERT-Large, Uncased (Whole Word Masking)`][BERT-Large_ Uncased _

刺骨的言语ヽ痛彻心扉/ 2023年07月16日 03:36/ 0 赞/ 7 阅读

相关 CocosCreator3.0的版本改动

CocosCreator3.0版本是真正的3D项目集成版本。其中有很大的版本改动，例如：一、文件布局 ![watermark_type_ZmFuZ3poZW5n

悠悠/ 2022年11月15日 11:38/ 0 赞/ 139 阅读