发表评论取消回复
相关阅读
相关 LLM-LLaMA中文衍生模型:LLaMA-ZhiXi【没有对词表进行扩增、全参数预训练、部分参数预训练、指令微调】
> 下图展示了我们的训练的整个流程和数据集构造。整个训练过程分为两个阶段: > > (1)全量预训练阶段。该阶段的目的是增强模型的中文能力和知识储备。 > > (2)使用L
相关 LLM-预训练:Megatron-LM 中自定义流水线并行的切分方式
> 最近在研究 Megatron-LM 源码,本篇文章聊聊在 Megatron 中如何自定义流水线并行的切分方式。 Megatron-LM 代码版本:23.06 [http
相关 LLM-预训练:Megatron-LM (23.06版本)近期的改动
Megatron-LM 最新 release 的版本是 23.06: [https://github.com/NVIDIA/Megatron-LM/tree/23.06/me
相关 LLM-预训练:深入理解 Megatron-LM(5)张量并行
> 最近在基于Megatron-LM的代码来训练大语言模型,本人觉得Megatron的代码很具有学习意义,于是大量参考了网上很多对Megatron代码的解读文章和NVIDA M
相关 LLM-预训练:深入理解 Megatron-LM(3)代码结构
> 最近在基于Megatron-LM的代码来训练大语言模型,本人觉得Megatron的代码很具有学习意义,于是大量参考了网上很多对Megatron代码的解读文章和NVIDA M
相关 LLM-预训练:深入理解 Megatron-LM(4)并行设置
> 最近在基于Megatron-LM的代码来训练大语言模型,本人觉得Megatron的代码很具有学习意义,于是大量参考了网上很多对Megatron代码的解读文章和NVIDA M
相关 LLM-预训练:深入理解 Megatron-LM(2)原理介绍
> 最近在基于Megatron-LM的代码来训练大语言模型,本人觉得Megatron的代码很具有学习意义,于是大量参考了网上很多对Megatron代码的解读文章和NVIDA M
相关 LLM-预训练:深入理解 Megatron-LM(1)基础知识
> 最近在基于Megatron-LM的代码来训练大语言模型,本人觉得Megatron的代码很具有学习意义,于是大量参考了网上很多对Megatron代码的解读文章和NVIDA M
相关 LLM-预训练-数据集:wiki中文数据集【使用wikiextractor 提取wiki数据】
wikiextractor包链接地址:[GitHub - attardi/wikiextractor: A tool for extracting plain text fro
相关 LLM-202210:GLM【开源双语预训练语言模型】
[《GLM: General Language Model Pretraining with Autoregressive Blank Infilling》][GLM_ Gen
还没有评论,来说两句吧...