发表评论取消回复
相关阅读
相关 LLM-SFT-2022:Flan-T5【谷歌开源最新基于思维链(chain-of-thought,CoT)微调的大语言预训练模型】
论文名:Scaling Instruction-Finetuned Language Models 发布时间:2022年10月 论文地址:[https://arx
相关 大语言模型训练技巧
10、Flash Attention 标准Attention的中间结果需要通过高带宽内存(HBM)进行存取,空间复杂度为O(N2)。随着输入序列长度的增加,标准Attenti
相关 LLM-20230628-ChatLaw:集成外部知识库的开源法律大语言模型
原文:ChatLaw: Open-Source Legal Large Language Model with Integrated External Knowledge Ba
相关 LLM-Chinchilla:训练计算利用率最优的大语言模型
Chinchilla:训练计算利用率最优的大语言模型 《Training Compute-Optimal Large Language Models》 论文地址:https
相关 DeepSpeed Chat大模型训练【训练类ChatGPT 的大模型】
第1章:DeepSpeed-Chat 模型训练实战 本章内容介绍如何使用微软最新发布的 DeepSpeed Chat 来训练类 ChatGPT 的大模型。 通过本章内
相关 开源 LLM (大语言模型)整理(一)
Large Language Model (LLM) 即大规模语言模型,是一种基于深度学习的自然语言处理模型,它能够学习到自然语言的语法和语义,从而可以生成人类可读的文本。
相关 LLM-202210:GLM【开源双语预训练语言模型】
[《GLM: General Language Model Pretraining with Autoregressive Blank Infilling》][GLM_ Gen
相关 LLM-2022:Chinchilla(龙猫)【训练计算利用率最优的大语言模型】
Chinchilla(龙猫)是 DeepMind 发布的大语言模型,拥有 70B 的参数规模。Chinchilla 的研究主要关注在给定固定的 FLOPs 预算下,如何权衡模型
相关 ChatGPT以及LLM(大语言模型)的思考
一、ChatGPT简介 ChatGPT本质是一个对话模型,它可以回答日常问题、挑战不正确的前提,甚至会拒绝不适当的请求,在去除偏见和安全性上不同于以往的语言模型。Chat
相关 LLM-数据集:30个大语言模型训练相关的数据集【Pile(825 GiB)】
上一期我们分享了[《ChatGPT数据集之谜》][ChatGPT]一文,从模型角度切入,按六大分类(维基百科、书籍、期刊、Reddit链接、Common Crawl、其他),分
还没有评论,来说两句吧...