LLM-2022：Chinchilla（龙猫）【训练计算利用率最优的大语言模型】

本是古典何须时尚 2023-09-27 20:03 14阅读 0赞

发表评论取消回复

表情：

评论列表（有 0 条评论，14人围观）

还没有评论，来说两句吧...

相关阅读

相关 LLM-SFT-2022：Flan-T5【谷歌开源最新基于思维链（chain-of-thought，CoT）微调的大语言预训练模型】

论文名：Scaling Instruction-Finetuned Language Models 发布时间：2022年10月论文地址：[https://arx

Myth丶恋晨/ 2024年02月20日 12:44/ 0 赞/ 31 阅读

相关大语言模型训练技巧

10、Flash Attention 标准Attention的中间结果需要通过高带宽内存（HBM）进行存取，空间复杂度为O(N2)。随着输入序列长度的增加，标准Attenti

客官°小女子只卖身不卖艺/ 2024年02月19日 07:50/ 0 赞/ 55 阅读

相关 LLM-20230628-ChatLaw：集成外部知识库的开源法律大语言模型

原文：ChatLaw： Open-Source Legal Large Language Model with Integrated External Knowledge Ba

逃离我推掉我的手/ 2023年10月16日 17:43/ 0 赞/ 9 阅读

相关 LLM-Chinchilla：训练计算利用率最优的大语言模型

Chinchilla：训练计算利用率最优的大语言模型《Training Compute-Optimal Large Language Models》论文地址：https

比眉伴天荒/ 2023年10月15日 12:11/ 0 赞/ 29 阅读

相关 DeepSpeed Chat大模型训练【训练类ChatGPT 的大模型】

第1章：DeepSpeed-Chat 模型训练实战本章内容介绍如何使用微软最新发布的 DeepSpeed Chat 来训练类 ChatGPT 的大模型。通过本章内

青旅半醒/ 2023年10月13日 09:14/ 0 赞/ 33 阅读

相关开源 LLM （大语言模型）整理（一）

Large Language Model (LLM) 即大规模语言模型，是一种基于深度学习的自然语言处理模型，它能够学习到自然语言的语法和语义，从而可以生成人类可读的文本。

叁歲伎倆/ 2023年10月12日 11:34/ 0 赞/ 18 阅读

相关 LLM-202210：GLM【开源双语预训练语言模型】

[《GLM: General Language Model Pretraining with Autoregressive Blank Infilling》][GLM_ Gen

分手后的思念是犯贱/ 2023年09月27日 20:07/ 0 赞/ 129 阅读

相关 LLM-2022：Chinchilla（龙猫）【训练计算利用率最优的大语言模型】

Chinchilla（龙猫）是 DeepMind 发布的大语言模型，拥有 70B 的参数规模。Chinchilla 的研究主要关注在给定固定的 FLOPs 预算下，如何权衡模型

本是古典何须时尚/ 2023年09月27日 20:03/ 0 赞/ 15 阅读

相关 ChatGPT以及LLM（大语言模型）的思考

一、ChatGPT简介 ChatGPT本质是一个对话模型，它可以回答日常问题、挑战不正确的前提，甚至会拒绝不适当的请求，在去除偏见和安全性上不同于以往的语言模型。Chat

秒速五厘米/ 2023年09月27日 18:52/ 0 赞/ 51 阅读

相关 LLM-数据集：30个大语言模型训练相关的数据集【Pile（825 GiB）】

上一期我们分享了[《ChatGPT数据集之谜》][ChatGPT]一文，从模型角度切入，按六大分类（维基百科、书籍、期刊、Reddit链接、Common Crawl、其他），分

爱被打了一巴掌/ 2023年09月25日 16:34/ 0 赞/ 38 阅读