NLP-预训练模型-201806-NLG：GPT-1【参数量：117M；训练数据量：1GB】【预训练：GPT使用单向语言模型；Fine-tuning：GPT、Task的参数一起训练】

╰+攻爆jí腚メ 2023-10-03 12:26 6阅读 0赞

发表评论取消回复

表情：

评论列表（有 0 条评论，6人围观）

还没有评论，来说两句吧...

相关阅读

相关预训练模型：DeBERTa

二郎神系列开新坑啦，Deberta系列上新。从19年Roberta开源以来，Roberta应该算是使用者最多的Encoder结构模型，简单、效果好，使用起来十分方便，在过去

古城微笑少年丶/ 2023年10月12日 13:27/ 0 赞/ 26 阅读

相关 NLP-预训练模型-201806-NLG：GPT-1【参数量：117M；训练数据量：1GB】【预训练：GPT使用单向语言模型；Fine-tuning：GPT、Task的参数一起训练】

![在这里插入图片描述][3068c6ce804e4581acf5efb5008283ee.png_pic_center] 预训练模型(Pretrained model)：一

╰+攻爆jí腚メ/ 2023年10月03日 12:26/ 0 赞/ 7 阅读

相关 NLP-预训练模型-2020

Transformer 是目前 NLP 研究领域中特别重要的模型，也衍生出了很多基于 Transformer 的方法，例如 BERT、GPT，在很多 NLP 任务中有很好的效果

水深无声/ 2023年10月01日 20:47/ 0 赞/ 45 阅读

相关 NLP-预训练模型-2019：XLM-Roberta【一种多语言预训练模型】

[《原始论文：Unsupervised Cross-lingual Representation Learning at Scale》][Unsupervised Cross-

心已赠人/ 2023年10月01日 11:12/ 0 赞/ 20 阅读

相关 NLP-预训练模型-2019：SpanBERT

![在这里插入图片描述][watermark_type_d3F5LXplbmhlaQ_shadow_50_text_Q1NETiBA5b-N6ICF44Gu5Lmx5aSq6Y

古城微笑少年丶/ 2023年10月01日 11:10/ 0 赞/ 17 阅读

相关 NLP-预训练模型-2020-NLG：GPT-3【参数量：1750亿（175B）；训练数据量：570GB】

GPT-3依旧延续自己的单向[语言模型][Link 1]训练方式，只不过这次把模型尺寸增大到了1750亿，并且使用45TB数据进行训练。同时，[GPT-3][]主要聚焦于更通用

缺乏、安全感/ 2023年09月25日 15:44/ 0 赞/ 49 阅读

相关 NLP-预训练模型-2019-NLG：GPT-2【参数量：1542M；训练数据量：40GB】

2.1、GPT-2的核心思想 GPT-2的学习目标是使用无监督的预训练模型做有监督的任务。语言模型也能够学习某些监督学习的任务，并且不需要明确具体的监督符号。而监督学

左手的ㄟ右手/ 2023年09月25日 15:44/ 0 赞/ 124 阅读

相关 tf预训练模型转换为torch预训练模型

在将albert的tensorflow预训练模型转换为 torch类型预训练模型，踩了很多坑。终于解决，希望对大家有用 1. 前期准备创建一个环境带有torc

た入场券/ 2022年11月11日 05:51/ 0 赞/ 300 阅读

相关预训练语言模型

常用的抽取文本特征有： TFIDF/LDA/LSI gensim glove fasttext ELMO Bert [word2vec

不念不忘少年蓝@/ 2022年03月01日 03:50/ 0 赞/ 322 阅读

相关 NLP预训练模型综述

现在深度学习越来越火了，在NLP领域主要使用CNNs、RNNs、GNNs以及attention机制。尽管这些模型取得了一些成绩，但是和CV相比，还是有些差距的，主

迈不过友情╰/ 2021年09月24日 13:34/ 0 赞/ 660 阅读