Finetuned Language Models Are Zero-Shot Learners

news/2024/4/30 10:28:48

Abstract

本文探索了一种简单的方法来提升语言模型的零样本(zero-shot)学习能力。我们发现 指令微调(instruction tuning) 显著提高了未见任务的零样本性能。

  • 指令微调:即在一组通过指令描述的数据集上对模型进行微调

我们对一个 137B 参数的预训练模型在 60 个 NLP 任务上进行指令微调。这些任务通过自然语言指令模板进行表述。我们将指令微调后的模型称为 FLAN。

我们在未见任务上进行评估,发现

  • FLAN 显著好于微调前的版本
  • 在 20/25 个任务上超过 zero-shot 175B GPT-3
  • FLAN 在 ANLI, RTE, BoolQ, AI2-ARC, OpenbookQA, StoryCloze 等任务上甚至超时 few-shot GPT-3

消融实验显示,微调数据集的大小、模型的规模、自然语言指令都是指令微调成功的关键。

1 INTRODUCTION

GPT-3 为代表的大语言模型在 few-shot 情况表现很好,但是在 zero-shot 上效果差多了。一个可能的原因是在没有 few-shot 样本时,模型很难在与预训练数据格式不相似的 Prompt 上表现良好。

针对以上问题,本文利用了 NLP 任务可以使用自然语言指令描述这一直觉,例如

  • “Is the sentiment of this movie review positive or negative?”
  • “Translate ‘how are you’ into Chinese.”

我们对 137B 参数的预训练模型进行指令微调,结果称为 FLAN (

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.cpky.cn/p/11429.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈,一经查实,立即删除!

相关文章

Pytorch for training1——read data/image

blog torch.utils.data.Dataset create dataset with class torch.utils.data.Dataset automaticly import torch from torch.utils.data import Datasetclass MyDataset(Dataset):def __init__(self, data):self.data datadef __getitem__(self, index):# 根据索引获取样本…

JAVA------基础篇

java基础 1.JDK JDK :java development kit JRE:java runtime environment JDK包含JRE java跨平台:因为java程序运行依赖虚拟机,虚拟机需要有对应操作系统的版本,而jre中有虚拟机。 当你想要在Linux系统下运行,则需要…

搭建Spark单机版环境

在搭建Spark单机版环境的实战中,首先确保已经安装并配置好了JDK。然后,从群共享下载Spark安装包,并将其上传至目标主机的/opt目录。接着,解压Spark安装包至/usr/local目录,并配置Spark的环境变量,以确保系统…

[网鼎杯 2020 朱雀组]Nmap1

打开题目 在源代码中看到了提示 先随便输入127.0.0.1 那我们试试输入 127.0.0.1 | ls 可以看到 | 被转义符号\所转义 那我们输入 127.0.0.1 /| ls 得到三条反斜线 我们猜测,我们输入的东西是被escapeshellarg和escapeshellcmd处理过后的结果 我们输入的东西必须…

HarmonyOS实战开发-如何实现一个简单的健康生活应用(上)

介绍 本篇Codelab介绍了如何实现一个简单的健康生活应用,主要功能包括: 用户可以创建最多6个健康生活任务(早起,喝水,吃苹果,每日微笑,刷牙,早睡),并设置任…

第三章:fs 模块

fs 模块 文章目录 fs 模块一、文件写入1-1.writeFile 异步写入1-2.writeFileSync 同步写入1-3.appendFile / appendFileSync 追加写入1-4.createWriteStream 流式写入1-5.写入文件的场景 二、文件读取2-1.readFile 异步读取2-2.readFileSync 同步读取2-3.createReadStream 流式…