ChatGPT需要什么资源?

news/2024/4/23 2:18:28

在ChatGPT走红之后,国内有很多的媒体和人一下子慌了神。特别是自媒体上,铺天盖地的都是说“为什么中国没有诞生ChatGPT”、“美国将要爆发一场新的技术革命”之类的文章。很多的一些研究机构和企业都宣称,我们马上就要推出自己的ChatGPT了。还有很多人觉得,ChatGPT给自己带来了新机会。(嘲讽)

但是,实际上,要实现一个ChatGPT既不必要,也不可能。为什么呢?不必要性,我们后面会慢慢展开讲。这一讲,先来谈谈不可能性。

我们前面讲到,ChatGPT的核心是语言模型,而语言模型是需要用大量的数据来训练的,有了数据后,还需要强大的算力支持,然后还需要有足够高水平的并行计算和机器学习的算法支持。数据、算力、算法三道坎,只有极少的互联网超级大厂能够越过去。

接下来我们分别从数据、算力和算法这三个方面来看看。

  1. 首先,数据是训练语言模型的首要资源。之前的Google训练自动问答的模型时,就用到了互联网上能找到的几乎所有高质量的数据,而现在的ChatGPT所用的数据量是极其庞大的,包括自媒体和社交网络上的数据。但是并不是每个企业都能得到所有这些数据,所以在这一点上就存在限制。

  1. 其次,是算力。训练语言模型需要强大的算力支持,这包括数据处理和训练过程。算力的需求在不断增加,即使使用了大量GPU等硬件,所需的计算资源也非常庞大,超过了大多数企业的能力范围。

早期的语言模型算法非常简单,主要是基于文本的统计和简单数学公式,用于计算词在不同上下文条件下的概率,并预先保存这些信息。然而,随着人们意识到简单统计无法覆盖所有语言现象,尤其是之前未见过的现象,开始着手深度挖掘语言中的语法和语义信息,这需要更大的计算量。

具体来说,计算量需要增加100万倍到1亿倍是合理的估计。虽然摩尔定律让计算成本逐渐下降,但人工智能的要求和所需算力不断提高,算力始终是一个瓶颈。

为了开发复杂的语言模型,研究者们甚至争取到了美国国家科学基金会(NSF)和美国国防部的经费支持,并获得了大量超级服务器的帮助。今天的ChatGPT采用的语言模型参数数量是早期模型的10万倍,比Google构建的模型大了1000倍。开发它所需的算力甚至可能是上百亿倍。

例如,开发GPT-3时,公司OpenAI的硬件成本超过了一亿美元,使用了约10万个GPU,提供超100PFLOPS(PFLOPS每秒所执行的浮点运算次数)的算力。这样的资源投入使得它可以为用户提供高质量的服务,但近期还不得不关闭付费用户的注册,以节约计算资源。而GPT-4的开发则需要更多的计算资源,包括使用了微软云计算的大量计算资源。

总之,训练语言模型需要强大的算力,这是ChatGPT成功的关键部分。

  1. 最后,我们来看算法。算力固然重要,但只有有配套的优质算法,才能发挥算力的作用。现今深度学习等算法已经是智能化数据中心的标配,而训练语言模型所需的机器学习算法十分复杂。除了算力,基础的自然语言处理技术也是实现ChatGPT的必要条件。

最直观的例子,你想让计算机回答问题,至少要让它懂得问题。你要想让它从上千亿的文本中知道哪些可能是答案,需要做到问题和答案的匹配。这个工作不是一年半载就能完成的。

今天,很多机器学习的算法已经开源了,有些应用已经有公司和研究机构投入科研力量开发过,比如基本的图形识别和语音识别技术,但是深度的自然语言理解其实还不属于这个范畴。在这些领域所具有的技术积累,其实也是一种资源。

有一些公司和研究机构在这个领域长期投入,拥有技术积累,比如:Google、微软,中国的百度、字节跳动等,它们或许能在较短时间内做出类似ChatGPT的产品。但是对于没有足够技术资源的人来说,跟风ChatGPT很可能是无知者无畏或纯粹的炒作。

今天,训练语言模型用到的机器学习算法要复杂很多。

2010年的时候,Google推出了一个基于云计算平台深度学习的工具——Google大脑。采用这个工具,语言模型的效果可以大幅提升,在其它条件不变的情况下,语音识别和机器翻译的相对错误率可以降低10%以上。深度学习的基本算法和支持它的基础架构,已经是智能化的数据中心,有些地方也称之为“智算平台”的标配。如果只是用一个由处理器,包括GPU,堆砌起来的数据中心训练语言模型,得到的结果会差很多。

综上所述,训练语言模型的三个限制分别是数据、算力和算法。所以,要实现一个ChatGPT,并不是简单的事情,需要巨大的资源支持。而对于一般企业或个人来说,可能并不具备这些条件,所以盲目跟风可能并不明智。

总结一下:训练语言模型的三个限制,分别是数据、算力和算法:

1、数据:训练语言模型所需的数据量是极其庞大的。不是每个企业都能得到所有的这些数据。

2、算力:随着时间的推移,人们对人工智能的要求也在不断提高,需要的算力也在不断增加。

3、算法:除了算力之外,基础的自然语言处理技术,也就是算法,也是实现ChatGPT这些产品必不可少的条件。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.cpky.cn/p/8685.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈,一经查实,立即删除!

相关文章

Golang - 从源码到二进制:探索在国产CPU架构上交叉编译Minio的方法

文章目录 前置知识交叉编译Go 支持的所有操作系统和体系结构组合列出 Go 支持的所有操作系统和体系结构组合 大端、小端minio使用的go版本ABI 官方下载目标编译loongarch架构下的minio编译mipsle架构下的minio编译sw64架构下的minio 前置知识 交叉编译 交叉编译是指在一台主机…

C语言推荐书籍

本书详细讲解了C语言的基本概念和编程技巧。全书共17章。第1章、第2章介绍了C语言编程的预备知识。第3章~第15章详细讲解了C语言的相关知识,包括数据类型、格式化输入/输出、运算符、表达式、语句、循环、字符输入和输出、函数、数组和指针、字符和字符串…

【ArcGIS微课1000例】0104:二位面状数据转三维多面体(建筑物按高度拉伸)

文章目录 一、加载数据二、添加高度字段三、三维拉伸显示四、生成三维体数据五、注意事项一、加载数据 打开ArcScene,加载配套实验数据(0104.rar中的二维建筑物矢量数据,订阅专栏,获取专栏所有文章阅读权限及配套数据),如下图所示: 二、添加高度字段 本实验将二维数据…

入门【网络安全/黑客】启蒙教程

有很多想要转行网络安全或者选择网络安全专业的人在进行决定之前一定会有的问题: 什么样的人适合学习网络安全?我适不适合学习网络安全? 当然,产生这样的疑惑并不奇怪,毕竟网络安全这个专业在2017年才调整为国家一级学…

STM32单片机基本原理与应用(八)

温度传感器实验 实验内容: 单片机通过代码模拟1-Wire总线并对DS18B20进行读写,并在TFTLCD屏幕上显示当前实时温度。 电路原理图: 1-Wire总线 1-Wire总线:即单总线协议,采用单根信号线,既传输时钟&#…

C语言-指针详解速成

1.指针是什么 C语言指针是一种特殊的变量,用于存储内存地址。它可以指向其他变量或者其他数据结构,通过指针可以直接访问或修改存储在指定地址的值。指针可以帮助我们在程序中动态地分配和释放内存,以及进行复杂的数据操作。在C语言中&#…