Grok-1:参数量最大的开源大语言模型

news/2024/4/27 16:48:51

Grok-1:参数量最大的开源大语言模型

项目简介

由马斯克领衔的大型模型企业 xAI 正式公布了一项重要动作:开源了一个拥有 3140 亿参数的混合专家模型(MoE)「Grok-1」,连同其模型权重和网络架构一并公开。

此举将 Grok-1 树立为目前最大参数量的开源大语言模型。

图片

在这个关键时刻,马斯克自然不放过机会,对 OpenAI 进行了一番讽刺,他表示:“我们很想探索 OpenAI 中‘开放’的那一部分”。

图片

模型

回到模型本身,Grok-1 是从零开始训练的,而且没有为任何特定应用(例如对话系统)进行过微调。相比之下,在 X(原名 Twitter)上使用的 Grok 大型模型已经进行了微调,因此其行为与原始权重版本不同。

Grok-1 模型的详细信息包括:

·基础模型基于大量文本数据训练,未针对任何特定任务进行微调;

·是一个包含 3140 亿参数的混合专家(MoE)模型,给定 token 的激活权重为 25%;

·2023 年 10 月,xAI 使用 JAX 库和 Rust 语言的自定义训练栈从头开始进行训练。

xAI 根据 Apache 2.0 许可证公开了 Grok-1 的权重和架构。Apache 2.0 许可证允许用户自由使用、修改和分发软件,不论是个人还是商业用途。项目发布仅10小时,就已获得 11.1k 星标,人气持续上升。

图片

Grok-1模型因其巨大的参数量—314亿个参数—而引起了网友们的极大兴趣。由于每个参数需要2字节的内存来存储,整个模型大约需要628GB的GPU内存才能运行。为了达到这样的内存需求,就需要使用多个高性能GPU。

以目前市场上的高端GPU,NVIDIA H100为例,每个提供大约80GB的显存。根据这个配置,运行完整的Grok-1模型大概需要8个H100 GPUs来提供足够的内存空间。

这是一种非常高端的配置,通常只有在专业的数据中心或者具备先进计算资源的研究机构中才能找到。对于大多数个人用户和小型开发团队来说,这种配置是不切实际的。因此,想要运行如此庞大的模型,就需要获得相应级别的硬件支持,这通常意味着相当大的投资。

使用

这个仓库包含用于加载和运行 Grok-1 开放权重模型的 JAX 示例代码。

请确保下载了检查点,并将 ckpt-0 目录放在 checkpoint 中。然后,运行

pip install -r requirements.txtpython run.py

测试代码。

该脚本加载检查点,并在一个测试输入上从模型中采样。

由于模型的体积很大(314B 参数),需要一台具有足够 GPU 内存的机器来用示例代码测试模型。这个仓库中的 MoE 层的实现并不高效。选择这种实现是为了避免需要自定义核心来验证模型的正确性。

项目链接

https://github.com/xai-org/grok-1

Grok-1:马斯克兑现诺言,发布参数量最大的开源大语言模型,发布10小时11.1k星星

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.cpky.cn/p/10781.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈,一经查实,立即删除!

相关文章

2078: [蓝桥杯2023初赛] 01 串的熵

对于一个长度为 n 的 01 串 S x1x2x3...xn. 香农信息熵的定义为: 。 其中 p(0), p(1) 表示在这个 01 串中 0 和 1 出现的占比。 比如,对于S 100 来说,信息熵 H(S ) - 1/3 log2(1/3) - 2/3 log2(2/3) - 2/3 log2(2/3) 1.3083。 对于一个…

前端项目(vue3)自动化部署(Gitlab CI/CD)

天行健,君子以自强不息;地势坤,君子以厚德载物。 每个人都有惰性,但不断学习是好好生活的根本,共勉! 文章均为学习整理笔记,分享记录为主,如有错误请指正,共同学习进步。…

插入排序和希尔排序

目录 一、插入排序 1.思想 2.代码实现分析 3.测试结果: 二、希尔排序 1.思想 2.代码实现 3.测试 一、插入排序 1.思想 思想:将数组分为已排序区间和未排序区间两部分,初始时,已排序区间为空,从数组的第二…

Aivis:AI语音模仿系统

Aivis:AI语音模仿系统。 Aivis是一个AI语音模仿系统,它利用深度学习和神经网络技术来模仿特定人的声音。这种系统通常涉及以下几个关键步骤和技术: 声音采集:首先,需要收集目标人物的声音样本。这些样本可以是录音、演…

计算机二级(Python)真题讲解每日一题:《方菱形》

描述‪‬‪‬‪‬‪‬‪‬‮‬‪‬‫‬‪‬‪‬‪‬‪‬‪‬‮‬‪‬‮‬‪‬‪‬‪‬‪‬‪‬‮‬‪‬‭‬‪‬‪‬‪‬‪‬‪‬‮‬‫‬‮‬‪‬‪‬‪‬‪‬‪‬‮‬‭‬‫‬‪‬‪‬‪‬‪‬‪‬‮‬‫‬‪‬‪‬‪‬‪‬‪‬‪‬‮‬‪‬‮‬ 请写代码替换横线&#xff0…

SpringBoot集成WebService

1&#xff09;添加依赖 <dependency><groupId>org.apache.cxf</groupId><artifactId>cxf-spring-boot-starter-jaxws</artifactId><version>3.3.4</version><exclusions><exclusion><groupId>javax.validation<…