看到这个标题,你可能会觉得是噱头。谁不知道
ChatGPT
模型有
1750
亿以上的参数,别说是在笔记本电脑上跑,就是使用高性能
GPU
的台式机,也无法带得动啊。老老实实调用
API
不好吗?其实,LLM(大语言模型)有非常宽泛的参数量范围。咱们今天介绍的这个模型
GPT4All
只有
70
亿参数,在
LLM
里面现在算是妥妥的小巧玲珑。不过看这个名字你也能发现,它确实是野心勃勃,照着
ChatGPT
的性能去对标的。GPT4All
基于
Meta
的
LLaMa
模型训练。你可能立即觉得不对,你这跟
GPT
有啥关系?为什么要无端蹭热度?且慢,GPT4All
确实和
ChatGPT
有关
——
它用来微调的训练数据,正是调用
ChatGPT
产生的大量问答内容。我怕你对技术细节不感兴趣,因此只用下面这张图来说明
GPT4All
的训练过程。??GPT4All
其实就是非常典型的蒸馏(distill)模型
——
想要模型尽量靠近大模型的性能,又要参数足够少。听起来很贪心,是吧?据开发者自己说,GPT4All
虽小,却在某些任务类型上可以和
ChatGPT
相媲美。但是,咱们不能只听开发者的一面之辞。还是试试看比较好,你说是吧?深度神经网络由多个层组成。每一层包含处理输入数据并通过非线性激活函数(Sigmoid
或
ReLU)传递给其他层的神经元。每一层的输出会传递给另一层,在传递给下一层进行进一步处理之前,这一层会对这个中间表示进行某种操作。
这个架构可以分为两个主要部分:输入层和输出层。
输入层
这表示一组输入,这些输入被送入人工神经网络(ANN)作为训练数据或测试数据,然后由深度学习算法使用,以根据历史信息(例如过去的交易等)预测未来事件
/
结果,这一过程使用输入层及其相关权重。
输出层
这表示一组输出,这些输出在经过人工神经网络内部的各个层(例如卷积神经网络、循环神经网络或长短时记忆网络)处理后被送回到
ANN
中,然后由深度学习算法使用,以根据历史信息(例如过去的交易等)预测未来事件
/
结果,这一过程使用输出层及其相关权重。
深度学习模型的架构可能会因各种因素而有所不同,例如数据类型、特征数量、目标变量或正在解决的分类问题。Transformer
是一类深度学习架构,在自然语言处理(NLP)和其他领域中已变得非常流行,这归功于它们强大的性能和可扩展性。Transformer
首次在
Vaswani
等人于
2017
年发表的论文
"Attention
is
All
You
Need"
中被介绍。Transformer
基于自注意力机制,这使它们能够捕获长距离依赖关系并在序列中建模复杂的模式。自注意力机制:Transformer
的核心是自注意力机制,它允许模型衡量每个输入标记与序列中每个其他标记的关系的重要性。这是通过使用三个可学习的向量实现的,分别称为查询向量(Q)、键向量(K)和值向量(V)。自注意力机制计算每对标记之间的注意力分数,然后用于生成值向量的加权和。多头注意力:Transformer
使用多头注意力来捕捉输入序列的不同方面。多头注意力层中的每个
"头"
都独立执行自注意力
第514章 用steamdeck安装AI大模型的体验,gpt4all[1/2页]