阅读记录

第514章 用steamdeck安装AI大模型的体验,gpt4all[1/2页]

职场小聪明 翟晓鹰

设置 ×

  • 阅读主题
  • 字体大小A-默认A+
  • 字体颜色
    看到这个标题,你可能会觉得是噱头。谁不知道
      ChatGPT
      模型有
      1750
      亿以上的参数,别说是在笔记本电脑上跑,就是使用高性能
      GPU
      的台式机,也无法带得动啊。老老实实调用
      API
      不好吗?其实,LLM(大语言模型)有非常宽泛的参数量范围。咱们今天介绍的这个模型
      GPT4All
      只有
      70
      亿参数,在
      LLM
      里面现在算是妥妥的小巧玲珑。不过看这个名字你也能发现,它确实是野心勃勃,照着
      ChatGPT
      的性能去对标的
      基于
      Meta
      的
      LLaMa
      模型训练。你可能立即觉得不对,你这跟
      GPT
      有啥关系?为什么要无端蹭热度?且慢,GPT4All
      确实和
      ChatGPT
      有关
      ——
      它用来微调的训练数据,正是调用
      ChatGPT
      产生的大量问答内容。我怕你对技术细节不感兴趣,因此只用下面这张图来说明
      GPT4All
      的训练过程。??GPT4All
      其实就是非常典型的蒸馏(distill)模型
      ——
      想要模型尽量靠近大模型的性能,又要参数足够少。听起来很贪心,是吧?据开发者自己说,GPT4All
      虽小,却在某些任务类型上可以和
      ChatGPT
      相媲美。但是,咱们不能只听开发者的一面之辞。还是试试看比较好,你说是吧?深度神经网络由多个层组成。每一层包含处理输入数据并通过非线性激活函数(Sigmoid
      或
      ReLU)传递给其他层的神经元。每一层的输出会传递给另一层,在传递给下一层进行进一步处理之前,这一层会对这个中间表示进行某种操作。
      这个架构可以分为两个主要部分:输入层和输出层。
      输入层
      这表示一组输入,这些输入被送入人工神经网络(ANN)作为训练数据或测试数据,然后由深度学习算法使用,以根据历史信息(例如过去的交易等)预测未来事件
      /
      结果,这一过程使用输入层及其相关权重。
      输出层
      这表示一组输出,这些输出在经过人工神经网络内部的各个层(例如卷积神经网络、循环神经网络或长短时记忆网络)处理后被送回到
      ANN
      中,然后由深度学习算法使用,以根据历史信息(例如过去的交易等)预测未来事件
      /
      结果,这一过程使用输出层及其相关权重。
      深度学习模型的架构可能会因各种因素而有所不同,例如数据类型、特征数量、目标变量或正在解决的分类问题
      是一类深度学习架构,在自然语言处理(NLP)和其他领域中已变得非常流行,这归功于它们强大的性能和可扩展性
      首次在
      Vaswani
      等人于
      2017
      年发表的论文
      "Attention
      is
      All
      You
      Need"
      中被介绍
      基于自注意力机制,这使它们能够捕获长距离依赖关系并在序列中建模复杂的模式。自注意力机制:Transformer
      的核心是自注意力机制,它允许模型衡量每个输入标记与序列中每个其他标记的关系的重要性。这是通过使用三个可学习的向量实现的,分别称为查询向量(Q)、键向量(K)和值向量(V)。自注意力机制计算每对标记之间的注意力分数,然后用于生成值向量的加权和。多头注意力:Transformer
   

第514章 用steamdeck安装AI大模型的体验,gpt4all[1/2页]