A Series on Training LLM Models (I)
0. 前言 本系列主要是对 LLM(Large Language Models) 中涉及到的一些训练方法、技术进行学习. 本篇博客主要对 RLHF(Reinforcement learning from human feedback) 、 PPO (Proximal policy optimization) 、DPO(Direct Preference Optimization) 这 3...
0. 前言 本系列主要是对 LLM(Large Language Models) 中涉及到的一些训练方法、技术进行学习. 本篇博客主要对 RLHF(Reinforcement learning from human feedback) 、 PPO (Proximal policy optimization) 、DPO(Direct Preference Optimization) 这 3...
0. 前言 Causal Inference (因果推断) 已经在多个领域发挥出巨大作用, 尽管早已经听说过其大名, 但是从未步入这个领域好好学习一番, 通常是浅尝辄止. 为此在博客开一个系列, 一是用于记录学习, 二是希望能够起到监督作用… 本篇博客主要是对 A Survey on Causal Inference 进行学习和记录. 由于这是个人学习笔记, 我作为初学者, 在博...
0. 前言 本篇 Blog 主要对强化学习的几个参数更新方法进行学习. 阅读前, 需要你 : 有高数基础知识, 线代基础知识, 统计学习基础知识, 当然还要有 ML和 DL 的知识背景. 1. 总览和相关概念 1.1 总览 source from David Silver’s RL Course 目前, 强化学习的方法基本上划分为 2 大类: policy based a...
0. 前言 Causal Inference (因果推断) 已经在多个领域发挥出巨大作用, 尽管早已经听说过其大名, 但是从未步入这个领域好好学习一番, 通常是浅尝辄止. 为此在博客开一个系列, 一是用于记录学习, 二是希望能够起到监督作用… 由于是入门学习, 因此课程和书籍选择了相对简单的. 根据网上的推荐和实际体验, 感觉 Brady Neal 的系列介绍比较合适, 因此这个系列都将...
0. 前言 本篇 Blog 不是教程, 官方教程1、2 有时候比较抽象, 这里只是在学习 LangChain 过程中做个记录, 并加入自己的理解和注释. 当然这里也不进行过多的介绍, 直接进入对组件的学习. 1. Prompts Prompts 通常用来”调教”LLM, 比如用来指定 LLM 的输出格式, 也可以用来给 LMM 一些例子让他参考等等.LangChain 目前提供了 4 ...
0. 前言 在 上一篇 Blog 中探讨了 L1 Regularization 和 L2 Regularization. 我们说到: 对损失函数添加 L2 Regularization , 最后对 w 使用梯度下降的时候, 实际是对 w 做了权重衰减. 然而, 上述等价性只在优化器为随机梯度下降(SGD)时成立(下边我们会证明). 在其他情况下, 特别是在训练深度学习模型时, 经常使用A...
0. 前言 在机器学习或深度学习中,无论是分类、回归还是其他场景,通常都是利用模型去拟合一个函数。在这个过程中,正则化是一种常用的手段,用来防止过拟合。本篇博客主要从几个角度探讨正则化的理解,并解释它为何能够防止过拟合。 阅读前, 需要你 : 有高数基础知识, 线代基础知识, 统计学习基础知识, 当然还要有 ML和 DL 的知识背景. 1. 公式 给定输入 $x_1,x_2…...
0. 前言 我们有2个分布 $P$ 和 $Q$, 如何比较二者之间的差异性? 在数理统计上, K-L 散度是一个常用的方法. 1. 定义 1.1 离散版本 For discrete probability distributions $P$ and $Q$ defined on the same sample space $\mathcal {X}$ . ...
0. 前言 这篇 Blog 主要聚焦于利用 Transformer 的 Decoder 实现一个简单的 text generator. 虽然代码相对简单, 但是核心思想类似, 做个记录, 方便后续学习理解. 主要参考 : https://wingedsheep.com/building-a-language-model/ 阅读前, 需要你 : 了解 Transformer结构, A...
0. 前言 AUC 经常被用来评估一个机器学习模型的综合性能, 我们通常听到的版本, AUC 指的是 ROC 曲线下的面积, 不过在实际中他是如何计算的? GAUC 又是什么? 此外, AUC 还有另外一种含义, 描述的是任意取一对儿正负样本, 模型能够把 “正样本” 排序到 “负样本” 前边的能力. 这又是什么? 1. 基本知识 说 AUC 不得不说 ROC (Rec...