Header Image
Loading Events

« All Events

Virtual Event Virtual Event

100天掌握大语言模型-第八周:代码演示 LoRA in Python

April 23 @ 7:00 pm - 8:00 pm PDT

Virtual Event Virtual Event
“大多数 PEFT 教程都止步于公式。本教程从公式开始,最终呈现一个经过训练的LoRa适配器,该适配器将在真实输出上实时运行,并根据实际输出进行评估。您可以在Colab notebook 中 fork 并自行运行该适配器。”

LoRa和实际运行LoRa之间的差距

第七周构建了概念基础:PEFT 是什么,为什么内存墙使得完全微调不切实际, LoRa的数学原理,以及在LoRa 、适配器和QLoRa之间进行选择的决策框架。第八周弥合了实现方面的差距。

从业者学习 PEFT 的过程存在一个共同的模式。他们理解概念——冻结骨干网络,添加低秩矩阵 B 和 A,只训练这些矩阵,最后合并模型。他们能够理解公式 W = W0 + BA。但是,当他们真正开始在模型上运行LoRA时,却会遇到一系列实际问题:选择哪个库?哪些参数重要? LoRA应该针对模型的哪些层?如何判断训练是否收敛?好的微调输出和坏的微调输出有什么区别?如何评估适配器是否真的有所改进?

第 8 周将通过网络研讨会现场运行 Python 代码,在真实模型和真实任务上解答所有这些问题——您可以并排比较训练前后的输出结果。

谁应该参加

机器学习工程师 LoRA 、适配器和QLoRA 的开源 LLM 进行微调,以及入门的实用方法。

 

数据科学家 对于那些希望将基础模型应用于特定领域任务,但又无法使用多GPU基础设施的用户来说,PEFT 可以在单个GPU上实现这一目标。

 

人工智能产品经理 在规划 LLM 产品功能时,谁需要了解微调方法之间的工程权衡——性能、成本、延迟、存储。

 

软件工程师 集成 LLM API,以便了解为什么LoRA微调模型与基础模型的行为不同,以及如何评估权衡取舍。

 

研究人员 在 LLM 的基础上构建,适用于需要最高效的参数自适应策略以适应其计算预算的学术或应用项目。

 

上一周的回忆

第 7 周涵盖了完整的 PEFT 堆栈:为什么内存墙使得完全微调不切实际,三种参数高效方法,每种方法背后的数学原理,以及为您的场景选择正确方法的清晰决策框架。

为什么是PEFT?记忆墙

70亿次微调所需的GPU内存计算如下:14GB权重 + 14GB梯度 + 56GB Adam状态 + 8GB激活值 = 总计约92GB。为什么即使是A100的80GB显存也不够用——以及PEFT如何用少10到100倍的显存解决这个问题。

三个 PEFT 家庭

低秩分解( LoRA及其变体: DoRA 、 LoftQ 、 LoRA +)、瓶颈适配器(Adapter、 AdapterDrop 、Compacter)和软提示方法(Prefix Tuning、Prompt Tuning、P-Tuning v2)。包含每种方法的公式。

 

LoRA深度解析

核心方程 W = W0 + BA,所有变量均已定义,计算得出参数缩减率达 99.6%(当 d=k=4096,r=8 时,参数从 16.8M 减少到 65.5K)。目标权重矩阵为( Wq / Wk / Wv 为必需,Wo 为推荐)。排序选择指南:r=4,r=8,r=16–64。

量化 + QLoRA

FP32 → FP16 → INT8 → INT4 显存对比。NF4(4 位正态浮点数)——为何它在处理正态分布权重时优于标准 INT4。QLoRA的三大创新:NF4、双量化和分页优化器。在单个 48 GB GPU 上对 650 亿次LLaMA进行了微调。

PEFT 的四种方法——并排比较

本次课程将介绍四种实用的适应策略,这些策略直接取自第16页幻灯片上的对比表格。以下是您将从每种策略中了解到的内容:

1 全面微调(基准)——更新所有 100% 的参数。性能上限最高。70 亿字节需要约 92 GB 显存。每个任务需要一份完整的 14 GB 模型副本。在任何标准硬件上,1000 亿字节以上的任务都无法实现。

 

2 LoRa——行业默认方案——冻结骨干网。添加低秩矩阵对B和A。仅更新0.1%至1%的参数。训练完成后,将ΔW = BA合并,以实现零推理延迟。N个任务=N个小文件,共享一个14GB的骨干网。

 

3 适配器调优——多任务专家——在每个 FFN 后插入瓶颈 MLP 模块: h_out = h + f( h· W_down )· W_up 。一个冻结的主干网 + N 个小型适配器集(每个 2–8 MB)。无法像LoRa那样合并——会增加约 3–10毫秒的延迟。非常适合同时处理 50 个以上任务的情况。

 

4 QLoRA——消费级GPU微调——将基础模型量化为NF4(4位)。冻结模型。在BF16中训练LoRa适配器。结果:在1×A100 80GB显存上对650亿LLaMA模型进行了微调,峰值显存占用41GB。对同一模型进行完整微调需要超过500GB的显存。

————————————-

主办方:AI聘 — 北美数据类、软件类求职服务一站式服务。

三大项目为你全程解除求职困扰:

1. 找到工作再付费的Career VIP项目,为全职岗位求职者提供最专业的支持;
2. Career Plus项目,为全职求职者提供短期强化训练,低成本一站式求职服务;
3. Intern VIP项目,为短期实习求职者提供内推、全程面试辅导支持。

可登录 www.aipin.io了解更多项目信息和成功案例。
邮箱: [email protected]
电话: +1 (626) 566 1822

Details

Date:
April 23
Time:
7:00 pm - 8:00 pm PDT
Event Category:
Event Tags:
, , , ,
免费注册讲座

Organizer

AI聘
Phone:
+1(626)566-1822
Email:
info@aipin.io
View Organizer Website