BEGIN:VCALENDAR
VERSION:2.0
PRODID:-//AI聘 - ECPv5.10.0//NONSGML v1.0//EN
CALSCALE:GREGORIAN
METHOD:PUBLISH
X-WR-CALNAME:AI聘
X-ORIGINAL-URL:https://aipin.io
X-WR-CALDESC:Events for AI聘
BEGIN:VTIMEZONE
TZID:America/Los_Angeles
BEGIN:DAYLIGHT
TZOFFSETFROM:-0800
TZOFFSETTO:-0700
TZNAME:PDT
DTSTART:20260308T100000
END:DAYLIGHT
BEGIN:STANDARD
TZOFFSETFROM:-0700
TZOFFSETTO:-0800
TZNAME:PST
DTSTART:20261101T090000
END:STANDARD
END:VTIMEZONE
BEGIN:VEVENT
DTSTART;TZID=America/Los_Angeles:20260423T190000
DTEND;TZID=America/Los_Angeles:20260423T200000
DTSTAMP:20260421T055114
CREATED:20260420T094444Z
LAST-MODIFIED:20260420T095258Z
UID:13058-1776970800-1776974400@aipin.io
SUMMARY:100天掌握大语言模型-第八周：代码演示 LoRA in Python
DESCRIPTION:“大多数 PEFT 教程都止步于公式。本教程从公式开始，最终呈现一个经过训练的LoRa适配器，该适配器将在真实输出上实时运行，并根据实际输出进行评估。您可以在Colab notebook 中 fork 并自行运行该适配器。”\n\n\n\nLoRa和实际运行LoRa之间的差距 \n第七周构建了概念基础：PEFT 是什么，为什么内存墙使得完全微调不切实际， LoRa的数学原理，以及在LoRa 、适配器和QLoRa之间进行选择的决策框架。第八周弥合了实现方面的差距。 \n从业者学习 PEFT 的过程存在一个共同的模式。他们理解概念——冻结骨干网络，添加低秩矩阵 B 和 A，只训练这些矩阵，最后合并模型。他们能够理解公式 W = W0 + BA。但是，当他们真正开始在模型上运行LoRA时，却会遇到一系列实际问题：选择哪个库？哪些参数重要？ LoRA应该针对模型的哪些层？如何判断训练是否收敛？好的微调输出和坏的微调输出有什么区别？如何评估适配器是否真的有所改进？ \n第 8 周将通过网络研讨会现场运行 Python 代码，在真实模型和真实任务上解答所有这些问题——您可以并排比较训练前后的输出结果。 \n谁应该参加 \n\n\n\n机器学习工程师\nLoRA 、适配器和QLoRA 的开源 LLM 进行微调，以及入门的实用方法。\n\n\n\n  \n\n\n\n数据科学家\n对于那些希望将基础模型应用于特定领域任务，但又无法使用多GPU基础设施的用户来说，PEFT 可以在单个GPU上实现这一目标。\n\n\n\n  \n\n\n\n人工智能产品经理\n在规划 LLM 产品功能时，谁需要了解微调方法之间的工程权衡——性能、成本、延迟、存储。\n\n\n\n  \n\n\n\n软件工程师\n集成 LLM API，以便了解为什么LoRA微调模型与基础模型的行为不同，以及如何评估权衡取舍。\n\n\n\n  \n\n\n\n研究人员\n在 LLM 的基础上构建，适用于需要最高效的参数自适应策略以适应其计算预算的学术或应用项目。\n\n\n\n  \n上一周的回忆 \n第 7 周涵盖了完整的 PEFT 堆栈：为什么内存墙使得完全微调不切实际，三种参数高效方法，每种方法背后的数学原理，以及为您的场景选择正确方法的清晰决策框架。 \n\n\n\n为什么是PEFT？记忆墙 \n70亿次微调所需的GPU内存计算如下：14GB权重 + 14GB梯度 + 56GB Adam状态 + 8GB激活值 = 总计约92GB。为什么即使是A100的80GB显存也不够用——以及PEFT如何用少10到100倍的显存解决这个问题。\n三个 PEFT 家庭 \n低秩分解（ LoRA及其变体： DoRA 、 LoftQ 、 LoRA +）、瓶颈适配器（Adapter、 AdapterDrop 、Compacter）和软提示方法（Prefix Tuning、Prompt Tuning、P-Tuning v2）。包含每种方法的公式。\n\n\n\n  \n\n\n\nLoRA深度解析 \n核心方程 W = W0 + BA，所有变量均已定义，计算得出参数缩减率达 99.6%（当 d=k=4096，r=8 时，参数从 16.8M 减少到 65.5K）。目标权重矩阵为（ Wq / Wk / Wv 为必需，Wo 为推荐）。排序选择指南：r=4，r=8，r=16–64。\n量化 + QLoRA \nFP32 → FP16 → INT8 → INT4 显存对比。NF4（4 位正态浮点数）——为何它在处理正态分布权重时优于标准 INT4。QLoRA的三大创新：NF4、双量化和分页优化器。在单个 48 GB GPU 上对 650 亿次LLaMA进行了微调。\n\n\n\nPEFT 的四种方法——并排比较 \n本次课程将介绍四种实用的适应策略，这些策略直接取自第16页幻灯片上的对比表格。以下是您将从每种策略中了解到的内容： \n\n\n\n1\n全面微调（基准）——更新所有 100% 的参数。性能上限最高。70 亿字节需要约 92 GB 显存。每个任务需要一份完整的 14 GB 模型副本。在任何标准硬件上，1000 亿字节以上的任务都无法实现。\n\n\n\n  \n\n\n\n2\nLoRa——行业默认方案——冻结骨干网。添加低秩矩阵对B和A。仅更新0.1%至1%的参数。训练完成后，将ΔW = BA合并，以实现零推理延迟。N个任务=N个小文件，共享一个14GB的骨干网。\n\n\n\n  \n\n\n\n3\n适配器调优——多任务专家——在每个 FFN 后插入瓶颈 MLP 模块： h_out = h + f( h· W_down )· W_up 。一个冻结的主干网 + N 个小型适配器集（每个 2–8 MB）。无法像LoRa那样合并——会增加约 3–10毫秒的延迟。非常适合同时处理 50 个以上任务的情况。\n\n\n\n  \n\n\n\n4\nQLoRA——消费级GPU微调——将基础模型量化为NF4（4位）。冻结模型。在BF16中训练LoRa适配器。结果：在1×A100 80GB显存上对650亿LLaMA模型进行了微调，峰值显存占用41GB。对同一模型进行完整微调需要超过500GB的显存。\n\n\n\n————————————- \n主办方：AI聘 — 北美数据类、软件类求职服务一站式服务。 \n三大项目为你全程解除求职困扰： \n1. 找到工作再付费的Career VIP项目，为全职岗位求职者提供最专业的支持；\n2. Career Plus项目，为全职求职者提供短期强化训练，低成本一站式求职服务；\n3. Intern VIP项目，为短期实习求职者提供内推、全程面试辅导支持。 \n可登录 www.aipin.io了解更多项目信息和成功案例。\n邮箱: info@aipin.io\n电话: +1 (626) 566 1822
URL:https://aipin.io/event/llm-8-lora/
CATEGORIES:直播讲座
ATTACH;FMTTYPE=image/png:https://aipin.io/wp-content/uploads/2026/04/100天掌握大语言模型-8.png
ORGANIZER;CN="AI%E8%81%98":MAILTO:info@aipin.io
LOCATION:https://dataapplab.zoom.us/webinar/register/8317724471564/WN_MD5Qr28NTy62AYRatCnNJQ
END:VEVENT
END:VCALENDAR