- This event has passed.
100天掌握大语言模型第十六周:LLM发布优化:让大模型快36倍、便宜50倍的秘密
June 18 @ 7:00 pm - 8:00 pm PDT

100名学习大语言模型的工程师,99个没有机会真正部署和优化LLM。但这个是区别低级工程师和高级全站工程的知识。所以你一定要来学习一下。
你是否遇到过这些问题,部署了一个大语言模型之后,GPU费用高得惊人,用户一多就开始排队,响应速度越来越慢,70B模型根本放不进显卡,A100每天都在烧钱。很多企业以为,提升性能 = 买更多GPU。实际上,世界顶级AI公司采用的是另一条路线,不换模型,不换硬件,仅通过优化技术,就能让系统性能提升36倍以上。在本次讲座中,我们将深入揭秘OpenAI、Anthropic、Meta、DeepSeek、Perplexity、Cursor 等公司是如何优化大模型推理系统的。
为什么必须学习 LLM Optimization
一个未经优化的70B模型,只能服务1个用户,吞吐量约100 Tokens/s,成本高达数美元每百万Token。而经过优化后:
✅ 支持 28+ 并发用户
✅ 吞吐量超过 3600 Tokens/s
✅ 成本下降到原来的几十分之一
✅ 同样硬件获得数十倍收益
这就是AI时代最被低估却最赚钱的工程能力。很多公司已经发现,未来AI工程师不仅要会Prompt、RAG和Agent,更要懂推理优化(Inference Optimization),GPU资源利用率优化,LLM Serving架构设计,大规模部署与成本控制。这些能力正在成为高薪LLM Engineer的核心竞争力。
本次讲座你将学到什么?
第一部分:Batching —— GPU性能释放的秘密
为什么很多GPU利用率只有30%?什么是:
- Static Batching
- Dynamic Batching
- Continuous Batching
为什么vLLM能够比传统HuggingFace快24倍?
我们将深入讲解:
- vLLM调度器原理
- Continuous Batching架构
- GPU利用率从20%提升到95%的方法
第二部分:Caching —— 延迟优化的核心技术
为什么有些系统响应需要2秒,而有些系统只需要几十毫秒?
你将学习:
KV Cache
Transformer推理中的核心优化技术
理解:
- Attention计算复杂度
- O(N²) 到O(N)
- KV Cache内存计算
PagedAttention,vLLM最重要的创新之一
理解:
- GPU内存碎片问题
- 虚拟内存思想
- 为什么同样GPU可以支持10倍并发
Prefix Cache & Semantic Cache
如何:
- 将TTFT降低18倍
- 让FAQ机器人减少70%的LLM调用
- 大幅降低推理成本
第三部分:Quantization —— 显存与成本优化神器
为什么70B模型需要140GB显存。 而经过量化后只需要35GB?
你将深入理解INT8,INT4,GPTQ,AWQ,GGUF,以及Ollama模型量化原理,llama.cpp量化模型, vLLM部署AWQ模型, 实际质量损失评估。你将知道为什么INT4的70B模型,往往比FP16的13B模型表现更好。
企业级部署案例
讲座最后,我们将演示:
一个完整生产环境中的部署方案:
- vLLM
- Continuous Batching
- Prefix Cache
- AWQ Quantization
- FP8 KV Cache
实现36倍吞吐量提升18倍响应速度提升,4倍显存节省,50倍以上成本优化
适合哪些人参加?
✅ AI工程师
✅ LLM Engineer
✅ Agent开发者
✅ RAG系统开发者
✅ 后端工程师
✅ MLOps工程师
✅ DevOps工程师
✅ AI创业者
✅ 希望进入AI行业的开发者
讲座亮点
✔ 全程企业级案例
✔ vLLM实战讲解
✔ Ollama部署优化
✔ GPU成本分析
✔ 最新推理优化技术
✔ 大厂生产环境经验分享
✔ AI面试高频知识点总结
主办方:AI聘 — 北美数据类、软件类求职服务一站式服务。
三大项目为你全程解除求职困扰:
1. 找到工作再付费的Career VIP项目,为全职岗位求职者提供最专业的支持;
2. Career Plus项目,为全职求职者提供短期强化训练,低成本一站式求职服务;
3. Intern VIP项目,为短期实习求职者提供内推、全程面试辅导支持。
可登录 www.aipin.io了解更多项目信息和成功案例。
邮箱: [email protected]
电话: +1 (626) 566 1822