Header Image
Loading Events

« All Events

Virtual Event Virtual Event
  • This event has passed.

100天掌握大语言模型第十六周:LLM发布优化:让大模型快36倍、便宜50倍的秘密

June 18 @ 7:00 pm - 8:00 pm PDT

Virtual Event Virtual Event

100名学习大语言模型的工程师,99个没有机会真正部署和优化LLM。但这个是区别低级工程师和高级全站工程的知识。所以你一定要来学习一下。

你是否遇到过这些问题,部署了一个大语言模型之后,GPU费用高得惊人用户一多就开始排队响应速度越来越慢70B模型根本放不进显卡A100每天都在烧钱。很多企业以为,提升性能 = 买更多GPU。实际上,世界顶级AI公司采用的是另一条路线,不换模型,不换硬件,仅通过优化技术,就能让系统性能提升36倍以上。在本次讲座中,我们将深入揭秘OpenAIAnthropicMetaDeepSeekPerplexityCursor 等公司是如何优化大模型推理系统的

 

为什么必须学习 LLM Optimization

一个未经优化的70B模型,只能服务1个用户,吞吐量约100 Tokens/s,成本高达数美元每百万Token。而经过优化后:

✅ 支持 28+ 并发用户

✅ 吞吐量超过 3600 Tokens/s

✅ 成本下降到原来的几十分之一

✅ 同样硬件获得数十倍收益

这就是AI时代最被低估却最赚钱的工程能力很多公司已经发现,未来AI工程师不仅要会Prompt、RAG和Agent,更要懂推理优化(Inference Optimization),GPU资源利用率优化,LLM Serving架构设计,大规模部署与成本控制。这些能力正在成为高薪LLM Engineer的核心竞争力。

本次讲座你将学到什么

第一部分:Batching —— GPU性能释放的秘

为什么很多GPU利用率只有30%?什么是:

  • Static Batching
  • Dynamic Batching
  • Continuous Batching

为什么vLLM能够比传统HuggingFace快24倍?

我们将深入讲解:

  • vLLM调度器原理
  • Continuous Batching架构
  • GPU利用率从20%提升到95%的方法

第二部分:Caching —— 延迟优化的核心技

为什么有些系统响应需要2秒,而有些系统只需要几十毫秒?

你将学习:

KV Cache

Transformer推理中的核心优化技术

理解:

  • Attention计算复杂度
  • O(N²) 到O(N)
  • KV Cache内存计算

PagedAttentionvLLM最重要的创新之一

理解:

  • GPU内存碎片问题
  • 虚拟内存思想
  • 为什么同样GPU可以支持10倍并发

Prefix Cache & Semantic Cache

如何:

  • 将TTFT降低18倍
  • 让FAQ机器人减少70%的LLM调用
  • 大幅降低推理成本

第三部分:Quantization —— 显存与成本优化神

为什么70B模型需要140GB显存。 而经过量化后只需要35GB?

你将深入理解INT8INT4GPTQAWQGGUF,以及Ollama模型量化原理,llama.cpp量化模型, vLLM部署AWQ模型, 实际质量损失评估。你将知道为什么INT4的70B模型,往往比FP16的13B模型表现更好。

 

企业级部署案

讲座最后,我们将演示:

一个完整生产环境中的部署方案:

  • vLLM
  • Continuous Batching
  • Prefix Cache
  • AWQ Quantization
  • FP8 KV Cache

实现36倍吞吐量提18倍响应速度提4倍显存节50倍以上成本优

 

适合哪些人参加

✅ AI工程师

✅ LLM Engineer

✅ Agent开发者

✅ RAG系统开发者

✅ 后端工程师

✅ MLOps工程师

✅ DevOps工程师

✅ AI创业者

✅ 希望进入AI行业的开发者

 

讲座亮

✔ 全程企业级案例

✔ vLLM实战讲解

✔ Ollama部署优化

✔ GPU成本分析

✔ 最新推理优化技术

✔ 大厂生产环境经验分享

✔ AI面试高频知识点总结

 

 

主办方:AI聘 — 北美数据类、软件类求职服务一站式服务。

三大项目为你全程解除求职困扰:

1. 找到工作再付费的Career VIP项目,为全职岗位求职者提供最专业的支持;
2. Career Plus项目,为全职求职者提供短期强化训练,低成本一站式求职服务;
3. Intern VIP项目,为短期实习求职者提供内推、全程面试辅导支持。

可登录 www.aipin.io了解更多项目信息和成功案例。
邮箱: [email protected]
电话: +1 (626) 566 1822

Details

Date:
June 18
Time:
7:00 pm - 8:00 pm PDT
Event Category:
Event Tags:
, , , ,
免费注册讲座

Organizer

AI聘
Phone:
+1(626)566-1822
Email:
info@aipin.io
View Organizer Website