Virtual Event

This event has passed.

100天掌握大语言模型第十六周：LLM发布优化：让大模型快36倍、便宜50倍的秘密

Name: 100天掌握大语言模型第十六周：LLM发布优化：让大模型快36倍、便宜50倍的秘密
Start: 2026-06-18T19:00:00-07:00
End: 2026-06-18T20:00:00-07:00

June 18 @ 7:00 pm - 8:00 pm PDT

Virtual Event

100名学习大语言模型的工程师，99个没有机会真正部署和优化LLM。但这个是区别低级工程师和高级全站工程的知识。所以你一定要来学习一下。

你是否遇到过这些问题，部署了一个大语言模型之后，GPU费用高得惊人，用户一多就开始排队，响应速度越来越慢，70B模型根本放不进显卡，A100每天都在烧钱。很多企业以为，提升性能 = 买更多GPU。实际上，世界顶级AI公司采用的是另一条路线，不换模型，不换硬件，仅通过优化技术，就能让系统性能提升36倍以上。在本次讲座中，我们将深入揭秘OpenAI、Anthropic、Meta、DeepSeek、Perplexity、Cursor 等公司是如何优化大模型推理系统的。

为什么必须学习 LLM Optimization

一个未经优化的70B模型，只能服务1个用户，吞吐量约100 Tokens/s，成本高达数美元每百万Token。而经过优化后：

✅ 支持 28+ 并发用户

✅ 吞吐量超过 3600 Tokens/s

✅ 成本下降到原来的几十分之一

✅ 同样硬件获得数十倍收益

这就是AI时代最被低估却最赚钱的工程能力。很多公司已经发现，未来AI工程师不仅要会Prompt、RAG和Agent，更要懂推理优化（Inference Optimization），GPU资源利用率优化，LLM Serving架构设计，大规模部署与成本控制。这些能力正在成为高薪LLM Engineer的核心竞争力。

本次讲座你将学到什么？

第一部分：Batching —— GPU性能释放的秘密

为什么很多GPU利用率只有30%？什么是：

Static Batching
Dynamic Batching
Continuous Batching

为什么vLLM能够比传统HuggingFace快24倍？

我们将深入讲解：

vLLM调度器原理
Continuous Batching架构
GPU利用率从20%提升到95%的方法

第二部分：Caching —— 延迟优化的核心技术

为什么有些系统响应需要2秒，而有些系统只需要几十毫秒？

你将学习：

KV Cache

Transformer推理中的核心优化技术

理解：

Attention计算复杂度
O(N²) 到O(N)
KV Cache内存计算

PagedAttention，vLLM最重要的创新之一

理解：

GPU内存碎片问题
虚拟内存思想
为什么同样GPU可以支持10倍并发

Prefix Cache & Semantic Cache

如何：

将TTFT降低18倍
让FAQ机器人减少70%的LLM调用
大幅降低推理成本

第三部分：Quantization —— 显存与成本优化神器

为什么70B模型需要140GB显存。而经过量化后只需要35GB？

你将深入理解INT8，INT4，GPTQ，AWQ，GGUF，以及Ollama模型量化原理，llama.cpp量化模型， vLLM部署AWQ模型，实际质量损失评估。你将知道为什么INT4的70B模型，往往比FP16的13B模型表现更好。

企业级部署案例

讲座最后，我们将演示：

一个完整生产环境中的部署方案：

vLLM
Continuous Batching
Prefix Cache
AWQ Quantization
FP8 KV Cache

实现36倍吞吐量提升18倍响应速度提升，4倍显存节省，50倍以上成本优化

适合哪些人参加？

✅ AI工程师

✅ LLM Engineer

✅ Agent开发者

✅ RAG系统开发者

✅ 后端工程师

✅ MLOps工程师

✅ DevOps工程师

✅ AI创业者

✅ 希望进入AI行业的开发者

讲座亮点

✔ 全程企业级案例

✔ vLLM实战讲解

✔ Ollama部署优化

✔ GPU成本分析

✔ 最新推理优化技术

✔ 大厂生产环境经验分享

✔ AI面试高频知识点总结

主办方：AI聘 — 北美数据类、软件类求职服务一站式服务。

三大项目为你全程解除求职困扰：

1. 找到工作再付费的Career VIP项目，为全职岗位求职者提供最专业的支持；
2. Career Plus项目，为全职求职者提供短期强化训练，低成本一站式求职服务；
3. Intern VIP项目，为短期实习求职者提供内推、全程面试辅导支持。

可登录 www.aipin.io了解更多项目信息和成功案例。
邮箱: [email protected]
电话: +1 (626) 566 1822

+ Google Calendar + iCal Export

Details

Date:: June 18
Time:: 7:00 pm - 8:00 pm PDT
Event Category:: 直播讲座
Event Tags:: 数据科学家, 求职, 美国求职, 美国留学生求职, 面试

Organizer

: AI聘
Phone:: +1(626)566-1822
Email:: info@aipin.io; View Organizer Website