BEGIN:VCALENDAR
VERSION:2.0
PRODID:-//AI聘 - ECPv5.10.0//NONSGML v1.0//EN
CALSCALE:GREGORIAN
METHOD:PUBLISH
X-WR-CALNAME:AI聘
X-ORIGINAL-URL:https://aipin.io
X-WR-CALDESC:Events for AI聘
BEGIN:VTIMEZONE
TZID:America/Los_Angeles
BEGIN:DAYLIGHT
TZOFFSETFROM:-0800
TZOFFSETTO:-0700
TZNAME:PDT
DTSTART:20260308T100000
END:DAYLIGHT
BEGIN:STANDARD
TZOFFSETFROM:-0700
TZOFFSETTO:-0800
TZNAME:PST
DTSTART:20261101T090000
END:STANDARD
END:VTIMEZONE
BEGIN:VEVENT
DTSTART;TZID=America/Los_Angeles:20260618T190000
DTEND;TZID=America/Los_Angeles:20260618T200000
DTSTAMP:20260624T184301
CREATED:20260623T120307Z
LAST-MODIFIED:20260623T120307Z
UID:13143-1781809200-1781812800@aipin.io
SUMMARY:100天掌握大语言模型第十六周：LLM发布优化：让大模型快36倍、便宜50倍的秘密
DESCRIPTION:100名学习大语言模型的工程师，99个没有机会真正部署和优化LLM。但这个是区别低级工程师和高级全站工程的知识。所以你一定要来学习一下。 \n你是否遇到过这些问题，部署了一个大语言模型之后，GPU费用高得惊人，用户一多就开始排队，响应速度越来越慢，70B模型根本放不进显卡，A100每天都在烧钱。很多企业以为，提升性能 = 买更多GPU。实际上，世界顶级AI公司采用的是另一条路线，不换模型，不换硬件，仅通过优化技术，就能让系统性能提升36倍以上。在本次讲座中，我们将深入揭秘OpenAI、Anthropic、Meta、DeepSeek、Perplexity、Cursor 等公司是如何优化大模型推理系统的。 \n  \n为什么必须学习 LLM Optimization \n一个未经优化的70B模型，只能服务1个用户，吞吐量约100 Tokens/s，成本高达数美元每百万Token。而经过优化后： \n✅ 支持 28+ 并发用户 \n✅ 吞吐量超过 3600 Tokens/s \n✅ 成本下降到原来的几十分之一 \n✅ 同样硬件获得数十倍收益 \n这就是AI时代最被低估却最赚钱的工程能力。很多公司已经发现，未来AI工程师不仅要会Prompt、RAG和Agent，更要懂推理优化（Inference Optimization），GPU资源利用率优化，LLM Serving架构设计，大规模部署与成本控制。这些能力正在成为高薪LLM Engineer的核心竞争力。 \n本次讲座你将学到什么？ \n第一部分：Batching —— GPU性能释放的秘密 \n为什么很多GPU利用率只有30%？什么是： \n\nStatic Batching\nDynamic Batching\nContinuous Batching\n\n为什么vLLM能够比传统HuggingFace快24倍？ \n我们将深入讲解： \n\nvLLM调度器原理\nContinuous Batching架构\nGPU利用率从20%提升到95%的方法\n\n第二部分：Caching —— 延迟优化的核心技术 \n为什么有些系统响应需要2秒，而有些系统只需要几十毫秒？ \n你将学习： \nKV Cache \nTransformer推理中的核心优化技术 \n理解： \n\nAttention计算复杂度\nO(N²) 到O(N)\nKV Cache内存计算\n\nPagedAttention，vLLM最重要的创新之一 \n理解： \n\nGPU内存碎片问题\n虚拟内存思想\n为什么同样GPU可以支持10倍并发\n\nPrefix Cache & Semantic Cache \n如何： \n\n将TTFT降低18倍\n让FAQ机器人减少70%的LLM调用\n大幅降低推理成本\n\n第三部分：Quantization —— 显存与成本优化神器 \n为什么70B模型需要140GB显存。 而经过量化后只需要35GB？ \n你将深入理解INT8，INT4，GPTQ，AWQ，GGUF，以及Ollama模型量化原理，llama.cpp量化模型， vLLM部署AWQ模型， 实际质量损失评估。你将知道为什么INT4的70B模型，往往比FP16的13B模型表现更好。 \n  \n企业级部署案例 \n讲座最后，我们将演示： \n一个完整生产环境中的部署方案： \n\nvLLM\nContinuous Batching\nPrefix Cache\nAWQ Quantization\nFP8 KV Cache\n\n实现36倍吞吐量提升18倍响应速度提升，4倍显存节省，50倍以上成本优化 \n  \n适合哪些人参加？ \n✅ AI工程师 \n✅ LLM Engineer \n✅ Agent开发者 \n✅ RAG系统开发者 \n✅ 后端工程师 \n✅ MLOps工程师 \n✅ DevOps工程师 \n✅ AI创业者 \n✅ 希望进入AI行业的开发者 \n  \n讲座亮点 \n✔ 全程企业级案例 \n✔ vLLM实战讲解 \n✔ Ollama部署优化 \n✔ GPU成本分析 \n✔ 最新推理优化技术 \n✔ 大厂生产环境经验分享 \n✔ AI面试高频知识点总结 \n  \n  \n主办方：AI聘 — 北美数据类、软件类求职服务一站式服务。 \n三大项目为你全程解除求职困扰： \n1. 找到工作再付费的Career VIP项目，为全职岗位求职者提供最专业的支持；\n2. Career Plus项目，为全职求职者提供短期强化训练，低成本一站式求职服务；\n3. Intern VIP项目，为短期实习求职者提供内推、全程面试辅导支持。 \n可登录 www.aipin.io了解更多项目信息和成功案例。\n邮箱: info@aipin.io\n电话: +1 (626) 566 1822
URL:https://aipin.io/event/llm-16/
CATEGORIES:直播讲座
ATTACH;FMTTYPE=image/png:https://aipin.io/wp-content/uploads/2026/06/100天掌握大语言模型-16-1.png
ORGANIZER;CN="AI%E8%81%98":MAILTO:info@aipin.io
LOCATION:https://dataapplab.zoom.us/webinar/register/8317724471564/WN_MD5Qr28NTy62AYRatCnNJQ
END:VEVENT
END:VCALENDAR