探索LLM（大型语言模型）的本质

59分钟

随着ChatGPT等大语言模型的爆发式发展，LLM技术已成为AI领域的重要突破。然而，多数从业者仅停留在应用层面，对Transformer架构、自注意力机制等底层原理缺乏系统认知，难以应对模型幻觉、长…

顾问咨询

课程分类: 人工智能 | 技术开发

适用人群: 工程师, 专家, 研究员课程标签: LLM原理,Transformer,模型架构

随着ChatGPT等大语言模型的爆发式发展，LLM技术已成为AI领域的重要突破。然而，多数从业者仅停留在应用层面，对Transformer架构、自注意力机制等底层原理缺乏系统认知，难以应对模型幻觉、长文本理解等实际问题。为此，三节课特邀莫敏老师研发本课程。莫老师作为前腾讯高级产品经理、工信部AI认证讲师，深度参与多模态大模型落地实践，擅长将复杂技术原理转化为易懂知识。课程将深入解析：Transformer的自注意力机制如何解决RNN的长程依赖问题；位置编码与词向量嵌入的协同工作原理；编码器-解码器结构在GPT、BERT等模型中的差异化应用。学员将通过案例，掌握LLM的核心工作机制与能力边界。

先导课第一章我们熟知的LLM概念第二章 LLM的底层算法和Transformer的特点第三章 Transformer的原理第四章编码器解码器的变种

莫敏

敏航科技有限公司 ceo

课程详情

探索LLM（大型语言模型）的本质

莫敏