探索LLM(大型语言模型)的本质

探索LLM(大型语言模型)的本质

59分钟

随着ChatGPT等大语言模型的爆发式发展,LLM技术已成为AI领域的重要突破。然而,多数从业者仅停留在应用层面,对Transformer架构、自注意力机制等底层原理缺乏系统认知,难以应对模型幻觉、长…

随着ChatGPT等大语言模型的爆发式发展,LLM技术已成为AI领域的重要突破。然而,多数从业者仅停留在应用层面,对Transformer架构、自注意力机制等底层原理缺乏系统认知,难以应对模型幻觉、长文本理解等实际问题。 ​​为此,三节课特邀莫敏老师研发本课程​​。莫老师作为前腾讯高级产品经理、工信部AI认证讲师,深度参与多模态大模型落地实践,擅长将复杂技术原理转化为易懂知识。 ​​课程将深入解析​​:Transformer的自注意力机制如何解决RNN的长程依赖问题;位置编码与词向量嵌入的协同工作原理;编码器-解码器结构在GPT、BERT等模型中的差异化应用。学员将通过案例,掌握LLM的核心工作机制与能力边界。
先导课 第一章 我们熟知的LLM概念 第二章 LLM的底层算法和Transformer的特点 第三章 Transformer的原理 第四章 编码器解码器的变种
莫敏
莫敏

敏航科技有限公司 ceo