ChatGPT原理与架构

来自孔夫子网的图片

《ChatGPT原理与架构》，副标题：大模型的预训练、迁移和中间件编程，程戈著，出版社：机械工业出版社。

机械工业出版社成立于1950年，是建国后国家设立的第一家科技出版社，前身为科学技术出版社，1952年更名为机械工业出版社^[1]。机械工业出版社（以下简称机工社）由机械工业信息研究院作为主办单位，目前隶属于国务院国资委^[2]。

内容简介

这是一本深入阐述ChatGPT等大模型的工作原理、运行机制、架构设计和底层技术，以及预训练、迁移、微调和中间件编程的著作。它将帮助我们从理论角度全面理解大模型，从实践角度更好地应用大模型，是作者成功训练并部署大模型的过程复盘和经验总结。第1章介绍了ChatGPT等大模型的发展历程、技术演化和技术栈等基础知识；第2~5章深入讲解了Transformer的架构原理，并从GPT-1的生成式预训练到GPT-3的稀疏注意力机制详细描述了GPT系列的架构演进；6~8章从底层技术实现的角度讲解了大语言模型的训练策略、数据处理方法，以及如何利用策略优化和人类反馈来进一步提升模型的表现；第9~10章首先详细讲解了大语言模型在垂直领域的低算力迁移方法，并给出了医疗和司法领域的迁移案例，然后讲解了大模型的中间件编程；第11章对GPT的未来发展趋势进行预测，探讨数据资源、自回归模型的局限性，以及大语言等

参考文献

↑ 中国十大出版社-出版社品牌排行榜，买购网
↑ 企业简介，机械工业出版社

[1] 中国十大出版社-出版社品牌排行榜，买购网

[2] 企业简介，机械工业出版社

[1]

[2]

求真百科

ChatGPT原理与架构

目录

内容简介

目录

参考文献