论文:「DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning」
https://arxiv.org/pdf/2501.12948 读后感(2):
会津大学 计算机理工学部 名誉教授 生成AI学塾塾长 程子学
1. 什么是AI模型的蒸留?
在AI的发展过程中,「模型蒸留(Distillation)」被认为是重要的技术之一。蒸留是一种方法,可以将大规模语言模型(LLM)的知识和推理能力高效地转移到小型模型。这不仅仅是让模型变小,而是让小型模型尽可能接近大规模模型的智能水平,实现更强的理解和推理能力。通过这种方式,可以开发出更节能的AI,并能够在本地计算机上运行。
蒸留技术最早由 Geoffrey Hinton、Oriol Vinyals 和 Jeffrey Dean 于2015年发表的论文 “Distilling the Knowledge in a Neural Network”(https://arxiv.org/abs/1503.02531)提出。该论文展示了一种方法,使复杂的「教师模型」的知识可以被转移到更简洁的「学生模型」中。学生模型通过模仿教师模型的输出,在保持性能的同时实现模型的轻量化。这一技术能够减少计算资源的消耗,提高推理速度,特别适用于资源受限的环境和需要实时处理的应用。
蒸留技术有多个优势:
- 减少计算资源的消耗:大规模模型通常需要庞大的计算资源,运行时需要高性能GPU或云环境。而蒸留后的小型模型可以以更低的成本运行,大大降低企业和个人使用AI的门槛。
- 可在本地环境执行:相比依赖云端计算,能够在本地设备上运行的蒸留模型在隐私保护方面更具优势。特别是在医疗或涉及机密信息的领域,数据无需上传至云端,即可利用AI进行分析和决策。
- 推动AI的普及:如果能够开发出低成本、节能,并且具有接近大规模LLM推理能力的小型模型,AI的社会落地将进一步加速。
然而,蒸留技术也带来了新的挑战,例如信息损失和版权问题。因此,在AI技术的未来发展中,关键问题不再是「蒸留是好是坏」,而是「如何正确利用蒸留技术」。
2. 关于 DeepSeek 的蒸留
DeepSeek-R1-Zero 采用了纯强化学习(RL),不使用监督微调(SFT)进行训练。因此,它没有使用蒸留方法。而 DeepSeek-R1 在强化学习前加入了冷启动数据(Cold Start Data),克服了训练初期的不稳定性,提高了性能。
另一方面,DeepSeek 积极利用了蒸留技术,使得 DeepSeek-R1 的知识可以作为教师模型,指导 6 个小型模型进行训练,从而在减少计算资源消耗的同时,实现高效的推理能力。实验表明,这些小型模型在数学问题求解、编程任务的正确率,某些特定任务上,可以达到甚至超越大规模模型的性能。
3. DeepSeek 的蒸留正在全球范围扩展
目前,作为开源项目的 DeepSeek 已在将要被世界各地广泛应用。例如:
- 研究者们基于 DeepSeek 开发了针对特定语言和文化的定制化模型;
- 结合专业领域数据,构建了具有更高语言理解和回答精度的模型;
- 在教育领域,针对个性化学习风格开发了轻量化的 AI 模型。
此外,由于蒸留后的模型可以在本地设备上运行,不需要云计算支持,因此在网络连接受限的地区或计算资源有限的环境中尤为重要。例如:
- 发展中国家的医疗支持 AI:帮助医生快速诊断病情,提高诊疗效率。
- 面向本地企业的自动应答系统:提供低成本、安全和高效的商业AI解决方案。
由东京大学孵化的 AI 初创公司 Lightblue 基于 DeepSeek-R1 的蒸留模型「DeepSeek-R1-Distill-Qwen-7B」 进行了日语领域的额外训练,并发布了 「Lightblue/DeepSeek-R1-Distill-Qwen-7B-Japanese」。这一模型能够稳定地生成日语文本,并预计将被广泛应用于日本文化的理解和发展中。
4. Lifelong Distillation(终身蒸留)技术的进展:在实际应用中持续学习与进化
近期的研究表明,Lifelong Distillation(终身蒸留) 已成为持续学习的关键技术。例如,在综述论文 “A survey on knowledge distillation: Recent advancements*1“ 中,介绍了多种 Lifelong Distillation 技术。
与传统的知识蒸留不同,Lifelong Distillation 的特点在于:
- 初始模型经过蒸留后,在推理和应用过程中,可以从反馈中学习;
- 适应新的任务和环境,同时保持已有知识;
- 关键问题在于「如何在保持旧知识的同时,适应新任务」。
例如,“Single-Head Lifelong Learning Based on Distilling Knowledge*2“(IEEE Access 2022) 就是其中一个代表性研究。
Lifelong Distillation 的应用前景
- AI 助手:持续学习用户的兴趣和偏好,提供更加个性化的建议。例如,在教育领域,终身蒸留技术可以用于开发个性化的学生学习助手。
- 自动驾驶:通过实时学习驾驶数据,持续优化驾驶技能,使自动驾驶系统适应不断变化的交通环境。
- 医疗 AI:分析患者的诊疗数据,在保持历史医疗知识的同时,吸收最新的医学发现,提高诊断和治疗方案的精准度。
日本的Sakana.ai 开发了独特的知识蒸留技术 「TAID(Temporally Adaptive Interpolated Distillation)」,实现了更高效的知识蒸留。TAID 通过根据学习进度动态调整教师模型,使学生模型能够以最佳速度吸收新知识。借助这一方法,Sakana.ai 的「TinySwallow-1.5B」能够在资源受限的环境下实现高精度推理,并可在移动设备上运行,成为 Small Language Model(SLM)。
Lifelong Distillation 的普及将使 AI 能够在长期运行中不断优化,提供更加智能化的用户体验。在未来,如何更高效地利用终身蒸留,将成为 AI 进化的重要课题。
*1:Amir Moslemi, et al.,” A survey on knowledge distillation: Recent advancements,” Machine Learning with Applications Volume 18, December 2024, 100605
*2:Y.H. Wang, C.Y. Lin, T. Thaipisutikul, T.K. Shih,”Single-head lifelong learning based on distilling knowledge,” IEEE Access, 10 (2022), pp. 35469-35478
*3:本文章曾使用 chatGPT-4o Deepseek-R1 推敲用词和文章修改