ChenpiSaku的博客

如何赋予大语言模型以“灵魂”?深度解析增量预训练(Continual Pre-training)逻辑与实战代码

知求木之长者,必固其根本;欲流之远者,必浚其泉源。 大语言模型的出现,彻底改变了数据的宿命,原本只能躺在硬盘里吃灰的存档、记录,如今转化为了能够用于训练大模型、让大模型理解专业化领域的“智慧之果”。 所以怎么使用这些数据?是采用 RAG 技术增强检索?还是通过增量预训练注入知识?抑或是利用微调提升任务表现?到底该怎么选?我将开设一系列专栏记录我在学习过程中遇到的难题与思考,从核心概念到...