语言模型
-
RedPajama 计划 —— 该计划旨在创建一系列领先的、完全开源的大型语言模型,计划从发布一款基于 GPT-2 的 16 亿参数的模型开始。
RedPajama是一个完全开源的语言模型计划,旨在打造领先的开源模型。该项目第一阶段已完成,复现了LLaMA培训数据集超过1.2万亿个标记。RedPajama的三个关键组成部分包括预训练数据、基础模型和调整数据和模型。研究者可在Github上获取数据预处理和质量筛选的全部内容,并使用Meerkat面板和嵌入版进行交互式分析。RedPajama还将类似于开源项目Stable D…