自然语言理解预训练模型

模型框架

智源提出1bit自然语言理解预训练模型BiPFT

智源团队提出了一种名为BiPFT的1bit轻量化预训练模型，用于自然语言理解任务。与标准的FP32模型相比，BiPFT在推理阶段节省了56倍的操作数量和28倍的内存。与其他1bit模型相比，BiPFT在学习和泛化能力上有显著提升，并在GLUE标准测试集上表现出更好的性能。此外，BiPFT还通过对自注意力操作的量化误差进行参数化，减少了量化损失。实验结果显示，BiPFT在下游任务…

2024年1月12日