基于联邦分割学习与低秩适应的RoBERTa预训练模型微调方法

doi:10.16337/j.1004-9037.2024.03.006

	基于联邦分割学习与低秩适应的RoBERTa预训练模型微调方法
其他题名	Fine-Tuning Method for Pre-trained Model RoBERTa Based on Federated Split Learning and Low-Rank Adaptation
	谢思静; 文鼎柱
	2024-05-15
发表期刊	数据采集与处理
ISSN	1004-9037
卷号	39 期号:03 页码:577-587
发表状态	已发表
DOI	10.16337/j.1004-9037.2024.03.006
摘要	微调后的大语言模型（Large language models, LLMs）在多任务中表现出色，但集中式训练存在用户隐私泄漏的风险。联邦学习（Federated learning, FL）通过本地训练避免了数据共享，但LLMs庞大的参数量对资源受限的设备和通信带宽构成挑战，导致在边缘网络中部署困难。结合分割学习（Split learning, SL），联邦分割学习可以有效解决这一问题。基于模型深层权重的影响更为显著，以及对部分层的训练准确率略低于整体模型训练的发现，本文按照Transformer层对模型进行分割，同时引入低秩适应（Low-rank adaption, LoRA）进一步降低资源开销和提升安全性。因此，在设备端，仅对最后几层进行低秩适应和训练，然后上传至服务器进行聚合。为了降低开销并保证模型性能，本文提出了基于联邦分割学习与LoRA的RoBERTa预训练模型微调方法。通过联合优化边缘设备的计算频率和模型微调的秩，在资源受限的情况下最大化秩，提高模型的准确率。仿真结果显示，仅训练LLMs最后3层的情况下，在一定范围内（1～32）增加秩的取值可以提高模型的准确率。同时，增大模型每轮的容忍时延和设备的能量阈值可以进一步提升模型的准确率。
关键词	大语言模型低秩适应联邦学习分割学习联合优化
URL	查看原文
收录类别	CSCD ; 中国科技核心期刊 ; 北大核心
语种	中文
原始文献类型	学术期刊
来源库	CNKI
中图分类号	TP309;TP18
文献类型	期刊论文
条目标识符	https://kms.shanghaitech.edu.cn/handle/2MSLDSTB/407306
专题	信息科学与技术学院信息科学与技术学院_硕士生信息科学与技术学院_PI研究组_文鼎柱组
通讯作者	文鼎柱
作者单位	上海科技大学信息科学与技术学院
第一作者单位	信息科学与技术学院
通讯作者单位	信息科学与技术学院
第一作者的第一单位	信息科学与技术学院
推荐引用方式 GB/T 7714	谢思静,文鼎柱. 基于联邦分割学习与低秩适应的RoBERTa预训练模型微调方法[J]. 数据采集与处理,2024,39(03):577-587.
APA	谢思静,&文鼎柱.(2024).基于联邦分割学习与低秩适应的RoBERTa预训练模型微调方法.数据采集与处理,39(03),577-587.
MLA	谢思静,et al."基于联邦分割学习与低秩适应的RoBERTa预训练模型微调方法".数据采集与处理 39.03(2024):577-587.