| |||||||
ShanghaiTech University Knowledge Management System
基于联邦分割学习与低秩适应的RoBERTa预训练模型微调方法 | |
其他题名 | Fine-Tuning Method for Pre-trained Model RoBERTa Based on Federated Split Learning and Low-Rank Adaptation |
2024-05-15 | |
发表期刊 | 数据采集与处理 |
ISSN | 1004-9037 |
卷号 | 39期号:03页码:577-587 |
发表状态 | 已发表 |
DOI | 10.16337/j.1004-9037.2024.03.006 |
摘要 | 微调后的大语言模型(Large language models, LLMs)在多任务中表现出色,但集中式训练存在用户隐私泄漏的风险。联邦学习(Federated learning, FL)通过本地训练避免了数据共享,但LLMs庞大的参数量对资源受限的设备和通信带宽构成挑战,导致在边缘网络中部署困难。结合分割学习(Split learning, SL),联邦分割学习可以有效解决这一问题。基于模型深层权重的影响更为显著,以及对部分层的训练准确率略低于整体模型训练的发现,本文按照Transformer层对模型进行分割,同时引入低秩适应(Low-rank adaption, LoRA)进一步降低资源开销和提升安全性。因此,在设备端,仅对最后几层进行低秩适应和训练,然后上传至服务器进行聚合。为了降低开销并保证模型性能,本文提出了基于联邦分割学习与LoRA的RoBERTa预训练模型微调方法。通过联合优化边缘设备的计算频率和模型微调的秩,在资源受限的情况下最大化秩,提高模型的准确率。仿真结果显示,仅训练LLMs最后3层的情况下,在一定范围内(1~32)增加秩的取值可以提高模型的准确率。同时,增大模型每轮的容忍时延和设备的能量阈值可以进一步提升模型的准确率。 |
关键词 | 大语言模型 低秩适应 联邦学习 分割学习 联合优化 |
URL | 查看原文 |
收录类别 | CSCD ; 中国科技核心期刊 ; 北大核心 |
语种 | 中文 |
原始文献类型 | 学术期刊 |
来源库 | CNKI |
中图分类号 | TP309;TP18 |
文献类型 | 期刊论文 |
条目标识符 | https://kms.shanghaitech.edu.cn/handle/2MSLDSTB/407306 |
专题 | 信息科学与技术学院 信息科学与技术学院_硕士生 信息科学与技术学院_PI研究组_文鼎柱组 |
通讯作者 | 文鼎柱 |
作者单位 | 上海科技大学信息科学与技术学院 |
第一作者单位 | 信息科学与技术学院 |
通讯作者单位 | 信息科学与技术学院 |
第一作者的第一单位 | 信息科学与技术学院 |
推荐引用方式 GB/T 7714 | 谢思静,文鼎柱. 基于联邦分割学习与低秩适应的RoBERTa预训练模型微调方法[J]. 数据采集与处理,2024,39(03):577-587. |
APA | 谢思静,&文鼎柱.(2024).基于联邦分割学习与低秩适应的RoBERTa预训练模型微调方法.数据采集与处理,39(03),577-587. |
MLA | 谢思静,et al."基于联邦分割学习与低秩适应的RoBERTa预训练模型微调方法".数据采集与处理 39.03(2024):577-587. |
条目包含的文件 | ||||||
文件名称/大小 | 文献类型 | 版本类型 | 开放类型 | 使用许可 |
个性服务 |
查看访问统计 |
谷歌学术 |
谷歌学术中相似的文章 |
[谢思静]的文章 |
[文鼎柱]的文章 |
百度学术 |
百度学术中相似的文章 |
[谢思静]的文章 |
[文鼎柱]的文章 |
必应学术 |
必应学术中相似的文章 |
[谢思静]的文章 |
[文鼎柱]的文章 |
相关权益政策 |
暂无数据 |
收藏/分享 |
修改评论
除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。