消息
×
loading..
用于大语言模型的层压缩键值缓存方法、系统、设备及介质
申请号CN202410423760.7
2024-06-25
公开(公告)号CN118246485A
公开日期2024-06-25
摘要本申请提供一种用于大语言模型的层压缩键值缓存方法、系统、设备及介质,该方法包括:对大语言模型中每个神经网络层的注意力矩阵的对角线元素进行置零;然后将大语言模型中的神经网络层分为模型底层、模型中间层和模型顶层,并对模型底层的网络结构、模型顶层的网络结构进行调整,以使模型底层的网络结构、模型顶层的网络结构均与预设网络结构相同;再对模型中间层进行调整,以使模型中间层在计算注意力矩阵时只使用模型中间层顶层的键值。由此可知,在大语言模型中,本申请通过对键值缓存进行层压缩,只需要计算和缓存少量层的键值,在不引入额外计算开销的情况下,能够大大地节省GPU内存消耗,有效提高了大语言模型的推理吞吐量。
当前权利人上海科技大学
专利代理人唐勇
代理机构上海汉之律师事务所 31378
专利申请人上海科技大学
公开国别中国
公开国别简称CN
IPC 分类号G06N3//045; G06N3//084; G06N5//04; G06N3//082
专利有效性审中
专利类型发明申请
专利类型字典1
当前法律状态实质审查
简单同族CN118246485A
扩展同族CN118246485A
INPADOC 同族CN118246485A
文献类型专利
条目标识符https://kms.shanghaitech.edu.cn/handle/2MSLDSTB/392917
专题信息科学与技术学院_PI研究组_屠可伟组
作者单位
上海科技大学
推荐引用方式
GB/T 7714
屠可伟,吴昊一. 用于大语言模型的层压缩键值缓存方法、系统、设备及介质. CN202410423760.7[P]. 2024-06-25.
条目包含的文件
文件名称/大小 文献类型 版本类型 开放类型 使用许可
个性服务
查看访问统计
谷歌学术
谷歌学术中相似的文章
[屠可伟]的文章
[吴昊一]的文章
百度学术
百度学术中相似的文章
[屠可伟]的文章
[吴昊一]的文章
必应学术
必应学术中相似的文章
[屠可伟]的文章
[吴昊一]的文章
相关权益政策
暂无数据
收藏/分享
所有评论 (0)
暂无评论
 

除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。