| 用于大语言模型的层压缩键值缓存方法、系统、设备及介质 |
申请号 | CN202410423760.7
|
| 2024-06-25
|
公开(公告)号 | CN118246485A
|
公开日期 | 2024-06-25
|
摘要 | 本申请提供一种用于大语言模型的层压缩键值缓存方法、系统、设备及介质,该方法包括:对大语言模型中每个神经网络层的注意力矩阵的对角线元素进行置零;然后将大语言模型中的神经网络层分为模型底层、模型中间层和模型顶层,并对模型底层的网络结构、模型顶层的网络结构进行调整,以使模型底层的网络结构、模型顶层的网络结构均与预设网络结构相同;再对模型中间层进行调整,以使模型中间层在计算注意力矩阵时只使用模型中间层顶层的键值。由此可知,在大语言模型中,本申请通过对键值缓存进行层压缩,只需要计算和缓存少量层的键值,在不引入额外计算开销的情况下,能够大大地节省GPU内存消耗,有效提高了大语言模型的推理吞吐量。 |
当前权利人 | 上海科技大学
|
专利代理人 | 唐勇
|
代理机构 | 上海汉之律师事务所 31378
|
专利申请人 | 上海科技大学
|
| |
公开国别 | 中国
|
公开国别简称 | CN
|
IPC 分类号 | G06N3//045; G06N3//084; G06N5//04; G06N3//082
|
专利有效性 | 审中
|
专利类型 | 发明申请
|
专利类型字典 | 1
|
当前法律状态 | 实质审查
|
简单同族 | CN118246485A
|
扩展同族 | CN118246485A
|
INPADOC 同族 | CN118246485A
|
文献类型 | 专利
|
条目标识符 | https://kms.shanghaitech.edu.cn/handle/2MSLDSTB/392917
|
专题 | 信息科学与技术学院_PI研究组_屠可伟组
|
作者单位 | 上海科技大学
|
推荐引用方式 GB/T 7714 |
屠可伟,吴昊一. 用于大语言模型的层压缩键值缓存方法、系统、设备及介质. CN202410423760.7[P]. 2024-06-25.
|
修改评论
除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。