推理提速42% 清华团队发布ChatGLM2-6B
发布时间:2023-07-07 09:44:22 来源:人民邮电报


(相关资料图)

日前,清华大学KEG和数据挖掘小组(THUDM)发布了大语言模型ChatGLM2-6B。该模型是开源中英双语对话模型ChatGLM-6B的第二代版本,在保留了初代模型对话流畅、部署门槛较低等众多特性的基础上,推理速度提升了42%,上下文长度(Context Length)由2K扩展到了32K。

据了解,ChatGLM2-6B的基座模型使用了GLM模型的混合目标函数,在1.4万亿中英文tokens数据集上训练,并做了模型对齐,性能比第一代有了很大提升。在上下文支持方面,基于FlashAttention技术,基座模型的上下文长度由ChatGLM-6B的2K扩展到了32K,并在对话阶段使用8K的上下文长度训练,允许更多轮次的对话。在推理速度和资源使用效率方面,模型使用了Multi-Query Attention技术,能够实现高效推理和更低的显存占用。在官方的模型实现下,推理速度相比初代提升了42%,INT4量化下,6G显存支持的对话长度由1K提升到了8K。

根据清华大学KEG和数据挖掘小组(THUDM)的官方说明,ChatGLM2-6B权重对学术研究完全开放,在获得官方的书面许可后,亦允许商业使用。这是比第一代模型更加开放的协议,也是对国内外研究者和开发者的一种支持与鼓励。 

标签:

X 关闭

X 关闭