弹性容器实例

使用ECI快速部署ChatGLM-6B

2025-10-23 02:27:57

背景信息

ChatGLM-6B 是一个开源的、支持中英双语的对话语言模型,基于 General Language Model架构,具有 62 亿参数。结合模型量化技术,用户可以在消费级的显卡上进行本地部署(INT4 量化级别下最低只需 6GB 显存)。ChatGLM-6B 使用了和 ChatGPT 相似的技术,针对中文问答和对话进行了优化。经过约 1T 标识符的中英双语训练,辅以监督微调、反馈自助、人类反馈强化学习等技术的加持,62 亿参数的 ChatGLM-6B 已经能生成相当符合人类偏好的回答。如果没有GPU硬件的话,也可以在CPU上进行推理,但是推理速度会更慢。

前期准备

  • 已开通天翼云弹性容器实例服务。

  • 天翼云容器镜像服务CRS或私有镜像仓库中已推送开源ChatGLM-6B镜像。

硬件需求

量化等级最低GPU显存无CPU情况下内存需求
INT46GB32GB
INT88GB暂未测试
FP16(无量化)13GB暂未测试


操作步骤

下面将介绍如何在ECI上快速部署ChatGLM-6B的CPU实例并进行推理。

  1. 通过天翼云弹性容器实例订购页面创建ECI实例。

  2. 根据上述硬件需求,配置合适的CPU,内存资源。

  3. 镜像选择开源ChatGLM-6B镜像,并指定镜像版本。

  4. 在容器设置中,配置启动命令”python3 web_demo.py”。

  5. 提交订单,然后回到控制台页面等待ECI实例Running。


1Lx5IaDOvKEP