编程技术分享平台

网站首页 > 技术教程 正文

本地!一条指令部署glm-4-9b!高并发OpenAI API格式!附模型下载

xnh888 2024-10-29 17:37:42 技术教程 201 ℃ 0 评论

文章链接:https://mp.weixin.qq.com/s/3wG8x8gnxwZWvkWXu6ykCQ

昨天智谱发布了GLM4-9B开源大模型,同步有多模态版本!

第一时间下载测试!并还没开始跑测试任务,整体看来,超越Llama3的!

看完他整个官方成绩单,只想知道是如何测试的(全绿)

一看他这个长文本生成分数,更是....

在会员群里,已经有很多伙伴跑起来测试了!

看一下Will Liang和阿豪的测试!

晚些会给持续加压,测试一下他综合能力如何!

但,这!不是今天主题!

今天我们要动手把他在本地部署下来!

并且!实现高并发!同时是OpenAI API格式,方便任务调用!

末尾!附上glm4-9b大模型的网盘下载!

人的专注力只有10分钟!话不多说,直接开干!

环境说明

操作系统:win11 wsl2

部署框架:vllm

环境:miniconda

Python:3.10

cuda:12.2

pytorch:2.1.2

打开小企鹅,进入wsl!

如果没有安装wsl的,自行搜索解决!

创建miniconda环境!

指定名字“vllm”,Python版本3.10!

conda create --name vllm python=3.10


先激活conda环境!

这个环境是独立的!

conda activate vllm


设置环境变量,自动去魔搭下载!(国内网)

这也是模型读取路径,如果不设置,就回去hugging face下载!

export VLLM_USE_MODELSCOPE=True


安装依赖!

vllm+魔搭+transformers

这里我指定使用官方源,避免改源的伙伴下载失败!

pip install vllm modelscope transformers --index-url https://pypi.org/simple

一键部署!

第一次运行,他会自动去魔搭下载模型!

以后就不用了!

如果你已经有模型,自己把下方路径改为本地绝对路径!

python -m vllm.entrypoints.openai.api_server \
    --model ZhipuAI/glm-4-9b-chat \
    --tokenizer ZhipuAI/glm-4-9b-chat \
    --served-model-name glm-4-9b-chat \
    --max-model-len 8192 \
    --gpu-memory-utilization 1 \
    --tensor-parallel-size 1 \
    --max-parallel-loading-workers 2 \
    --trust-remote-code \
    --enforce-eager


部署成功!

在8000端口,你只需要把这个端口接入到任务中即可使用!

dify、fastgpt等,OpenAI API格式的,均可!

就如此简单!


glm4-9b的下载:

chat版本:

网盘:https://www.123pan.com/s/nX5VVv-2QMsA.html 提取码:0Vgm

git:git clone https://www.modelscope.cn/ZhipuAI/glm-4-9b-chat.git

多模态版本:

网盘:https://www.123pan.com/s/nX5VVv-nQMsA.html 提取码:NHqf

git:git clone https://www.modelscope.cn/ZhipuAI/glm-4v-9b.git

Tags:

本文暂时没有评论,来添加一个吧(●'◡'●)

欢迎 发表评论:

最近发表
标签列表