基于 openEuler 和 vLLM Ascend,DeepSeek-V4 快速上手全攻略!
2026年4月24日,DeepSeek-V4模型正式发布并开源,DeepSeek-V4 拥有百万字超长上下文 ,模型按大小分为两个版本:DeepSeek V4-Pro和DeepSeek V4-Flash 。模型上下文处理长度由原有的128K显著扩展至1M,实现近10倍的容量提升,首次增加了KV Cache滑窗和压缩算法,大幅减少Attention计算和访存开销,并通过模型架构创新更好地支持了Agent和Coding场景。
vLLM 是 PyTorch Foundation 下的开源 LLM 推理引擎,为用户和开发者提供快速、易用的 LLM 推理能力,vLLM-Ascend提供了vLLM对昇腾的支持。本指南将帮助你使用 OpenAtom openEuler(简称:“openEuler”或“开源欧拉”)和 vLLM Ascend 在昇腾上运行DeepSeek-V4。
基于 openEuler 和 vLLM Ascend 如何快速上手DeepSeek-V4?
本指南将采用 vLLM Ascend 的镜像部署的方式,在昇腾 Atlas 800 A3 (128G × 8) 节点上运行DeepSeek-V4。请预先下载好模型,模型存放在 modelscope 上。
modelscope 链接: https://www.modelscope.cn/models/Eco-Tech/DeepSeek-V4-Flash-w8a8-mtp
步骤 1:
在拉起容器镜像前,请先确保昇腾驱动已经正常安装,可使用 npu-smi info 命令进行查看。
步骤 2:
使用如下命令拉起 vLLM Ascend 容器镜像:
(该容器镜像基于openEuler 24.03 LTS版本官方容器镜像,支持ARM及x86架构。)
export IMAGE=quay.io/ascend/vllm-ascend:v0.13.0rc3-a3-openeuler
docker run --rm \
--name vllm-ascend \
--shm-size=1g \
--net=host \
--device /dev/davinci0 \
--device /dev/davinci1 \
--device /dev/davinci2 \
--device /dev/davinci3 \
--device /dev/davinci4 \
--device /dev/davinci5 \
--device /dev/davinci6 \
--device /dev/davinci7 \
--device /dev/davinci8 \
--device /dev/davinci9 \
--device /dev/davinci10 \
--device /dev/davinci11 \
--device /dev/davinci12 \
--device /dev/davinci13 \
--device /dev/davinci14 \
--device /dev/davinci15 \
--device /dev/davinci_manager \
--device /dev/devmm_svm \
--device /dev/hisi_hdc \
-v /usr/local/dcmi:/usr/local/dcmi \
-v /usr/local/Ascend/driver/tools/hccn_tool:/usr/local/Ascend/driver/tools/hccn_tool \
-v /usr/local/bin/npu-smi:/usr/local/bin/npu-smi \
-v /usr/local/Ascend/driver/lib64/:/usr/local/Ascend/driver/lib64/ \
-v /usr/local/Ascend/driver/version.info:/usr/local/Ascend/driver/version.info \
-v /etc/ascend_install.info:/etc/ascend_install.info \
-v /root/.cache:/root/.cache \ -it $IMAGE bash步骤 3:
部署推理服务
export OMP_PROC_BIND=false
export OMP_NUM_THREADS=10
export PYTORCH_NPU_ALLOC_CONF=expandable_segments:True export ACL_OP_INIT_MODE=1
export ASCEND_A3_ENABLE=1export USE_MULTI_BLOCK_POOL=1
export HCCL_BUFFSIZE=1024
export VLLM_ASCEND_ENABLE_FUSED_MC2=1
export VLLM_ASCEND_ENABLE_FLASHCOMM1=1
vllm serve /root/.cache/modelscope/hub/models/Eco-Tech/DeepSeek-V4-Flash-w8a8-mtp \
--host 0.0.0.0 \
--max_model_len 65536 \ --max-num-batched-tokens 8192 \ --served-model-name deepseek_v4 \ --gpu-memory-utilization 0.9 \ --max-num-seqs 16 \
--data-parallel-size 2 \ --tensor-parallel-size 8 \ --enable-expert-parallel \
--quantization ascend \
--port 8005 \
--block-size 128 \
--async-scheduling \
--compilation-config '{"cudagraph_mode": "FULL_DECODE_ONLY"}'\
--speculative-config '{"num_speculative_tokens": 1,"method": "deepseek_mtp"}' \
--additional-config '{"enable_cpu_binding": "true","multistream_overlap_shared_expert": false}'步骤 4:
验证:待服务启动后,通过 curl 命令发送请求来验证是否部署成功
# 请将以下`node_ip`替换成当前昇腾节点的IP
curl http://<node_ip>:<port>/v1/chat/completions \
-H "Content-Type: application/json" \
-d '{
"model": "deepseek_v4",
"messages": [
{
"role": "user",
"content": "Who are you?"
}
],
"max_tokens": 256,
"temperature": 0
}'



