Qwen3.5-9B生产环境部署:Supervisor自动重启+日志监控实战
Qwen3.5-9B生产环境部署Supervisor自动重启日志监控实战1. 项目概述Qwen3.5-9B是一款拥有90亿参数的开源大语言模型具备强大的逻辑推理、代码生成和多轮对话能力。其多模态变体Qwen3.5-9B-VL支持图文输入理解并能够处理长达128K tokens的上下文内容。本文将详细介绍如何在生产环境中部署Qwen3.5-9B模型并配置Supervisor实现进程自动重启和日志监控功能。通过这套方案你可以确保模型服务稳定运行即使遇到意外情况也能自动恢复。2. 环境准备2.1 基础环境要求部署Qwen3.5-9B需要以下基础环境Python 3.8Conda环境推荐使用torch28环境CUDA 11.7如需GPU加速至少32GB内存推荐64GB50GB以上磁盘空间用于存储模型权重2.2 关键依赖版本包版本要求说明transformers≥5.0.0支持Qwen3.5模型torch2.8.0GPU支持gradio6.xWeb界面huggingface_hub≥1.3.0模型下载3. 项目结构Qwen3.5-9B的部署目录结构如下/root/qwen3.5-9b/ ├── app.py # 主程序(Gradio WebUI) ├── start.sh # 启动脚本 ├── service.log # 运行日志 └── history.json # 对话历史记录3.1 模型路径配置模型实际存储在以下路径/root/ai-models/Qwen/Qwen3___5-9B为了方便访问我们创建了一个符号链接ln -s /root/ai-models/Qwen/Qwen3___5-9B /root/ai-models/Qwen/Qwen3.5-9B4. Supervisor配置Supervisor是一个进程控制系统可以监控和管理Qwen3.5-9B服务确保其稳定运行。4.1 配置文件创建Supervisor配置文件/etc/supervisor/conf.d/qwen3.5-9b.conf[program:qwen3.5-9b] command/bin/bash /root/qwen3.5-9b/start.sh directory/root/qwen3.5-9b environmentHOME/root,USERroot,LOGNAMEroot,SHELL/bin/bash,PATH/opt/miniconda3/envs/torch28/bin:/usr/bin:/bin userroot autostarttrue autorestarttrue startsecs30 startretries3 redirect_stderrtrue stdout_logfile/root/qwen3.5-9b/service.log stopasgrouptrue killasgrouptrue4.2 关键配置说明autostarttrue系统启动时自动启动服务autorestarttrue进程异常退出时自动重启startsecs30等待30秒确认进程稳定启动PATH指定使用torch28 Conda环境的路径4.3 管理命令# 重新加载Supervisor配置 supervisorctl reread supervisorctl update # 查看服务状态 supervisorctl status qwen3.5-9b # 重启服务 supervisorctl restart qwen3.5-9b # 停止服务 supervisorctl stop qwen3.5-9b5. 日志监控5.1 日志文件位置服务运行日志存储在/root/qwen3.5-9b/service.log5.2 常见日志信息日志信息含义Loading model from...正在加载模型Loading weights: XX%模型权重加载进度Model loaded successfully!模型加载成功Running on local URL: http://127.0.0.1:7860服务已启动5.3 日志查看命令# 查看实时日志 tail -f /root/qwen3.5-9b/service.log # 查看错误日志 grep -i error /root/qwen3.5-9b/service.log # 查看模型加载状态 grep Model loaded /root/qwen3.5-9b/service.log6. 服务访问6.1 访问地址本地访问http://localhost:7860网络访问http://服务器IP:78606.2 功能特性功能说明文本对话支持中英文对话图片上传支持JPEG, PNG, GIF, WEBP等格式图片描述上传图片后可询问图片内容参数调节可调整max_tokens, temperature, top_p, top_k7. 故障排查7.1 服务启动失败排查步骤检查进程状态supervisorctl status qwen3.5-9b查看最新日志supervisorctl tail qwen3.5-9b检查Conda环境是否正常激活conda activate torch28检查模型文件是否存在ls -lh /root/ai-models/Qwen/Qwen3.5-9B7.2 常见问题及解决方案问题1模型加载慢/卡住原因模型文件较大(~19GB)首次加载需要时间解决方案等待2-3分钟让模型完全加载检查GPU是否可用nvidia-smi查看日志确认加载进度问题2端口被占用解决方案# 检查端口占用 ss -tlnp | grep 7860 # 查看哪个进程占用 lsof -i :7860问题3图片上传无响应可能原因图片格式不支持图片文件损坏网络请求超时解决方案尝试较小尺寸的图片转换格式为PNG/JPEG8. 日常维护8.1 清理对话历史rm -f /root/qwen3.5-9b/history.json supervisorctl restart qwen3.5-9b8.2 日志维护# 备份当前日志 cp /root/qwen3.5-9b/service.log /root/qwen3.5-9b/service.log.bak # 清空日志 /root/qwen3.5-9b/service.log # 重启服务 supervisorctl restart qwen3.5-9b8.3 代码更新# 编辑主程序 vim /root/qwen3.5-9b/app.py # 重启服务 supervisorctl restart qwen3.5-9b9. 总结通过本文的部署方案你可以实现稳定运行Supervisor确保服务7×24小时稳定运行自动恢复进程异常退出时自动重启日志监控实时查看服务运行状态和错误信息便捷管理简单的命令即可控制服务状态这套方案特别适合生产环境部署能够有效减少人工干预提高服务可用性。获取更多AI镜像想探索更多AI镜像和应用场景访问 CSDN星图镜像广场提供丰富的预置镜像覆盖大模型推理、图像生成、视频生成、模型微调等多个领域支持一键部署。