文章目录llama-serverllama.cpp核心启动参数一、基础帮助/版本二、模型加载**必填核心**三、上下文与推理性能四、HTTP服务配置五、生成采样文本生成参数六、日志与调试常用启动示例环境变量替代llama-serverllama.cpp核心启动参数以下是llama-serverllama.cpp官方HTTP推理服务的全部常用/核心启动参数含短格式、长格式、默认值、环境变量与说明按功能分组整理。一、基础帮助/版本-h, --help, --usage显示帮助并退出--version显示版本与构建信息--list-devices列出可用计算设备GPU并退出--completion-bash输出bash自动补全脚本二、模型加载必填核心-m, --model FNAME必须指定GGUF模型路径如./model.gguf--lora FNAME加载LoRA适配器可重复多LoRA--lora-scaled FNAME SCALE带缩放系数的LoRA--mlock强制模型常驻内存、禁止swap--no-mmap禁用内存映射加载慢、减少页交换-ngl, --gpu-layers NGPU卸载层数0全CPU推荐20~99--split-mode {none,layer,row}多GPU拆分模式默认layer--tensor-split N0,N1,...多GPU显存分配比例如9,1--main-gpu INDEX主GPU索引默认0--mmproj FILE多模态投影文件视觉模型三、上下文与推理性能-c, --ctx-size N上下文窗口token默认40960模型默认-b, --batch-size N逻辑批大小默认2048-ub, --ubatch-size N物理批大小默认512-t, --threads N推理CPU线程默认CPU核心数-tb, --threads-batch N批处理/提示线程默认同-t--flash-attn启用Flash Attention加速--cont-batching启用连续批处理动态批默认开启-nocb, --no-cont-batching禁用连续批--cache-type-k/v TYPEKV缓存精度f16/q8_0等默认f16--rope-scaling {none,linear,yarn}RoPE缩放扩展上下文--rope-scale NRoPE缩放系数四、HTTP服务配置--host HOST监听地址默认127.0.0.1公网用0.0.0.0--port PORT监听端口默认8080--api-key KEYAPI密钥鉴权--api-key-file FNAME从文件加载多密钥--no-webui禁用内置Web UI--embedding仅启用嵌入Embedding模式--reranking启用重排序端点--timeout N请求超时秒默认600--threads-http NHTTP处理线程默认-1自动--ssl-key/cert-fileHTTPS证书/密钥--metrics启用Prometheus监控端点五、生成采样文本生成参数--temp N温度默认0.8越低越确定--top-k NTop-K采样默认400禁用--top-p NTop-P核采样默认0.95--min-p N最小概率阈值默认0.05--presence/frequency-penalty N重复惩罚默认0--n-predict N最大生成token默认-1无限--ignore-eos忽略结束符、强制继续生成--seed SEED随机种子默认-1随机--grammar GRAMMARBNF语法约束生成--json-schema SCHEMAJSON Schema格式约束六、日志与调试-v, --verbose详细日志--log-file FNAME日志输出到文件--log-disable禁用日志--no-perf关闭内部性能计时常用启动示例# 基础启动CPU本地访问./llama-server-m./qwen-7b-q4_k_m.gguf-c4096-t8--port8080# GPU加速、公网访问、API密钥./llama-server-m./llama3-8b-q4.gguf-ngl35-c8192--host0.0.0.0--port8080--api-key mysecretkey# 嵌入模式、禁用WebUI./llama-server-m./bge-m3.gguf--embedding--no-webui-c8192环境变量替代大部分参数可通过LLAMA_ARG_*环境变量设置优先级低于命令行LLAMA_ARG_MODEL./model.ggufLLAMA_ARG_CTX_SIZE8192LLAMA_ARG_PORT8080https://github.com/ADT109119/llamacpp-distributed-inference?tabreadme-ov-file