前言各位云原生入门的小伙伴,欢迎继续跟进《云原生入门系列》专栏!上一集我们掌握了生产级运维最佳实践,通过规范配置、管控资源、安全防护和日常巡检,实现了集群的稳定运行,完成了从“被动排查”到“主动运维”的升级。但生产环境中,集群面临两大核心挑战:一是业务增长导致资源不足,需要通过扩容满足流量需求;二是突发故障(如节点崩溃、数据丢失),需要通过灾备方案减少损失。今天第18集,我们聚焦集群扩容与灾备两大核心能力,不聊复杂架构,只讲新手能直接落地的实操方法,覆盖应用扩容、节点扩容、数据灾备三大模块,帮大家筑牢生产级集群的安全防线,从容应对业务增长和突发故障。一、应用扩容:应对业务流量增长(高频操作)当业务流量增加时,单个Pod或少量副本无法承载请求,会导致应用响应缓慢、甚至崩溃,应用扩容是应对流量变化的核心操作,新手重点掌握手动扩容和自动扩容两种方式,兼顾灵活与高效。1. 手动扩容(简单直接,按需调整)手动扩容适合流量波动可预测的场景(如活动峰值、固定时段流量增长),操作简单,直接调整Pod副本数即可,核心命令和配置两种方式:① 命令方式(快速生效):kubectl scale deployment/应用名称 --replicas=5(将Pod副本数调整为5个);② 配置方式(推荐,长期生效):修改Deployment配置文件,调整replicas参数,再执行kubectl apply -f 配置文件.yaml:spec:replicas: 5 # 副本数根据流量需求调整,生产推荐3-8个关键提醒:扩容后需用kubectl get pods查看Pod状