用Verilog手搓一个多周期CPU：从状态机到模块联调的全流程避坑指南

张

张建站

2026/4/22 16:20:25

10分钟阅读

用Verilog手搓一个多周期CPU从状态机到模块联调的全流程避坑指南第一次在FPGA上点亮LED的兴奋感还没消退我就被计算机组成原理课程的多周期CPU实验难住了。看着教材上那些抽象的状态转移图和模块框图我意识到纸上谈兵和实际动手之间隔着一道鸿沟——直到我决定用Verilog从零开始实现一个真正的多周期处理器。本文将分享这个过程中积累的实战经验特别聚焦于如何将理论图示转化为可运行的硬件描述代码以及调试时那些教科书不会告诉你的坑点。1. 多周期CPU设计核心思想拆解1.1 周期划分的底层逻辑与单周期CPU不同多周期设计将指令执行分解为多个阶段。这种设计的关键优势在于时钟周期优化以最耗时的阶段通常是存储器访问为基准确定时钟周期资源共享ALU等关键部件可以在不同阶段被不同指令复用流水线预备为后续升级为流水线CPU奠定基础典型五阶段划分及其硬件行为阶段简称主要操作关键控制信号取指IF从IM读取指令PC4PCWre, IF_clk译码ID解析指令读取寄存器RegDst, ID_clk执行EXEALU运算或地址计算ALUSrc, ALUctr访存MEM数据存储器读写MemWr, MEM_clk写回WB结果写入寄存器文件RegWr, MemorReg1.2 状态机设计的实用技巧教材上的状态转移图往往过于理想化实际编码时需要特别注意// 状态编码示例独热码更适合FPGA实现 parameter [4:0] S_IDLE 5b00001; parameter [4:0] S_FETCH 5b00010; parameter [4:0] S_DECODE 5b00100; parameter [4:0] S_EXEC 5b01000; parameter [4:0] S_WB 5b10000; // 状态转移逻辑应放在单独的always块 always (posedge clk or posedge rst) begin if(rst) state S_IDLE; else case(state) S_IDLE: state S_FETCH; S_FETCH: state S_DECODE; // ...其他状态转移 endcase end提示使用独热码编码状态虽然占用更多触发器但能减少组合逻辑延迟在FPGA上通常能获得更好的时序性能。2. 关键模块实现细节2.1 智能化的PC控制模块PCctr模块需要处理三种地址计算场景顺序执行PC4条件分支beq指令直接跳转jump指令module PCctr( input [25:0] imm, input Branch, Jump, Zero, PCWre, input [31:0] pc_in, output reg [31:0] pc_out ); always (*) begin if(Jump) pc_out {pc_in[31:28], imm, 2b00}; // 拼接跳转地址 else if(Branch Zero) pc_out pc_in {{14{imm[15]}}, imm[15:0], 2b00}; // 符号扩展偏移 else if(PCWre) pc_out pc_in 4; // 默认情况 end endmodule常见坑点跳转地址忘记左移2位×4对齐分支偏移量符号扩展错误PC更新使能信号(PCWre)时序不当导致意外跳转2.2 控制单元的状态协同控制单元是CPU的大脑需要精确协调各阶段动作。推荐采用分布式控制信号生成策略// 控制信号生成逻辑示例 always (state or Opcode) begin case(state) S_DECODE: begin RegDst (Opcode R_TYPE); ALUSrc (Opcode LW || Opcode SW); // ...其他信号 end S_EXEC: begin case(Opcode) R_TYPE: ALUctr func_to_alu(func); BEQ: ALUctr ALU_SUB; // ...其他指令 endcase end endcase end关键设计决策集中式vs分布式控制简单CPU适合集中式复杂指令集建议分布式状态编码二进制编码节省资源独热码改善时序异常处理预留非法指令检测接口3. 数据通路的精妙设计3.1 寄存器文件的读写策略寄存器文件需要处理两个读端口和一个写端口的并发访问module RegisterFile( input WB_clk, RegWr, input [4:0] Ra, Rb, Rc, input [31:0] busW, output reg [31:0] busA, busB ); reg [31:0] regs[0:31]; // 异步读 always (*) begin busA (Ra ! 0) ? regs[Ra] : 0; // $zero寄存器特殊处理 busB (Rb ! 0) ? regs[Rb] : 0; end // 同步写 always (posedge WB_clk) begin if(RegWr Rc ! 0) regs[Rc] busW; end endmodule注意MIPS架构中$zero寄存器应恒为0需要在硬件层面特殊处理写操作。3.2 ALU的灵活配置32位ALU需要支持多种运算模式推荐采用层次化设计module ALU32( input [31:0] A, B, input [2:0] ALUctr, output reg [31:0] Result, output Zero ); wire [31:0] add_res A B; wire [31:0] sub_res A - B; wire [31:0] slt_res ($signed(A) $signed(B)) ? 1 : 0; always (*) begin case(ALUctr) ALU_ADD: Result add_res; ALU_SUB: Result sub_res; ALU_SLT: Result slt_res; // ...其他操作 endcase end assign Zero (Result 0); endmodule性能优化技巧进位选择加法器(Carry-select Adder)可提高加法速度零标志生成应独立于ALUctr选择逻辑组合逻辑路径不宜过长必要时插入流水线寄存器4. 调试与验证实战指南4.1 仿真测试框架搭建完整的测试环境应包括指令存储器初始化文件.mem时钟和复位信号生成关键信号监测逻辑timescale 1ns/1ps module tb_CPU(); reg clk, rst; wire [31:0] pc, instr; CPU uut(.clk(clk), .rst(rst), .pc(pc), .instr(instr)); initial begin clk 0; rst 1; #10 rst 0; #500 $finish; end always #5 clk ~clk; initial begin $dumpfile(wave.vcd); $dumpvars(0, tb_CPU); end endmodule4.2 常见故障排查表现象可能原因排查方法PC不更新PCWre信号未激活检查控制单元状态机输出寄存器写入错误WB阶段时钟偏移分析写时钟与数据到达时间ALU结果异常操作数未正确传递跟踪数据通路信号存储器访问失败地址未对齐检查MEM阶段地址生成逻辑状态机卡死未覆盖所有指令组合补充测试用例覆盖边缘情况4.3 实际调试案例在实现beq指令时我曾遇到分支总是失败的问题。通过以下步骤最终定位在仿真波形中发现Zero信号始终为0追溯发现ALU的减法结果正确但Zero标志生成逻辑错误检查发现比较运算符误用了逻辑相等()而非减法结果判零修改后增加测试用例验证各种比较场景// 错误实现 assign Zero (A B); // 正确实现 assign Zero (sub_res 0);这个经历让我深刻体会到在硬件设计中即使是最简单的比较操作也需要严格对应硬件实现细节。