南北阁 Nanbeige 4.1-3B 基础教程：如何启用/禁用CoT折叠功能与UI开关设计

张

张建站

2026/4/13 7:05:15

10分钟阅读

南北阁 Nanbeige 4.1-3B 基础教程如何启用/禁用CoT折叠功能与UI开关设计想体验一个能“边想边说”的本地AI对话助手吗南北阁 Nanbeige 4.1-3B 模型就能做到。它不仅能流畅地和你聊天还能把内部的“思考过程”展示给你看就像看一个朋友在草稿纸上演算一样。今天要介绍的这个工具就是基于这个模型开发的。它最大的亮点就是把这个“思考过程”用非常优雅的方式管理起来——你可以选择把它折叠起来只看最终答案也可以随时展开看看模型是怎么一步步推理出结果的。这个功能我们称之为“CoT折叠”。这篇文章我就手把手带你从零开始把这个工具跑起来并重点教你如何通过一个简单的UI开关来控制这个“思考过程”的显示与隐藏。整个过程非常简单不需要你懂复杂的AI知识跟着步骤做就行。1. 项目简介一个更懂交互的本地对话工具这个工具的核心目标是让 Nanbeige 4.1-3B 这个优秀的国产小模型用起来更舒服、更直观。它解决了几个常见痛点官方参数原汁原味工具严格按照模型官方的要求来设置比如加载方式、推理参数像对话的“创造力”温度设置为0.6确保你得到的效果和官方演示一致。聊天不卡顿逐字输出采用流式输出技术回复是一个字一个字“流”出来的而不是等半天突然蹦出一大段体验非常丝滑。思考过程收放自如这是本文的重点。模型在回答复杂问题时内部会产生一段“思考链”。工具能自动识别这段内容并默认将其放入一个可折叠的区域。这样界面就非常清爽你只想看答案时就看答案想研究推理过程时一键展开即可。界面美观操作简单基于 Streamlit 框架构建了一个现代化的网页界面聊天记录、功能设置、对话输入分区明确颜值和易用性都在线。对硬件友好本地运行30亿参数的模型相对小巧一张入门级的显卡甚至只用CPU就能跑起来所有计算都在你的电脑上完成无需联网隐私有保障。简单说这是一个为交互体验而优化的本地对话AI工具而“CoT折叠开关”是提升体验的关键设计之一。2. 环境准备与快速部署让我们先把工具运行起来。整个过程就像安装一个普通软件一样简单。2.1 第一步准备“工作间”首先你需要一个合适的Python环境。我强烈建议使用Conda来创建一个独立的环境避免和你电脑上其他Python项目冲突。打开你的终端Windows上是CMD或PowerShellMac/Linux上是Terminal输入以下命令# 创建一个名为 nanbeige-chat 的新Python环境指定Python版本为3.10 conda create -n nanbeige-chat python3.10 -y # 激活这个环境 conda activate nanbeige-chat看到命令行前缀变成(nanbeige-chat)就说明环境激活成功了。2.2 第二步安装“工具箱”这个工具依赖一些Python库主要是深度学习框架和网页界面框架。我们一次性安装好。在刚才激活的(nanbeige-chat)环境下执行下面的命令pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu118 # 安装PyTorchCUDA 11.8版本如果你用CPU去官网找对应命令 pip install transformers streamlit # 安装模型加载库和网页框架注意第一行安装PyTorch的命令是针对有NVIDIA显卡用户的。如果你只有CPU请访问 PyTorch官网获取适合你系统的安装命令。2.3 第三步获取工具并启动工具的所有代码都写在一个Python文件里。你需要新建一个文件比如叫做nanbeige_chat.py然后把下面的完整代码复制进去。由于代码较长此处先概述其核心结构具体代码将在下一节结合功能讲解代码主要包含以下几部分导入所需的库transformers,streamlit,threading等。模型加载函数按照官方要求正确加载 Nanbeige 4.1-3B 模型和分词器。流式对话生成函数核心逻辑负责调用模型并实现逐字输出。Streamlit网页界面布局构建侧边栏、聊天历史区和输入区。CoT折叠功能的UI开关逻辑这是我们今天要重点修改和观察的部分。保存好代码文件后在终端里确保你的当前目录就是这个nanbeige_chat.py文件所在的文件夹然后运行streamlit run nanbeige_chat.py几秒钟后终端会显示一个本地网络地址通常是http://localhost:8501。用你的浏览器打开这个地址就能看到工具的界面了3. 核心功能详解从代码看CoT折叠与UI开关现在工具跑起来了我们来看看背后是怎么工作的特别是如何实现CoT折叠和那个控制开关。3.1 模型是如何“思考”并输出的工具的核心是一个叫generate_response的函数。它做了几件关键事def generate_response(model, tokenizer, streamer, prompt, history): # 1. 将对话历史和新问题拼接成模型能理解的格式 full_prompt f{history}{prompt} inputs tokenizer(full_prompt, return_tensorspt).to(model.device) # 2. 启动一个单独的线程来让模型“生成”回答 # 这样不会阻塞网页界面的刷新 generation_kwargs dict( inputs, streamerstreamer, max_new_tokens512, temperature0.6, # 官方推荐参数 top_p0.95, # 官方推荐参数 eos_token_id166101, # 非常重要的结束符官方指定 do_sampleTrue ) thread threading.Thread(targetmodel.generate, kwargsgeneration_kwargs) thread.start() # 3. 从“流”中逐个获取新生成的token字/词 generated_text for new_text in streamer: generated_text new_text # 这里会实时把 generated_text 更新到网页上实现流式效果 yield generated_text这个函数就像一个流水线输入问题 - 模型计算 - 逐字输出。而streamer就是这个流水线的传送带。3.2 如何识别并处理“思考过程”Nanbeige 模型在思考时会在文本中插入特定的标签通常是和把思考内容包裹起来。我们的工具在收到完整的回答文本后会做一次“后处理”# 这是一个简化的处理逻辑 final_output “模型返回的完整文本” if “|think|” in final_output: # 找到思考内容的开始和结束 think_start final_output.find(“|think|”) len(“|think|”) think_end final_output.find(“|/think|”) think_content final_output[think_start:think_end] # 提取思考内容 answer_content final_output[think_end len(“|/think|”):] # 提取最终答案 # 关键将 think_content 放入一个可折叠的UI组件中 # 将 answer_content 正常显示在界面上这个“可折叠的UI组件”在Streamlit里可以用st.expander来实现。默认情况下它是折叠的只显示一个标题如“ 展开查看模型的思考过程”点击才会展开看到详细思考内容。3.3 设计UI开关一键切换显示模式现在来到最关键的部分如何做一个开关让用户决定要不要折叠这个思考过程这个功能是通过Streamlit的侧边栏和一个复选框来实现的。我们在主界面代码的侧边栏部分添加一个控制项。以下是实现此功能的核心代码逻辑import streamlit as st # 在侧边栏设置标题和开关 with st.sidebar: st.header(“⚙️ 设置”) # 关键的一行创建一个复选框其状态保存在变量 show_cot_expanded 中 show_cot_expanded st.checkbox( “ 始终展开思考过程 (CoT)”, valueFalse, # 默认是关闭的即默认折叠 help“勾选后模型的思考过程将直接显示而不是折叠起来。” ) # ... 后续在显示聊天记录的代码部分 ... for message in st.session_state.messages: with st.chat_message(message[“role”]): if message[“role”] “assistant”: # 假设 message[‘content’] 中已经分离了 think 和 answer cot_content message.get(“cot”, “”) # 思考内容 answer_content message.get(“answer”, “”) # 最终答案 if cot_content: # 如果存在思考内容 if show_cot_expanded: # 如果用户打开了“始终展开”开关 # 模式一直接显示思考内容 st.markdown(“** 模型的思考**”) st.text(cot_content) # 或使用 st.write st.markdown(“---”) st.markdown(answer_content) else: # 模式二默认的折叠模式 with st.expander(“ 展开查看模型的思考过程”, expandedFalse): st.text(cot_content) st.markdown(answer_content) else: # 没有思考内容直接显示答案 st.markdown(answer_content) else: # 显示用户消息 st.markdown(message[“content”])这段代码做了什么创建开关在侧边栏用st.checkbox创建了一个复选框。它的状态打勾或没打勾被保存在变量show_cot_expanded里。状态判断在显示每一条助手消息时检查show_cot_expanded的值。分支显示如果开关关闭False使用st.expander将思考内容折叠显示。界面整洁答案优先。如果开关打开True不再使用折叠面板而是直接将思考内容以普通文本形式展示在答案上方。适合那些希望始终观察模型推理路径的用户。这样你就拥有了一个前端UI开关无需修改后端模型代码就能自由切换CoT的展示方式。4. 快速上手体验对话与开关效果现在让我们在工具里实际操作一下看看效果。启动工具确保你的streamlit run nanbeige_chat.py正在运行浏览器页面已打开。观察侧边栏在页面左侧你应该能看到我们刚添加的“⚙️ 设置”区域里面有一个“ 始终展开思考过程 (CoT)”的复选框。确保它没有被勾选默认状态。发起第一次对话在页面底部的输入框里问一个需要一些推理的问题例如“请解释一下为什么天空是蓝色的。”观察默认折叠效果发送后你会看到助手消息区域开始流式输出。首先可能会出现“( 思考中...)”的提示和一段灰色的思考文本。生成结束后这段思考文本会变成一个可点击的折叠面板标题是“ 展开查看模型的思考过程”。下方直接呈现模型的最终答案。此时思考过程是隐藏的界面非常干净。启用“始终展开”现在去侧边栏勾选“始终展开思考过程 (CoT)”这个复选框。Streamlit 的特性是一旦交互组件如复选框的状态改变整个页面脚本会重新运行。发起第二次对话问另一个问题比如“牛顿第一定律是什么并用一个生活中的例子说明。”观察展开效果这次模型的思考过程将直接显示在最终答案的上方前面可能有“ 模型的思考”这样的标题中间用分隔线隔开。思考过程不再被折叠。切换体验你可以随时通过这个复选框开关在两种显示模式间来回切换。甚至可以对同一条历史消息通过开关查看不同的展示效果。通过这个简单的开关你就能在“简洁答案模式”和“完整思维观察模式”之间无缝切换满足了不同场景下的使用需求。5. 实用技巧与进阶思考掌握了基本操作后这里还有一些小技巧和可以继续探索的方向问题设计对于“写一首诗”、“翻译这句话”这类创造性或直接的任务模型可能不触发思考过程即不输出标签。可以尝试问“为什么”、“请比较”、“如何解释”这类需要推理的问题来观察CoT效果。历史记录工具会自动保存对话历史。如果你想重新开始一个全新的话题可以使用界面上的“清空对话”按钮这能避免之前的对话内容干扰新问题的回答。参数微调进阶如果你对模型效果有进一步要求可以尝试在代码中调整temperature温度影响随机性和top_p核采样影响聚焦程度这两个参数。官方推荐值是0.6和0.95这是一个不错的平衡点。调高temperature如0.8会让回答更随机、有创意调低如0.3则会更稳定、更可预测。自定义样式工具内置了一些CSS让界面更美观。如果你懂前端可以直接在代码的st.markdown部分修改CSS调整聊天框的颜色、圆角、字体等。功能拓展这个项目是一个很好的起点。你可以基于此增加更多功能比如支持上传文档TXTPDF让模型基于文档内容回答。增加语音输入和语音输出模块。将对话历史保存到本地文件甚至实现多会话管理。6. 总结通过这篇教程我们完成了几件事成功部署了一个基于南北阁 Nanbeige 4.1-3B 模型的本地流式对话工具。深入理解了其核心交互特性丝滑的流式输出和结构化的思考过程CoT展示。重点实现并实践了CoT折叠功能的UI开关设计。我们通过一个简单的Streamlit复选框将显示模式的控制权交给了用户开关关闭思考过程被折叠界面聚焦于最终答案简洁高效。开关打开思考过程直接展开方便用户追溯模型的推理逻辑适用于学习或调试场景。这个开关设计虽然代码量不大但却极大地提升了工具的灵活性和用户体验。它体现了以用户为中心的设计思想——把选择权交给用户让工具去适应不同场景下的需求而不是反过来。希望这个工具和教程能帮助你更直观、更深入地体验国产AI模型的魅力。无论是用于学习、娱乐还是作为更复杂AI应用的起点它都是一个不错的开始。获取更多AI镜像想探索更多AI镜像和应用场景访问 CSDN星图镜像广场提供丰富的预置镜像覆盖大模型推理、图像生成、视频生成、模型微调等多个领域支持一键部署。