阶段零：监督学习、无监督学习、强化学习

张

张建站

2026/4/13 13:41:24

10分钟阅读

监督学习、无监督学习、强化学习一篇文章彻底讲透从生活例子出发零基础也能看懂三大机器学习方法一、一句话总结监督学习有标准答案的考试分类是猫是狗 / 回归房价多少无监督学习自己整理归纳聚类把水果分堆 / 降维简化数据强化学习下棋打游戏练级试错奖励逐步变强二、三种学习方法的本质区别想象一下你想教会一个孩子认识水果。三种方式截然不同学习方式核心逻辑数据要求典型任务监督学习给答案照着学有标签的数据分类、回归无监督学习没答案自己找规律无标签的数据聚类、降维强化学习做动作给奖惩交互环境决策序列优化用一句话记住它们监督学习是老师手把手教无监督学习是自己整理归纳强化学习是打游戏练级。三、监督学习Supervised Learning—— 有标准答案的学习3.1 生活例子老师教学生想象老师在黑板上写了一道数学题然后告诉学生正确答案是什么。学生通过反复练习逐渐掌握了解题规律。考试时遇到新题目他也能做出来。这就是监督学习——每一道题输入都配有标准答案标签模型从这些问题-答案对中学习规律。3.2 技术定义监督学习使用有标签的数据集进行训练。算法学习从输入特征到输出标签的映射关系然后对新的输入数据进行预测。核心公式Y f(X)其中X是输入特征Y是输出标签f就是我们要学的模型。3.3 两大核心任务任务类型输出特点生活例子常用算法分类离散类别是/否、A/B/C判断邮件是垃圾还是正常识别图片中是猫还是狗逻辑回归、SVM、决策树、KNN回归连续数值根据面积预测房价根据经验预测工资线性回归、随机森林分类 vs 回归的直观理解分类就像做选择题答案是猫或狗选项是有限的回归就像做填空题答案是328万是一个具体的数字3.4 现实应用应用场景做什么数据标签示例垃圾邮件过滤判断邮件是否为垃圾邮件内容 → “垃圾”/“正常”人脸识别识别照片中是谁人脸图像 → “张三”房价预测预测房屋价格面积、地段 → 具体价格信用卡风控判断是否批准申请用户信息 → “批准”/“拒绝”医疗诊断判断是否患病检查报告 → “患病”/“健康”商业价值Gartner预测到2022年监督学习仍是企业IT领导者使用最多的机器学习类型。四、无监督学习Unsupervised Learning—— 自己发现规律4.1 生活例子整理散落的乐高积木给孩子一盒混装的乐高积木没有任何说明也不告诉他该怎么分类。孩子自己观察后可能会把红色的放一起、蓝色的放一起或者把方形的放一起、长条形的放一起。这就是无监督学习——没有标准答案让模型自己从数据中发现隐藏的结构和模式。4.2 技术定义无监督学习处理没有标签的数据目标是发现数据中潜在的结构、模式或分组。模型不知道正确答案只能依靠数据本身的统计特性来学习。4.3 两大核心任务任务类型做什么生活例子常用算法聚类将相似的数据点分组电商把相似购买行为的用户归为一类新闻网站把相似文章归到同一专题K-Means、层次聚类、DBSCAN降维简化数据保留核心信息把100种颜色压缩成红/蓝/绿3个主色调把多维数据压缩到2D方便画图PCA、t-SNE聚类的直观理解你有一堆水果图片但不知道分别是什么水果无监督学习会根据颜色、形状、大小自动分成几堆你发现红色圆形的是一堆、黄色长条形的是一堆、绿色圆形的是一堆你给这三堆起名为苹果、“香蕉”、“青苹果”4.4 现实应用应用场景做什么为什么用无监督客户分群把用户分成不同群体事先不知道有哪些群体让算法自动发现异常检测找出异常的交易或行为正常模式是多数异常是少数商品推荐推荐相似的商品找到用户可能感兴趣的同类商品新闻聚类把相似新闻归到同一专题自动组织海量信息基因分析找出具有相似表达模式的基因从海量基因数据中发现模式名人观点吴恩达Andrew Ng称无监督学习是人工智能的暗物质——虽不直接可见却支撑着监督与强化学习的数据基础。五、强化学习Reinforcement Learning—— 试错中成长5.1 生活例子训练小狗接飞盘你想让小狗学会接飞盘。你不会用语言告诉它先抬头、看准方向、跳起来、张嘴接住——它听不懂。但你可以在它做对的时候给它零食奖励做错的时候不给。第一次飞盘飞来小狗没动 → 没奖励第二次飞盘飞来小狗跳了一下但没接住 → 还是没奖励第三次飞盘飞来小狗跳起来接住了 →给零食多次尝试后小狗学会了看到飞盘 → 跳起来接 → 有零食。它自己摸索出了最佳策略。这就是强化学习——没有正确答案只有好和坏的信号通过试错来优化决策。5.2 技术定义强化学习中一个智能体在环境中采取行动环境返回新的状态和奖励正或负。智能体的目标是学习一个策略使得长期累积的奖励最大化。核心要素智能体做决策的AI如AlphaGo环境智能体与之互动的世界如围棋棋盘动作智能体可以做的事情如落子在某个位置状态当前环境的情况如当前棋盘布局奖励反馈信号赢了1输了-15.3 与其他方法的区别对比维度监督学习强化学习反馈方式每一步都有正确答案只有延迟的奖励信号数据来源静态的标签数据集与环境动态交互产生错误处理立刻纠正自己发现事后总结关键洞察强化学习的挑战在于——当下的决策可能要在很久之后才能看到效果。下棋时这一步走得好不好要20步之后才知道。这就是所谓的信用分配问题。5.4 现实应用应用场景强化学习的作用经典案例游戏AI通过与自己对弈学习策略AlphaGo击败李世石AlphaStar打星际争霸机器人控制学习抓取、行走等动作仓库机器人学习搬货自动驾驶在模拟环境中学习驾驶策略在虚拟道路上试错安全地学习推荐系统优化长期用户满意度不是只推荐用户当前想看的而是让用户长期喜欢使用智能交通动态调整红绿灯根据实时车流优化信号减少拥堵图灵奖得主Yann LeCun说监督学习是机器学习的面包与黄油但真正的智能需要通过强化学习的试错探索来实现。六、三大方法对比总览6.1 核心差异一览表维度监督学习无监督学习强化学习数据需求输入输出标签只有输入无标签环境交互无固定数据集反馈信号即时、明确的正确/错误无外部反馈延迟、稀疏的奖励目标准确预测标签发现隐藏结构最大化累积奖励典型算法线性回归、SVM、决策树K-Means、PCAQ-Learning、PPO应用场景分类、回归预测聚类、降维、异常检测游戏、机器人、自动驾驶可解释性较好可看决策边界中等较差策略复杂6.2 类比记忆法学习方式一句话类比适合的场景监督学习有答案册的学生你明确知道要预测什么且有历史数据无监督学习自己整理书架的孩子你也不知道要找什么让算法帮你发现强化学习游戏里打怪升级的玩家决策有长期影响需要动态调整七、特殊混合类型了解即可7.1 半监督学习定义少量标签数据大量无标签数据生活例子医生标注了100张肿瘤X光片模型用这100张学会基本规律然后自学分析剩下的10万张未标注片子为什么有用标注成本高但无标签数据容易获取7.2 自监督学习定义从数据自身构造伪标签进行学习生活例子遮住图片的一部分让模型猜被遮住的是什么典型应用GPT等大语言模型的预训练——预测下一个词7.3 迁移学习定义把在一个任务上学到的知识迁移到相关任务生活例子学会骑自行车后学摩托车会更快典型应用用ImageNet预训练模型做医疗图像识别八、如何选择—— 决策指南面对实际问题按这个流程选择方法问题来了 │ ▼ 有标签数据吗 │ ├── 有且充足 ──→ 监督学习分类/回归 │ ├── 只有少量 ──→ 半监督学习 │ └── 完全没有 ──→ 往下看 │ ▼ 想做什么 │ ├── 发现隐藏分组 ──→ 无监督学习聚类 │ ├── 简化/可视化数据 ──→ 无监督学习降维 │ └── 做决策、玩游戏、控制机器人 ──→ 强化学习实用建议初学者优先学监督学习——最成熟、应用最广、最容易上手数据量大且无标签→ 先用无监督做探索性分析任务需要长期决策如下棋、自动驾驶→ 强化学习大部分商业问题预测、分类→ 监督学习就够了九、总结┌─────────────────────────────────────────────────────────────┐ │ │ │ 监督学习像老师教学生给题目也给答案 │ │ └─ 任务分类是/否、回归多少钱 │ │ └─ 例子垃圾邮件过滤、房价预测、人脸识别 │ │ │ │ 无监督学习像自己整理没答案但能发现模式 │ │ └─ 任务聚类自动分组、降维简化数据 │ │ └─ 例子客户分群、异常检测、新闻聚类 │ │ │ │ 强化学习像打游戏试错拿奖励逐步变强 │ │ └─ 任务序列决策优化 │ │ └─ 例子AlphaGo下棋、机器人走路、自动驾驶 │ │ │ └─────────────────────────────────────────────────────────────┘一句话终极总结知道答案的用监督学习不知道答案但想找规律的用无监督学习不知道答案且需要在动态环境中做决策的用强化学习。主人这份教程从零开始用生活化的例子讲清楚了三大机器学习的核心区别。需要我继续深入讲解某个具体方法如监督学习中的分类算法详解吗半监督学习弱监督学习机器学习家族的“省钱担当”当标注数据太贵时这两种方法就是救命稻草一、先回答核心问题它们是一种学习方法吗是的半监督学习和弱监督学习都是独立的机器学习方法。它们和“监督/无监督/强化学习”属于同一层级的分类。只不过半监督学习更常用、更成熟而弱监督学习更像是一个“概念家族”包含多种降低标注依赖的方法。机器学习总共可以分成多少种从训练方式角度机器学习主要分为机器学习的主要分类按学习方式 ├── 1. 监督学习Supervised Learning ├── 2. 无监督学习Unsupervised Learning ├── 3. 半监督学习Semi-supervised Learning ├── 4. 弱监督学习Weakly Supervised Learning ├── 5. 强化学习Reinforcement Learning └── 6. 自监督学习Self-supervised Learning—— 较新的分支⚠️注意弱监督学习和自监督学习在一些分类中被视为半监督学习的子类或变体学术界尚未完全统一。二、五种方法的完整对比含半监督弱监督为了和之前讲解的三大方法对比这里加上半监督和弱监督学习方法数据情况一句话定义生活例子监督学习全部有标签标准答案在手天下我有老师把每道题答案都告诉你无监督学习全部无标签自己找规律无师自通给你一堆乐高自己分类半监督学习少量有标签大量无标签以一当百用小标签撬动大数据老师只讲了3道例题你做完了一本练习册弱监督学习标签不精确/不完整/有噪音降低标注标准用“差不多”的标签老师不告诉具体答案只说“大概在第三章”强化学习无标签有奖励信号试错拿奖励逐步变强玩游戏赢了有分输了扣分核心对比表来自学术文献维度监督学习半监督学习无监督学习强化学习数据全标注少量标注大量未标注全未标注状态动作奖励学习信号直接监督弱监督部分标签无监督结构学习奖励信号标注人力高中等无无但需环境模拟目标预测结果用少量标注改进学习发现隐藏结构最大化累计奖励典型算法线性回归、SVM、决策树自训练、协同训练、标签传播K-Means、PCAQ-Learning、DQN三、半监督学习Semi-supervised Learning详解3.1 为什么需要它现实痛点标注100万张医学CT图像需要专业医生成本≈100万美元标注100张CT图像成本≈1000美元剩下99.99万张未标注图像免费半监督学习的价值用100张标注数据 100万张未标注数据达到接近全标注的效果。3.2 核心原理少量标注数据 ——→ 训练初始模型 ——→ 对未标注数据预测 ↓ 高置信度的结果 ↓ 当作伪标签加入训练集 ↓ 重新训练迭代生活例子老师只批改了3道例题你做完练习册后对答案把“看起来对的”当作标准答案继续学习。3.3 常用方法方法原理典型算法自训练模型自己预测高置信度的加入训练Self-training协同训练多个模型互相验证Co-training基于图的方法标注点通过图传播标签Label Propagation一致性学习同一图片的不同变换应输出一致结果Mean Teacher, FixMatch3.4 典型应用场景场景说明医学影像分析少量专家标注大量未标注CT/X光片文本分类少量人工标注海量未标注网页语音识别少量转录文本大量未转录音频目标检测SSOD少量框标注大量无标注图像四、弱监督学习Weakly Supervised Learning详解4.1 什么是“弱”监督“弱”体现在三个方面类型定义例子不精确标注只有粗粒度标签没有细粒度知道图片里有猫但不知道猫在哪不完整标注部分数据有标签部分没有这其实就是半监督的范畴不准确标注标签可能有错误噪音标注员把狗标成了猫一句话概括弱监督学习在“廉价但不完美”的标签上训练模型。4.2 目标检测中的例子帮助理解设定标注内容标注成本难度监督学习每只猫的位置框类别高简单弱监督学习只标注“图片里有猫”不标位置低难模型要自己找猫在哪弱半监督少量位置框大量只有类别标签中等中4.3 弱监督 vs 半监督一张图看懂半监督学习 │ ▼ 标注数据 ←───●───→ 未标注数据 (少量) (大量) │ ▼ 标签是完整的弱监督学习 │ ▼ 标注数据 ←───●───→ 标注数据 (精确) (不精确/有噪音) │ ▼ 标签质量降低了4.4 常见弱监督方法方法原理数据合成自动生成带标签的合成数据主动学习模型主动问人哪些样本需要标注远程监督用知识库自动标注如维基百科→文本五、机器学习全分类体系完整版5.1 按学习方式分类最常用机器学习 │ ┌──────────────────┼──────────────────┐ │ │ │ 监督学习无监督学习强化学习 │ │ │ ├── 分类 ├── 聚类 ├── Q-Learning └── 回归 ├── 降维 ├── SARSA └── 关联规则 └── DQN │ │ │ └──────┬───────────┘ │ ▼ │ 半监督学习 ──────────────────────────┘ │ ▼ 弱监督学习 │ ▼ 自监督学习5.2 按功能分类解决问题角度功能类型任务常用算法分类二分类/多分类SVM、决策树、逻辑回归、神经网络回归预测连续值线性回归、随机森林回归聚类自动分组K-Means、层次聚类、DBSCAN降维简化数据PCA、t-SNE关联规则发现关联Apriori、FP-Growth异常检测找异常点Isolation Forest、One-class SVM5.3 其他分类维度分类维度类型是否增量学习批量学习 vs 在线学习是否基于实例基于实例 vs 基于模型建模思路判别模型 vs 生成模型六、总结一张表区分所有方法方法数据标签质量成本效果典型场景监督学习大量完美高最好有充足预算的商业项目半监督学习少量完美大量无标签部分完美中好医学影像、网页分类弱监督学习大量不完美标签粗/有噪音低中大规模数据快速标注无监督学习大量无零中探索性客户分群、异常检测强化学习交互数据奖励信号中高好游戏AI、机器人自监督学习大量自动生成低好大模型预训练GPT一句话总结有钱有数据 → 监督学习钱少数据多 → 半监督学习钱极少但数据极多 → 弱监督学习连标签都不想花钱 → 无监督学习需要做决策 → 强化学习

鸿蒙三方库适配HPKCHECK 文件执行流程详解

鸿蒙三方库适配HPKCHECK 文件执行流程详解欢迎大家加入开源鸿蒙跨平台开发者社区 HPKCHECK 文件是通过执行 test.sh 脚本来运行的。现在解释整个执行流程： 1. 执行入口 cd /path/to/lycium_plusplus/lycium ./test.sh [库名1] [库名2] ...或者测试所有库&#…...

2026/4/13 13:41:24 阅读更多 →

打卡信奥刷题（3106）用C++实现信奥题 P7281 [COCI 2020/2021 #4] Vepar

P7281 [COCI 2020/2021 #4] Vepar 题目描述给定两组正整数 {a,a1,⋯,b}\{a,a1,\cdots,b\}{a,a1,⋯,b} 和 {c,c1,⋯,d}\{c,c1,\cdots,d\}{c,c1,⋯,d}。判断 c⋅(c1)⋯dc \cdot (c1)\cdots dc⋅(c1)⋯d 能否被 a⋅(a1)⋯ba \cdot (a1)\cdots ba⋅(a1)⋯b 整除。输入格式第…...

2026/4/13 13:40:36 阅读更多 →

PyBroker：构建机器学习驱动的量化交易系统

PyBroker：构建机器学习驱动的量化交易系统【免费下载链接】pybroker Algorithmic Trading in Python with Machine Learning 项目地址: https://gitcode.com/gh_mirrors/py/pybroker 在算法交易的世界中，数据驱动的决策正逐渐取代传统的主观判断…...

2026/4/13 13:38:28 阅读更多 →