十堂极简人工智能课

作者：oasis

人工智能哲学思想的变迁

早期思路是 符号 + 搜索：用符号表示知识，再在空间中搜索解。

局限：现实问题的搜索空间往往大到「难解」的程度，符号 + 搜索更适合书中那种 积木世界 一类的迷你问题，难以直接推广到复杂现实。

符号人工智能里逐渐发展出 知识如何表示 的问题；进入大数据时代后，又涉及 从数据中提取知识并予以表示。

行为树是什么？（书中若另有专章，可在此补定义与用途。）

视觉是感知的重要一环；后面谈到的卷积神经网络（CNN）就是面向视觉任务的典型深度学习结构。

人工神经网络是一类成熟且非常成功的人工智能方法：把大脑工作机制简化成可在计算机上运行的数学模型。

训练的目标是 优化各层连接的权重和偏置，使网络在给定训练样本上输出接近期望的答案。

是否必须为所有训练数据都提供「标准答案」？

前馈网络与反向传播

常见训练方式是 反向传播：从输出层开始，逐层向前（相对数据流向为「反向」）更新权重与偏置，使误差下降。
误差是否已「小到不能再小」？ 理论上很难保证找到 全局最小；实践中用 验证集损失 + 早停（early stopping）：若连续若干轮（耐心值）验证集损失不再下降，就停止训练，避免过拟合。

卷积神经网络 是视觉任务里常用的深度学习结构；「深度」常指 卷积层堆叠的层数。
历史背景：2012 年 AlexNet 在 ImageNet 上夺冠，展示了用 GPU 训练深度 CNN 的效果，推动深度学习成为主流，也大幅推高了对高性能 GPU 的需求——可以说 CNN 是让 GPU 成为 AI 基础设施 的关键推手之一。

使用带 标签（正确答案） 的数据，学习输入到输出的映射，用于对新样本做预测或分类。训练过程就是不断比较预测与标签的误差，并调整参数（如神经网络权重），直到预测足够好。

数据 没有标签，目标是让模型自动发现数据内部的结构（如聚类、表示学习、生成建模等）。

智能体 在环境中 采取行动，环境返回 奖励信号（可正、可负、可为零）。这里的奖励不是监督学习里那种逐样本的 ground truth 标签，而是对 当前行为好坏 的标量反馈。智能体的目标是学到一种策略，使 长期累积奖励 尽可能大。

与上面两类的区别：监督学习靠「输入–正确答案」对；无监督学习完全没有这种标签；强化学习则靠 序贯决策 + 奖励，解决的是「动作 / 策略该如何被评价与改进」的问题——这与无监督学习里「发现数据结构」的目标并不相同。