机器学习中需要了解的概念

2024-05-19 05:13

1. 机器学习中需要了解的概念

机器学习有大块的知识，也有零碎的知识，我们在学习机器学习的时候不能忽视这些零碎的知识。如果对这些知识忽视，那么就容易让自己的知识架构残缺不全。如果对这些知识的了解充分，我们就能够更好地理解机器学习。下面我们就为大家介绍机器学习中的基础知识。
（1）广义线性模型就是最小二乘回归模型的推广/泛化，基于高斯噪声，相对于其它类型的模型，这种模型基于其它类型的噪声，比如泊松噪声，或类别噪声等等。广义线性模型的例子包括很多，比如logistic回归、多分类回归、最小二乘回归。而广义线性模型的参数可以通过凸优化得到，它的性质有很多，第一就是最理想的最小二乘回归模型的平均预测结果等于训练数据的平均标签。第二就是最理想的 logistic 回归模型的平均概率的预测结果等于训练数据的平均标签。第三就是广义线性模型的能力局限于其特征的性质。和深度模型不同，一个广义线性模型无法学习新的特征。
（2）启发式就是一个问题的实际的和非最优的解，但能从学习经验中获得足够多的进步。
（3）梯度就是所有变量的偏导数的向量。在机器学习中，梯度是模型函数的偏导数向量。梯度指向最陡峭的上升路线。
（4）梯度截断就是在应用梯度之前先修饰数值，梯度截断有助于确保数值稳定性，防止梯度爆炸出现。
（5）梯度下降是通过计算模型的相关参量和损失函数的梯度最小化损失函数，值取决于训练数据。梯度下降迭代地调整参量，逐渐靠近权重和偏置的最佳组合，从而最小化损失函数。
（6）图在 TensorFlow 中的一种计算过程展示。图中的节点表示操作。节点的连线是有指向性的，表示传递一个操作的结果给另一个操作。使用 TensorBoard 能可视化计算图。
（7）泛化是指模型利用新的没见过的数据而不是用于训练的数据作出正确的预测的能力。
（8）折页损失函数就是损失函数的一个类型，用于分类模型以寻找距离每个样本的距离最大的决策边界，即最大化样本和边界之间的边缘。
在这篇文章中我们给大家介绍了很多有关机器学习的知识，这些知识都是机器学习中深层的概念，所以说大家一定要掌握这些概念，这样就能够更好地掌握机器学习。

机器学习中需要了解的概念

2. 机器学习模型设计五要素

机器学习模型设计五要素
数据可能没什么用，但是数据中包含的信息有用，能够减少不确定性，数据中信息量决定了算法能达到的上限。
数据环节是整个模型搭建过程中工作量最大的地方，从埋点，日志上报，清洗，存储到特征工程，用户画像，物品画像，都是些搬砖的工作也被认为最没有含金量同时也是最重要的地方。这块跟要解决的问题，所选的模型有很大关系，需要具体问题具体分析，以个性化为例讲讲特征工程中的信息损失：
我们搭模型的目的是预测未来 -“以往鉴来，未卜先知 ”，进一步要预测每个人的未来，实时预测每个人的未来。要想做好这件事情，对过去、对用户、对物品越了解越好，首先需要采集用户的行为（什么人在什么时间什么地点以什么方式对什么东西做了什么事情做到什么程度 ），然后进行归因找到影响用户点击的因素，构建用户兴趣图谱，最后在此基础上去做预测。
这个过程中，每个环节都会有信息损失，有些是因为采集不到，比如用户当时所处的环境，心情等等；有些是采集得到但是暂时没有办法用起来，比如电商领域用户直接感知到是一张图片，点或不点很大程度上取决于这张图片，深度学习火之前这部分信息很难利用起来；还有些是采集得到，也用的起来，但是因为加工手段造成的损失，比如时间窗口取多久，特征离散成几段等等。
起步阶段，先搞“量”再搞“率”应该是出效果最快的方式。
#2 f(x)
f(x)的设计主要围绕参数量和结构两个方向做创新，这两个参数决定了算法的学习能力，从数据里面挖掘信息的能力（信息利用率），类比到人身上就是“天赋”、“潜质”类的东西，衡量这个模型有多“聪明”。相应地，上面的{x,y}就是你经历了多少事情，经历越多+越聪明就能悟出越多的道理。
模型复杂度-VC维
参数量表示模型复杂度，一般用VC维衡量。VC维越大，模型就越复杂，学习能力就越强。在数据量比较小的时候，高 VC 维的模型比低 VC 维的模型效果要差，但这只是故事的一部分；有了更多数据以后，就会发现低 VC 维模型效果再也涨不上去了，但高的 VC 维模型还在不断上升。这时候高VC维模型可以对低VC维模型说：你考90分是因为你的实力在那里，我考100分是因为卷面只有100分。
当然VC维并不是越高越好，要和问题复杂度匹配：
-- 如果模型设计的比实际简单，模型表达能力不够，产生 high bias；
-- 如果模型设计的比实际复杂，模型容易over-fit，产生 high variance；而且模型越复杂，需要的样本量越大，DL动辄上亿样本
模型结构
模型结构要解决的是把参数以哪种方式结合起来，可以搞成“平面的”，“立体的”，甚至还可以加上“时间轴”。不同的模型结构有自身独特的性质，能够捕捉到数据中不同的模式，我们看看三种典型的：
LR：
只能学到线性信息，靠人工特征工程来提高非线性拟合能力
MLR：
与lr相比表达能力更强，lr不管什么用户什么物品全部共用一套参数，mlr可以做到每个分片拥有自己的参数：
-- 男生跟女生行为模式不一样，那就训练两个模型，男生一个女生一个，不共享参数
-- 服装行业跟3C行业规律不一样，那就训练两个模型，服装 一个3C一个，不共享参数
沿着这条路走到尽头可以给每个人训练一个模型，这才是真正的“个性化”！
FM：
自动做特征交叉，挖掘非线性信息
DL：
能够以任意精度逼近任意连续函数，意思就是“都在里面了，需要啥你自己找吧”，不想花心思做假设推公式的时候就找它。
#3 objective
目标函数，做事之前先定一个小目标，它决定了接下来我们往哪个方向走。总的来说，既要好又要简单；已有很多标准方法可以选，可创新的空间不大，不过自己搞一个损失函数听起来也不错，坐等大牛。
损失函数：rmse/logloss/hinge/...惩罚项：L1/L2/L21/dropout/weight decay/...
P（model|data） = P(data|model) * P(model)/P(data) —> log(d|m) + log(m)
 
#4 optimization
目标有了，模型设计的足够聪明了，不学习或者学习方法不对，又是一个“伤仲永”式的悲剧。 这里要解决的问题是如何更快更好的学习。抛开贝叶斯派的方法，大致分为两类：
达尔文式
启发式算法，仿达尔文进化论，通过适应度函数进行“物竞天择，适者生存”式优化，比较有代表性的：遗传算法GA，粒子群算法PSO，蚁群算法AA；适合解决复杂，指数规模，高维度，大空间等特征问题，如物流路经问题；问题是比较收敛慢，工业界很少用。
拉马克式
拉马克进化论，获得性遗传，直接修改基因(w)；比较有代表性的分两类：
-- sgd variants（sgd/Nesterov/Adagrad/RMSprop/Adam/...）
-- newton variants（newton/lbfgs/...）
#5 evaluation
怎么才算一个好的模型并没有统一标准，一个模型部署上线或多或少的都会牵扯到多方利益。以个性化场景为例，就牵扯到用户，供应商/内容生产方以及产品运营三者的博弈。总的来说，一个“三好模型”要满足以下三个层面：
算法层面：准确率，覆盖率，auc，logloss...公司层面：revenue，ctr，cvr...用户层面：用户体验，满意度，惊喜度...
#0 模型调优思路
拆解之后，模型调优的思路也很清晰了：
 
想长胖，首先要有东西吃；其次要能吃，啥都能吃不挑食；最后消化要好
用一条公式来概括：模型效果 ∝ 数据信息量 x 算法信息利用率
一方面，扩充“信息量”，用户画像和物品画像要做好，把图片/文本这类不好量化处理的数据利用起来；另一方面，改进f(x)提高“信息利用率”，挖到之前挖不到的规律；
不过在大数据的初级阶段，效果主要来自于第一方面吧。

3. 机器学习中几个常见模型的优缺点

机器学习中几个常见模型的优缺点
朴素贝叶斯：优点：对小规模的数据表现很好，适合多分类任务，适合增量式训练。
缺点：对输入数据的表达形式很敏感（连续数据的处理方式）。
决策树：优点：计算量简单，可解释性强，比较适合处理有缺失属性值的样本，能够处理不相关的特征。缺点：容易过拟合（后续出现了随机森林，减小了过拟合现象）。
逻辑回归：优点：实现简单，分类时计算量非常小，速度很快，存储资源低。缺点：容易欠拟合，一般准确度不高；只能处理二分类问题（softmax解决多分类），需线性可分。
损失函数：
KNN：优点：思想简单，理论成熟，既可以用来做分类也可以用来做回归； 可用于非线性分类；训练时间复杂度为O(n)；准确度高，对数据没有假设，对outlier不敏感。缺点：计算量大；样本不平衡时的问题；需要大量的内存；未归一化时影响很大。
SVM：优点：可用于线性/非线性分类，也可以用于回归；低泛化误差；容易解释；计算复杂度较低。缺点：对参数和核函数的选择比较敏感；原始的SVM只比较擅长处理二分类问题。
损失函数：
归一化的作用：
1.      提高梯度下降法求解最优解的速度（很难收敛甚至不能收敛）；例如等高线：
2.      有可能提高精度；一些分类器需要计算样本之间的距离，例如KNN，若一个特征值范围较大，距离计算将取决于这个特征。

机器学习中几个常见模型的优缺点

4. 机器学习中训练只有一个模型吗？

在机器学习中，训练是一个十分重要的步骤，和优化一样，都是能够对机器学习的结果产生直接影响的，而机器学习中不管哪个内容都是需要模型的，通过这些模型我们才能够做得更好。但是很多人对于机器学习存在疑惑，那就是机器学习中的训练只有一个模型吗？下面我们就给大家介绍一下这个问题。
其实在机器学习发展的早期阶段，每个研究者都有自己最喜欢的学习模型，并有一些先验的理由去相信它的优越性。在尝试很多不同方法上做了大量的努力，并选择了结果最好的一个。然而系统的经验比较表明，应用对象不同，最好的学习模型也是有所不同，而且包含许多不同学习器的系统开始出现。现在努力尝试许多学习器的许多变体，选择结果最好的一个。但随后研究人员注意到，如果不是选择去找到最佳变体，而是融合许多变体，结果通常是要好得多。而且对研究人员来说没有额外的工作量。
现在，创建这样的模型融合是机器学习标准化流程。最简单的融合技术，我们通过重新采样简单地生成训练集的随机变化，分别学习一个分类器，并通过投票策略来融合结果。这种方法是有效的，因为它大大降低了模型的方差，而只是稍微增加了偏差。在这里我们就不得不说说一种算法，那就是boosting算法，在Boosting算法中，训练样例有权重，而且这些都是不同的，所以每个新的分类器都集中于前面那些往往会出错的样例上。
在stacking算法中，单个分类器的输出是“更高级”学习器的输入，这个学习器需要计算出如何最好地组合它们。当然，也存在许多其他的技术，而总体趋势是越来越大的模型融合。在某些比赛中，来自世界各地的团队争相构建最佳视频推荐系统。随着比赛的进行，参数团队发现把他们自己的学习器和其他小组的结合起来，并且再与其他组合并为更大的模型，能取得最好的成绩。冠军和亚军都是融合了100多个学习器，而将两只队伍的学习模型再一融合，能进一步提高成绩。毫无疑问，将来我们会看到更大的学习模型。由此可见机器学习中训练不只是一个模型。
在这篇文章中我们给大家介绍了关于机器学习中的训练模型的具体内容，那就是机器学习中训练模型不只是一种，我们一定要博学广义，才能够让自己更加优秀和强大。希望这篇文章能够给大家带来帮助。

5. 机器学习“判定模型”，“生成模型‘有什么区别？

首先区分生成/判别方法和生成/判别模型。有监督机器学习方法可以分为生成方法和判别方法（常见的生成方法有混合高斯模型、朴素贝叶斯法和隐形马尔科夫模型等，常见的判别方法有SVM、LR等），生成方法学习出的是生成模型，判别方法学习出的是判别模型。
接着对生成模型和判别模型做更详细一点的解释。这里定义训练数据为(C,X)，C={c1,c2,....cn}是n个训练样本的label，X={x1,x2....xn}是n个训练样本的feature。定义单个测试数据为(,),为测试数据的lable，是测试样本的feature。
1）训练完毕后，输入测试数据，判别模型直接给出的是，即输出（label）关于输入（feature）的条件分布，实际上，这个分布的条件还有训练数据---------因为实际上我们是“看过”训练数据之后，学习到了对数据分布的后验认识，然后根据这个认识和测试样本的feature来做出测试样本属于哪个label的决策的，所以有=。
我们认为这个条件分布由参数决定的，即那么如何由得呢？如果我们可以求出参数关于训练数据的的后验分布（这其实就是学习过程），那么就可以来得到想要的答案（关于②如何得到，请参考其他地方的讨论PRML第一章公式1.68如何推导？ - 机器学习 - 知乎，第31页公式1.68怎么推导的啊..）。
所以现在问题转化成了求条件分布的参数关于训练数据（C,X）的后验分布。那么我们来看看怎么求这个后验分布。条件分布关于训练数据的似然函数

机器学习“判定模型”，“生成模型‘有什么区别？

6. 机器学习的研究意义

学习是人类具有的一种重要智能行为，但究竟什么是学习，长期以来却众说纷纭。社会学家、逻辑学家和心理学家都各有其不同的看法。比如，Langley（1996) 定义的机器学习是“机器学习是一门人工智能的科学，该领域的主要研究对象是人工智能，特别是如何在经验学习中改善具体算法的性能”。（Machine learning is a science of the artificial. The field's main objects of study are artifacts, specifically algorithms that improve their performance with experience.'）Tom Mitchell的机器学习(1997)对信息论中的一些概念有详细的解释,其中定义机器学习时提到，“机器学习是对能通过经验自动改进的计算机算法的研究”。（Machine Learning is the study of computer algorithms that improve automatically through experience.）Alpaydin（2004）同时提出自己对机器学习的定义，“机器学习是用数据或以往的经验，以此优化计算机程序的性能标准。”（Machine learning is programming computers to optimize a performance criterion using example data or past experience.）尽管如此，为了便于进行讨论和估计学科的进展，有必要对机器学习给出定义，即使这种定义是不完全的和不充分的。顾名思义， 机器学习是研究如何使用机器来模拟人类学习活动的一门学科。稍为严格的提法是：机器学习是一门研究机器获取新知识和新技能，并识别现有知识的学问。这里所说的“机器”，指的就是计算机，电子计算机，中子计算机、光子计算机或神经计算机等等。机器能否象人类一样能具有学习能力呢？1959年美国的塞缪尔(Samuel)设计了一个下棋程序，这个程序具有学习能力，它可以在不断的对弈中改善自己的棋艺。4年后，这个程序战胜了设计者本人。又过了3年，这个程序战胜了美国一个保持8年之久的常胜不败的冠军。这个程序向人们展示了机器学习的能力，提出了许多令人深思的社会问题与哲学问题。机器的能力是否能超过人的，很多持否定意见的人的一个主要论据是：机器是人造的，其性能和动作完全是由设计者规定的，因此无论如何其能力也不会超过设计者本人。这种意见对不具备学习能力的机器来说的确是对的，可是对具备学习能力的机器就值得考虑了，因为这种机器的能力在应用中不断地提高，过一段时间之后，设计者本人也不知它的能力到了何种水平。机器学习有下面几种定义： “机器学习是一门人工智能的科学，该领域的主要研究对象是人工智能，特别是如何在经验学习中改善具体算法的性能”。 “机器学习是对能通过经验自动改进的计算机算法的研究”。 “机器学习是用数据或以往的经验，以此优化计算机程序的性能标准。” 一种经常引用的英文定义是：A computer program is said to learn from experience E with respect to some class of tasks T and performance measure P, if its performance at tasks in T, as measured by P, improves with experience E.机器学习已经有了十分广泛的应用，例如：数据挖掘、计算机视觉、自然语言处理、生物特征识别、搜索引擎、医学诊断、检测信用卡欺诈、证券市场分析、DNA序列测序、语音和手写识别、战略游戏和机器人运用。

7. 机器学习“判定模型”和“生成模型‘有什么区别

首先区分生成/判别方法和生成/判别模型。

有监督机器学习方法可以分为生成方法和判别方法（常见的生成方法有混合高斯模型、朴素贝叶斯法和隐形马尔科夫模型等，常见的判别方法有SVM、LR等），生成方法学习出的是生成模型，判别方法学习出的是判别模型。接着对生成模型和判别模型做更详细一点的解释。这里定义训练数据为(C,X)，C={c1,c2,....cn}是n个训练样本的label，X={x1,x2....xn}是n个训练样本的feature。定义单个测试数据为(,),为测试数据的lable，是测试样本的feature。
1）训练完毕后，输入测试数据，判别模型直接给出的是，即输出（label）关于输入（feature）的条件分布，实际上，这个分布的条件还有训练数据---------因为实际上我们是“看过”训练数据之后，学习到了对数据分布的后验认识，然后根据这个认识和测试样本的feature来做出测试样本属于哪个label的决策的，所以有=。
我们认为这个条件分布由参数决定的，
即------------------------------------------------------------------------------------------------------------①
那么如何由得到呢？如果我们可以求出参数关于训练数据的的后验分布（这其实就是学习过程），那么就可以由
===------------②
来得到想要的答案（关于②如何得到，请参考其他地方的讨论PRML第一章公式1.68如何推导？ - 机器学习 - 知乎，第31页公式1.68怎么推导的啊..）。
所以现在问题转化成了求条件分布的参数关于训练数据（C,X）的后验分布。那么我们来看看怎么求这个后验分布。条件分布关于训练数据的似然函数
==--------------------------------------------------------------------------③
有没有发现和有一点像？像在和C互换了位置，互为条件概率，可以考虑使用贝叶斯公式来进行转化，即
=------------------------------------------------------------------------------④
所以现在问题又进行了转化，变成了求条件分布关于训练数据的似然函数、参数的先验分布和C关于X的条件分布三个小问题。我们已经知道似然函数怎么求，先验分布也不需要求（先验知识，就是我们在解决问题之前已经知道的知识），而
==----------------------------------------------⑤
至此问题已经解决，综合上述①-⑤各式，我们终于可以求出输出关于输入的条件分布啦！
=---------------------------------------------------⑥
⑥中的两个积分的计算是很麻烦的，在实际解决问题的过程中要想办法省略掉。
对于②中积分公式可以使用variational inference的方法干掉，variational inference用一句话来说就是：如果训练样本足够多的话，可以使用的最大后验分布来对进行点估计(point estimate)。即有：
==----------------------------------------------------------------------⑦
所以我们干掉了第一个积分问题，把问题简化成了求的最大后验概率。
观察④式可以发现分子是常数，如果我们省略掉④中的分子对结果是没有影响的（只需要对分子进行normalize就可以得到后验概率），那么我们又干掉了第二个积分公式，将问题简化成了求的最大值。如果先验分布在似然函数较大的区间是固定不变或变化较小的，那么问题又可以转化成求最大似然函数！
实际上，在噪声高斯分布的假设下，最小误差平方和优化问题（即求使误差平方和最小的参数）等价于求最大似然函数（即使似然函数最大的参数）。
做一个总结，判别模型求解的思路是：条件分布------>模型参数后验概率最大------->（似然函数参数先验）最大------->最大似然

2）现在考虑生成模型。给定输入，生成模型可以给出输入和输出的联合分布，所以生成方法的目标是求出这个联合分布。这里以朴素贝叶斯模型为例，我们要求的目标可以通过：
=------------------------------------------------------------------------------------------⑧
这样将求联合分布的问题转化成了求类别先验概率和类别条件概率的问题，朴素贝叶斯方法做了一个较强的假设--------feature的不同维度是独立分布的，简化了类别条件概率的计算，如果去除假设就是贝叶斯网络，这里不再赘述。
以朴素贝叶斯为例，生成模型的求解思路是：联合分布------->求解类别先验概率和类别条件概率
最后说一说两种模型的优缺点：
生成模型：
优点：
1）生成给出的是联合分布，不仅能够由联合分布计算条件分布（反之则不行），还可以给出其他信息，比如可以使用来计算边缘分布。如果一个输入样本的边缘分布很小的话，那么可以认为学习出的这个模型可能不太适合对这个样本进行分类，分类效果可能会不好，这也是所谓的outlier detection。
2）生成模型收敛速度比较快，即当样本数量较多时，生成模型能更快地收敛于真实模型。
3）生成模型能够应付存在隐变量的情况，比如混合高斯模型就是含有隐变量的生成方法。
缺点：
1）天下没有免费午餐，联合分布是能提供更多的信息，但也需要更多的样本和更多计算，尤其是为了更准确估计类别条件分布，需要增加样本的数目，而且类别条件概率的许多信息是我们做分类用不到，因而如果我们只需要做分类任务，就浪费了计算资源。
2）另外，实践中多数情况下判别模型效果更好。
判别模型：
优点：
1）与生成模型缺点对应，首先是节省计算资源，另外，需要的样本数量也少于生成模型。
2）准确率往往较生成模型高。
3）由于直接学习，而不需要求解类别条件概率，所以允许我们对输入进行抽象（比如降维、构造等），从而能够简化学习问题。
缺点：
1）是没有生成模型的上述优点。

机器学习“判定模型”和“生成模型‘有什么区别

8. 机器学习“判定模型”和“生成模型‘有什么区别

最基本的区别就是建模对象不同, 但目的都是求出P(Y|X)
判别模型Discriminative Model:
直接对P(Y|X)进行建模,   判别模型不考虑如何生成 X 和 Y 的联合事件, 比如 SVM 只考虑把点分开而已, 鲁棒性比较强, 但需要更多的训练数据.
生成模型 Generative Model:
利用贝叶斯公式, 先对P(X|Y)进行建模, 然后利用训练集中的 P(Y) 求出联合**概率分布 P(X,Y)**, 最后除以X的概率分布P(X)得出我们的目标(P(Y|X)). 最常见的例子朴素贝叶斯. 生成模型需要做出更多的假设, 因此适用于数据较少的情况下, 但鲁棒性不强, 因为假设错了就效果很差了.
给一个栗子, 外星人来地球拿了一个数据集包含了地球人的身体特征, 标签有2类:男和女. 如果训练数据集只有1%是数据是男性, 而99%是女性. 那么外星人科学家就有可能认为给定随机一个人类, 该人类是女性的P(y=female)概率是99%, 按照这个假设去做生成模型就会很不给力, 但判别模型就没有这个问题.
——Matthew_zeng
我们从几句话进入这两个概念： 1、机器学习分为有监督的机器学习和无监督的机器学习； 2、有监督的机器学习就是已知训练集数据的类别情况来训练分类器，无监督的机器学习就是不知道训练集的类别情况来训练分类器； 3、所以说，有监督的机器学习可以抽象为一个分类task，而无监督的基本完成的是聚类； 4、有监督的机器学习中，我们可以概述为通过很多有标记的数据，训练出一个模型，然后利用这个，对输入的X进行预测输出的Y。这个模型一般有两种：
决策函数：Y=f(X) 条件概率分布：P(Y|X)
5、根据通过学习数据来获取这两种模型的方法，我们可以分为判别方法和生成方法；
6、概念正式介绍
判别方法：由数据直接学习决策函数Y=f(X)或条件概率分布P(Y|X)作为预测模型，即判别模型。判别方法关心的是对于给定的输入X，应该预测什么样的输出Y。
数据直接学习决策函数Y=f(X)或条件概率分布P(Y|X)得到的预测模型，就是判别模型；
生成方法：由数据学习联合概率分布P(X,Y), 然后由P(Y|X)=P(X,Y)/P(X)求出概率分布P(Y|X)作为预测的模型。该方法表示了给定输入X与产生输出Y的生成关系
P(Y|X)作为的预测的模型就是生成模型；
两个模型的范例
生成模型：朴素贝叶斯、隐马尔可夫（em算法） 判别模型：k近邻法、感知机、决策树、逻辑回归、线性回归、最大熵模型、支持向量机(SVM)、提升方法、条件随机场（CRF）
对比
1、生成模型可以还原出联合概率分布（还原数据本身相似度），而判别方法不能； 2、生成方法的学习收敛速度更快，当样本容量增加的时候，学到的模型可以更快的收敛于真实模型； 3、当存在隐变量时，仍可以利用生成方法学习，此时判别方法不能用； 4、判别学习不能反映训练数据本身的特性，但它寻找不同类别之间的最优分类面，反映的是异类数据之间的差异，直接面对预测，往往学习的准确率更高，由于直接学习P(Y|X)或Y=f（X），从而可以简化学习； 5、简单的说，生成模型是从大量的数据中找规律，属于统计学习；而判别模型只关心不同类型的数据的差别，利用差别来分类。