【机器学习】解释机器学习模型-程序员宅基地

技术标签：机器学习机器学习算法理论与实战模型可解释 Machine Learning

无论数据科学解决方案的最终目标如何，最终用户总是更喜欢可解释且易于理解的解决方案。此外，作为数据科学家，您将始终受益于模型的可解释性，以验证和改进您的工作。在这篇博客文章中，我试图解释机器学习中可解释性的重要性，并讨论一些您可以自己试验的简单操作和框架。

关于机器学习的xkcd

为什么机器学习中的可解释性很重要？

在传统统计中，我们通过调查整个数据来构建和验证假设。我们构建模型来构建规则，我们可以将这些规则合并到流程的心理模型中。例如，营销公司可以构建一个模型，该模型将营销活动数据与财务数据相关联，以确定什么构成有效的营销活动。
这是一种自上而下的数据科学方法，可解释性是关键，因为它是所定义的规则和流程的基石。由于相关性通常不等于因果关系，因此在制定决策和解释时需要一个可靠的模型理解。

在自下而上的数据科学方法中，我们将业务流程的各个部分委托给机器学习模型。此外，通过机器学习实现了全新的商业创意。自下而上的数据科学通常对应于手动和繁重任务的自动化。制造公司可以例如将传感器放在他们的机器上并执行预测性维护。因此，维护工程师可以更高效地工作，而无需执行昂贵的定期检查。模型可解释性是必要的，以验证模型正在做什么符合您的期望，并允许与用户建立信任并简化从手动过程到自动过程的过渡。

在自上而下的过程中，您可以迭代地构造和验证一组假设。在自下而上的方法中，您尝试通过自下而上解决问题来自动化流程。

作为数据科学家，您经常关注微调模型以获得最佳性能。数据科学通常被定义为：'给定带有标签y的数据X，找到具有最小误差的模型'。虽然培训高性能模型的能力对于数据科学家来说是一项关键技能，但重要的是能够从更大的角度看待。数据和机器学习模型的可解释性是数据科学管道实际“有用”中关键的一个方面，它确保模型与您要解决的问题保持一致。虽然在构建模型时尝试使用最先进的技术很容易迷失自己，但能够正确解释您的发现是数据科学过程的重要组成部分。

需要解释模型来验证模型预测的有用性。

为什么对模型进行深入分析至关重要？

作为数据科学家，有几个理由关注模型可解释性。虽然这些之间存在重叠，但它们捕获了可解释性的不同动机：

识别并减轻偏见。

偏差可能存在于任何数据集中，由数据科学家来识别并尝试修复它。数据集的大小可能有限，并且可能无法代表整个数据集，或者数据捕获过程可能没有考虑潜在的偏差。在彻底的数据分析之后或当模型预测与模型输入之间的关系被分析时，偏差通常才会变得明显。如果您想了解更多有关不同类型偏见的信息，我强烈推荐以下视频。请注意，解决偏见没有单一的解决方案，但是在解释性方面意识到潜在偏见的关键步骤。

其他偏见的例子如下：

例如，word2vec向量包含性别偏见，因为他们已经训练过的语料库中存在固有的偏见。当您使用这些单词嵌入来训练模型时，搜索“技术配置文件”的招聘人员会将女性简历留在堆的底部。

例如，当您在小型手动创建的数据集上训练对象检测模型时，通常情况下图像的宽度太有限。需要在不同环境，不同闪电条件和不同角度的物体的各种图像，以避免仅适合数据中的噪声和不重要元素的模型。

考虑问题的背景。

在大多数问题中，您正在使用的数据集只是您要解决的问题的粗略表示，而机器学习模型通常无法捕获现实任务的完整复杂性。可解释的模型可帮助您理解和解释模型中包含的（未）因素，并在根据模型预测执行操作时考虑问题的上下文。

改善泛化和绩效。

高可解释性通常会导致模型更好地推广。可解释性不是要理解所有数据点的模型的每个细节。固体数据，模型和问题理解的结合对于拥有更好的解决方案是必要的。

道德和法律原因。

在金融和医疗保健等行业中，审核决策流程并确保其不歧视或违反任何法律至关重要。随着GDPR等数据和隐私保护法规的兴起，可解释性变得更加重要。此外，在医疗应用或自动驾驶汽车中，单个不正确的预测可能会产生重大影响，并且能够“验证”模型是至关重要的。因此，系统应该能够解释它是如何达到给定的建议的。

解释你的模型

关于模型可解释性的一个共同点是，随着模型复杂性的增加，模型可解释性至少下降得如此之快。特征重要性是解释模型的基本（通常是免费）方法。即使对于诸如深度学习的黑盒模型，也存在提高可解释性的技术。最后，将讨论LIME框架，作为模型分析的工具箱。

特征重要性

广义线性模型

广义线性模型（GLM）都基于以下原则：
如果您将特征x与模型权重w进行线性组合，并通过壁球函数f提供结果，则可以使用它来预测各种各样的响应变量。GLM的最常见应用是回归（线性回归），分类（逻辑回归）或建模泊松过程（泊松回归）。训练后获得的权重是特征重要性的直接代表，它们为模型内部提供了非常具体的解释。

例如，在构建文本分类器时，您可以绘制最重要的特征并验证模型是否过度拟合噪声。如果最重要的单词与您的直觉（例如名称或停用词）不对应，则可能意味着该模型适合数据集中的噪声，并且在新数据上表现不佳。

TidyTextMining中用于文本可解释性的整洁可视化示例。

随机森林和SVM

甚至诸如基于树的模型（例如，随机森林）之类的非线性模型也允许获得关于特征重要性的信息。在随机森林中，在训练模型时，特征重要性是免费的，因此它是验证初始假设并确定模型正在学习什么的好方法。基于内核的方法（如SVM）中的权重通常不是特征重要性的非常好的代表。内核方法的优点是，您可以通过将特征投影到内核空间来捕获变量之间的非线性关系。另一方面，仅仅将权重视为特征重要性并不能完成特征交互。

通过查看特征重要性，您可以确定模型正在学习什么。由于这个模型中的许多重要性都被放到了一天中，因此可能值得加入其他基于时间的功能。（Kaggle）

深度学习

由于参数的剪切数量和提取和组合特征的复杂方法，深度学习模型因其不可解释性而臭名昭着。由于这类模型能够在许多任务上获得最先进的性能，因此许多研究都集中在将模型预测与输入联系起来。

可解释机器学习的研究数量正在快速增长（麻省理工学院）。

特别是当转向处理文本和图像数据的更复杂系统时，很难解释模型实际学习的内容。研究的主要焦点目前主要是将输出或预测与输入数据联系起来并将其关联起来。虽然这在线性模型的背景下相当容易，但对于深度学习网络来说仍然是一个未解决的问题。两种主要方法是基于梯度或基于注意力。

- 在基于梯度的方法中，在向后传递中计算的目标概念的梯度用于产生突出显示输入中用于预测目标概念的重要区域的地图。这通常应用于计算机视觉环境中。

Grad-CAM是一种基于梯度的方法，用于生成视觉字幕。基于输出标题，该方法确定输入图像中的哪些区域是重要的。

- 基于注意的方法通常与顺序数据（例如文本数据）一起使用。除了网络的正常权重之外，还训练注意力量作为“输入门”。这些注意力量决定了最终网络输出中每个不同元素的数量。除了可解释性之外，在例如基于文本的问答的背景下的关注也导致更好的结果，因为网络能够“集中”其注意力。

在回答问题时，可以指出文本中哪些词最重要，以确定问题的答案。

Lime

Lime是一个更通用的框架，旨在使“任何”机器学习模型的预测更易于理解。

为了保持与模型无关，LIME通过在本地修改模型的输入来工作。因此，不是试图同时理解整个模型，而是修改特定的输入实例，并监控对预测的影响。在文本分类的上下文中，这意味着例如替换了一些单词，以确定输入的哪些元素影响预测。

原文：https://towardsdatascience.com/interpretability-in-machine-learning-70c30694a05f

本文链接：https://blog.csdn.net/ChenVast/article/details/81975347

原作者删帖不实内容删帖广告或垃圾文章投诉

智能推荐

leetcode 172. 阶乘后的零-程序员宅基地

文章浏览阅读63次。题目给定一个整数 n，返回 n! 结果尾数中零的数量。解题思路每个0都是由2 * 5得来的，相当于要求n!分解成质因子后2 * 5的数目，由于n中2的数目肯定是要大于5的数目，所以我们只需要求出n!中5的数目。C++代码class Solution {public: int trailingZeroes(int n) { ...

Day15-【Java SE进阶】IO流（一）：File、IO流概述、File文件对象的创建、字节输入输出流FileInputStream FileoutputStream、释放资源。_outputstream释放-程序员宅基地

文章浏览阅读992次，点赞27次，收藏15次。UTF-8是Unicode字符集的一种编码方案，采取可变长编码方案，共分四个长度区:1个字节，2个字节，3个字节，4个字节。文件字节输入流：每次读取多个字节到字节数组中去，返回读取的字节数量，读取完毕会返回-1。注意1:字符编码时使用的字符集，和解码时使用的字符集必须一致，否则会出现乱码。定义一个与文件一样大的字节数组，一次性读取完文件的全部字节。UTF-8字符集:汉字占3个字节，英文、数字占1个字节。GBK字符集:汉字占2个字节，英文、数字占1个字节。GBK规定:汉字的第一个字节的第一位必须是1。_outputstream释放

jeecgboot重新登录_jeecg 登录自动退出-程序员宅基地

文章浏览阅读1.8k次，点赞3次，收藏3次。解决jeecgboot每次登录进去都会弹出请重新登录问题，在utils文件下找到request.js文件注释这段代码即可_jeecg 登录自动退出

数据中心供配电系统负荷计算实例分析-程序员宅基地

文章浏览阅读3.4k次。我国目前普遍采用需要系数法和二项式系数法确定用电设备的负荷，其中需要系数法是国际上普遍采用的确定计算负荷的方法，最为简便;而二项式系数法在确定设备台数较少且各台设备容量差..._数据中心用电负荷统计变压器

HTML5期末大作业：网页制作代码网站设计——人电影网站(5页) HTML+CSS+JavaScript 学生DW网页设计作业成品 dreamweaver作业静态HTML网页设计模板_网页设计成品百度网盘-程序员宅基地

文章浏览阅读7k次，点赞4次，收藏46次。HTML5期末大作业：网页制作代码网站设计——人电影网站(5页) HTML+CSS+JavaScript 学生DW网页设计作业成品 dreamweaver作业静态HTML网页设计模板常见网页设计作业题材有个人、美食、公司、学校、旅游、电商、宠物、电器、茶叶、家居、酒店、舞蹈、动漫、明星、服装、体育、化妆品、物流、环保、书籍、婚纱、军事、游戏、节日、戒烟、电影、摄影、文化、家乡、鲜花、礼品、汽车、其他等网页设计题目, A+水平作业_网页设计成品百度网盘

【Jailhouse 文章】Look Mum, no VM Exits_jailhouse sr-iov-程序员宅基地

文章浏览阅读392次。jailhouse 文章翻译，Look Mum, no VM Exits!_jailhouse sr-iov

随便推点

chatgpt赋能python：Python怎么删除文件中的某一行_python 删除文件特定几行-程序员宅基地

文章浏览阅读751次。本文由chatgpt生成，文章没有在chatgpt生成的基础上进行任何的修改。以上只是chatgpt能力的冰山一角。作为通用的Aigc大模型，只是展现它原本的实力。对于颠覆工作方式的ChatGPT，应该选择拥抱而不是抗拒，未来属于“会用”AI的人。AI职场汇报智能办公文案写作效率提升教程专注于AI+职场+办公方向。下图是课程的整体大纲下图是AI职场汇报智能办公文案写作效率提升教程中用到的ai工具。_python 删除文件特定几行

Java过滤特殊字符的正则表达式_java正则表达式过滤特殊字符-程序员宅基地

文章浏览阅读2.1k次。【代码】Java过滤特殊字符的正则表达式。_java正则表达式过滤特殊字符

CSS中设置背景的7个属性及简写background注意点_background设置背景图片-程序员宅基地

文章浏览阅读5.7k次，点赞4次，收藏17次。css中背景的设置至关重要，也是一个难点，因为属性众多，对应的属性值也比较多，这里详细的列举了背景相关的7个属性及对应的属性值，并附上演示代码，后期要用的话，可以随时查看，那我们坐稳开车了······1: background-color 设置背景颜色2:background-image来设置背景图片- 语法：background-image:url(相对路径);-可以同时为一个元素指定背景颜色和背景图片，这样背景颜色将会作为背景图片的底色，一般情况下设置背景..._background设置背景图片

Win10 安装系统跳过创建用户，直接启用 Administrator_windows10msoobe进程-程序员宅基地

文章浏览阅读2.6k次，点赞2次，收藏8次。Win10 安装系统跳过创建用户，直接启用 Administrator_windows10msoobe进程

PyCharm2021安装教程-程序员宅基地

文章浏览阅读10w+次，点赞653次，收藏3k次。Windows安装pycharm教程新的改变功能快捷键合理的创建标题，有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图功能，丰富你的文章UML 图表FLowchart流程图导出与导入导出导入下载安装PyCharm1、进入官网PyCharm的下载地址：http://www.jetbrains.com/pycharm/downl_pycharm2021

《跨境电商——速卖通搜索排名规则解析与SEO技术》一一1.1　初识速卖通的搜索引擎...-程序员宅基地

文章浏览阅读835次。本节书摘来自异步社区出版社《跨境电商——速卖通搜索排名规则解析与SEO技术》一书中的第1章，第1.1节，作者：冯晓宁，更多章节内容可以访问云栖社区“异步社区”公众号查看。1.1　初识速卖通的搜索引擎1.1.1　初识速卖通搜索作为速卖通卖家都应该知道，速卖通经常被视为“国际版的淘宝”。那么请想一下，普通消费者在淘宝网上购买商品的时候，他的行为应该..._跨境电商速卖通搜索排名规则解析与seo技术 pdf