您当前浏览器版本过低,为了不影响您的使用,建议您使用最新的谷歌浏览器、火狐浏览器、 360浏览器,更换浏览器后使用更流畅!(注意!双核浏览器请切换为极速模式)
400-607-9388

正确权衡可解释的AI

2020-04-03
4437

1997年,IBM超级计算机Deep Blue对国际象棋冠军Garry Kasparov采取了行动,这使他震惊。 卡斯帕罗夫(Kasparov)似乎无法选择牺牲计算机中的一台,因此他认为这是计算机卓越智能的标志。


然而,十五年后,Deep Blue的一位设计师透露,这一重大举动并不是高级机器智能的标志,而是错误的结果。


如今,没有人能像棋一样击败计算机,但是这个故事仍然突显出,当您不知道发生了什么时,盲目地信任AI是多么容易。在游戏的背景下,这可能不是什么大问题,但是,当算法在协助医生进行医学诊断或用于做出聘用决策时又会如何呢?


随着人工智能进入我们的社会结构,机器学习模型做出的决策将具有更大的风险。同时,驱动这些决策的深度学习算法正在以我们无法理解的方式从大量数据中获取见解。您如何解释从TB级数据得出结论的神经网络中发生了什么?

许多人开始争辩说,人们有权了解影响他们的决策算法,对于公司而言,重要的是能够确定算法何时出错

。对于数据科学家而言,这是一个巨大的挑战:在理解算法中正在发生的事情与使其足够复杂以做出准确决策之间取得适当的平衡。

 


                    微信图片_20200403162616.png


当谈到可解释的AI时,Zillow Offer 的应用科学总监David Fagnan 提出了一种哲学,那就是让各地的数学老师都微笑。首先要始终展示您的工作。


这种方法塑造了他使用Zillow最新的AI工具Zillow Offer的方向。该算法旨在计算一个人的房屋价格,然后Zillow将购买该房屋。Fagnan说,尽管它使用一些复杂的决策技术在Zillow的数据库中找到可比的房屋来得出该估计,但结果是以人类可以理解的语言呈现的。


Fagnan说:“如果我们承认可解释性是我们所关心的,那么我们可以将其嵌入目标函数中。” “现在,想象一下我们有一个目标功能,该功能既要考虑准确性又要说明这种可解释性。”


在这种情况下,该算法通过比较市场分析来显示其在计算房屋价值时所考虑的因素-一种常见的房地产经纪人在评估房屋价格时使用的因素。这样一来,与Zillow合作的本地房地产经纪人就可以审核算法的发现并查明算法可能遗漏的因素(例如,邻里即将来临或地板倾斜)并调整结果。


Fagnan说,“人在回路”方法使Zillow能够不断训练模型并提高准确性。


“如果我们承认可解释性是我们关心的问题,那么我们可以将其嵌入目标函数中。”


然而,ThoughtWorks的数据科学家David Johnston 告诫不要试图使每种算法都可以解释。对于初学者来说,人们并不总是需要了解黑盒算法中发生的事情。约翰斯顿说,如果计算机视觉工具将猫识别为猫,则不必知道它用来做出决定的数据。您只需要知道那是一只猫。


除此之外,重要的是要了解透明度不等于公平或可解释性。例如,一个使用深度学习算法的招聘软件来分析一个人的脸部和言语模式以确定其可雇用性得分。约翰斯顿说,即使该算法在其所采用的功能上更加透明,并解释了为什么一个人可以被录用或不被录用,它也不会使其变得更加公平。


约翰斯顿说:“即使他们使用了简单的东西,例如线性模型,也将像现在一样令人恐惧。” “那是因为无论发生什么,您都不会期望它们成为为什么您应该或不应该获得工作机会的充分理由。”


除非人们了解公式或深度学习模型的工作原理,否则识别算法基础的数据输入和数字也无济于事。除此以外,它们只是数字。然后是自动化偏差的问题。如果没有正确理解AI的决策过程,尽管有相反的证据,人们仍会认为计算机正在做出正确的选择。

约翰斯顿说,那么重要的是将数据呈现到上下文中,并从一个清晰,公正的目标开始。


一、检测情感CompanionMX如何训练其AI以发现抑郁症的迹象

 


                  微信图片_20200403162626.png



二、定义可解释性可以帮助您取得平衡  

约翰斯顿说,如果您可以在板上编写算法并轻松地解释它,那么很有可能,它将无用。算法变得越来越复杂,因为复杂性允许它们从更大的数据集中提取信息,将信息放到上下文中并制定更复杂的解决方案。因此,在他看来,为了说明性,我们不应该将所有算法都简化为线性模型。


相反,重要的是要理解在构建可解释性时的内在取舍。约翰斯顿说,最大的一个是偏差方差的权衡。如果某人正在使用深度学习模型构建信用担保算法,那么它可能会准确地准确识别高价值借款人,这意味着其统计偏差较低。但是,在个人层面上,由于数据输入的原因,两个背景差异很小的人可能会收到完全不同的结果。


约翰斯顿说:“除了完全随机之外,这会产生类似偏差的现象。”

一种更简单的算法可能与其结果更一致,但是由于它占用的数据输入较少,因此,如果未正确校准,它可能会产生不太准确的结果。


Fagnan在构建Zillow Offer时吸取的最大教训之一是,他的团队需要有多么认真地表达他们为实现可解释性目标愿意付出的努力。

为了帮助做出这些选择,Fagnan说,从一开始就将可解释性作为其AI的目标,就起到了至关重要的作用。对于Zillow优惠,该算法需要计算准确的房价,并以当地房地产经纪人可以理解的方式说明该价格是如何计算出来的。


“您可以想象,最黑匣子的模型可能会更准确一些,然后再加上最白匣子的模型,您可能会放弃一些准确性。”

然后,他们使用数学世界中称为Pareto Frontier模型的模型来识别一系列模型,这些模型的范围从高精度和低解释性到高解释性但低准确性。Fagnan说,从那里开始,找到合适的组合取决于商业决策。


Fagnan说:“您可以想象,最黑匣子的模型可能会更准确一些,然后再加上最白匣子的模型,您可能会放弃一些准确性。”

他们决定放弃一些更复杂的模型可以提供的准确性,以便人类可以与之交互。整合人员还意味着他们必须减小规模-这种模型不能像Zestimate工具那样工作,该工具将每个房屋都合并到其数据库中。


不过,法格南说,有可能找到一个最佳位置。由于算法的结果与本地房地产经纪人有关,因此这些代理能够审核其发现并纠正数据中的错误。他们的数据修订可以导致目前更准确的房屋价值,并改善训练数据,从长远来看将提高模型的准确性。


“如果我们根据机器选择一条曲线上的解决方案更容易解释且准确性较低,但是随后我们将其输入人类并能够与之交互……这可能会导致组合系统比任何一种更为精确黑匣子或人类。”法格南说。

 


                         微信图片_20200403162632.png


三、从简单开始,然后测试您的复杂性  


约翰斯顿说,但是,如果培训数据和目标来自有偏见的基金会,那么这些都不重要。


算法本身代表了构建它们的人员以及他们所接受的数据的扩展—正如他们所说的那样,垃圾进出。最好的方法是从一个公平的目标(算法的目标)开始,该目标要解决偏差,然后确定一组平衡的数据。


“这可能显示出您意料之外的某种偏见,例如,'哦,它确实非常关心此变量。'”


在此,Johnston建议始终从最简单的线性模型开始,以查看该数据如何影响结果。与从复杂的模型开始相比,使用简单的算法进行测试可以更深入地了解数据的作用。它还可以为可解释性奠定框架。


约翰斯顿说:“这可能显示出您意料之外的某种偏见,例如,'哦,它确实很关心这个变量。” “然后,您可以调查它为何关心该变量,并且可以发现导致这种效果的某种偏见。”


经过这些测试后,Johnston建议使算法更复杂,并观察它如何影响准确性得分。一旦收益最小化,就该停止了。他建议,通过这种方式,数据科学家可以帮助您找到不仅仅出于复杂性而变得复杂的模型。


最终,寻求建立我们可以信任的AI模型的解决方案可能是放慢速度并了解我们正在构建的内容。与其冲向复杂性以自动完成所有事情,不如看看人类在决策中可以扮演什么角色。


Fagnan说,他的团队最终希望找到一种使其Offer工具自动化的方法,但是在此阶段合并人员可以使他们训练极端情况和发现错误。对于他们来说,退回可解释性代表着将来更准确的一步。


Fagnan说:“进化将找出使用人类的正确场所。” “因此,这可能意味着在存在更多主观信息或更具辅助性的审计能力的情况下将其合并。”



已收藏 0
点赞 0

学术会议

【英文期刊出版】第六届心理健康与教育、人文发展国际学术会议 (MHEHD 2025)
第六届心理健康与教育、人文发展国际学术会议 (MHEHD 2025)将于5月23-25日在唐山召开,主要围绕心理健康与教育、人文发展等相关研究领域展开讨论,旨在为相关领域学者提供交流平台。
2025-05-23
第十一届水利、土木工程国际学术会议暨工程安全与智能化论坛(ICHCE&ESI 2025)
第十一届水利、土木工程国际学术会议暨工程安全与智能化论坛由河海大学主办,多个研究所以及高校联合举办,将于2025年6月13-15日在河海大学举办,欢迎各位专家学者投稿或参会。
2025-06-13
【特设优秀评选!IEEE出版,EI稳定检索!】第七届下一代数据驱动网络国际学术会议(NGDN 2025)
第七届下一代数据驱动网络国际会议暨网络与大数据高端论坛(NGDN 2025)将于2025年6月6日至8日在中国沈阳举行。大会主要围绕“计算机科学与数据驱动网络”的最新研究展开。
2025-06-06
【IEEE出版|往届会后3个月EI检索】第五届计算机技术与信息科学国际研讨会 (ISCTIS 2025)
由西安欧亚学院主办,第五届计算机技术与信息科学国际研讨会 (ISCTIS 2025)将于2025年5月16-18日在陕西西安盛大召开,会议主题围绕计算机技术、信息科学进行展开。
2025-05-16
【 往届见刊后1个月检索|连续EI稳检索】第五届能源工程、新能源材料与器件国际学术会议(NEMD 2025)
第五届能源工程、新能源材料与器件国际学术会议(NEMD 2025)将于2025年5月16-18日在广西桂林召开。桂林理工大学主办,新能源/太阳能/储能/物理与材料科学相关
2025-05-16
【IEEE出版|西安石油大学主办】第十届智能计算与信号处理国际学术会议(ICSP 2025)
第十届智能计算与信号处理国际学术会议(ICSP 2025)将在西安举行,会期是2025年5月16-18日,为期三天,欢迎参会!大会安排主旨报告,特邀报告,以及数个专题讨论会(形式包括口头报告,海报展示
2025-05-16
相关资讯

SCI一区文章和二区文章有区别吗

SCI分区是众所周知的,一区文章和二区文章其实也是相对于期刊的分区来说的,一区文章就是发表在SCI一区期刊上的文章,二区文章就是发表在SCI二区期刊上的文章,由于SCI分区共分为四个区,一区学术价值最大。

291057

0

2021-04-21

hm² 是什么单位?hm² 怎样换算?

hm² 是一个什么单位呢?hm² 怎样换算?它与我们常见的单位的换算又是怎么样的?本期艾思科蓝​小编带大家了解一下hm² 这个单位。

130735

1

2021-11-17

投稿期刊需要关键字吗

投稿期刊需要关键字吗?在当今信息爆炸的时代,学术研究成果的传播与获取面临着前所未有的挑战。作为连接研究者与读者的重要桥梁,学术期刊的投稿规范日益受到学界重视。其中,关键词的设置作为论文元数据的重要组成部分,其必要性常被一些研究者所忽视。本文旨在系统探讨关键词在期刊投稿中的作用,分析其对学术传播的影响机制,并提供科学的关键词选择方法,以期帮助研究者提升论文的可见度和影响力。

66

0

2025-04-30

外文期刊怎么查找

外文期刊怎么查找?在学术研究过程中,查找和获取高质量的外文期刊是每个研究者必备的技能。本文将系统介绍查找外文期刊的多种途径、实用技巧以及注意事项,帮助您更高效地获取所需学术资源。

85

0

2025-04-30

论文投核心期刊技巧

论文投核心期刊技巧,在学术研究领域,将研究成果发表在核心期刊上是衡量研究者学术水平的重要指标之一。然而,投稿过程往往充满挑战,许多研究者尽管拥有高质量的研究成果,却因缺乏投稿技巧而屡遭拒稿。本文将从期刊选择到发表后的注意事项,系统介绍投稿核心期刊的关键技巧,帮助研究者提高投稿成功率,实现学术成果的有效传播。

79

0

2025-04-30

外文期刊发表技巧

外文期刊发表技巧,在全球化背景下,学术交流日益频繁,发表外文期刊论文已成为学者们展示研究成果、提升学术影响力的重要途径。然而,由于语言障碍、文化差异以及严格的审稿标准,许多学者在这一过程中面临诸多挑战。本文将系统介绍外文期刊发表的技巧,帮助学者们顺利实现学术成果的国际传播。

126

0

2025-04-30