您当前浏览器版本过低,为了不影响您的使用,建议您使用最新的谷歌浏览器、火狐浏览器、 360浏览器,更换浏览器后使用更流畅!(注意!双核浏览器请切换为极速模式)
400-607-9388

正确权衡可解释的AI

2020-04-03
6513

1997年,IBM超级计算机Deep Blue对国际象棋冠军Garry Kasparov采取了行动,这使他震惊。 卡斯帕罗夫(Kasparov)似乎无法选择牺牲计算机中的一台,因此他认为这是计算机卓越智能的标志。


然而,十五年后,Deep Blue的一位设计师透露,这一重大举动并不是高级机器智能的标志,而是错误的结果。


如今,没有人能像棋一样击败计算机,但是这个故事仍然突显出,当您不知道发生了什么时,盲目地信任AI是多么容易。在游戏的背景下,这可能不是什么大问题,但是,当算法在协助医生进行医学诊断或用于做出聘用决策时又会如何呢?


随着人工智能进入我们的社会结构,机器学习模型做出的决策将具有更大的风险。同时,驱动这些决策的深度学习算法正在以我们无法理解的方式从大量数据中获取见解。您如何解释从TB级数据得出结论的神经网络中发生了什么?

许多人开始争辩说,人们有权了解影响他们的决策算法,对于公司而言,重要的是能够确定算法何时出错

。对于数据科学家而言,这是一个巨大的挑战:在理解算法中正在发生的事情与使其足够复杂以做出准确决策之间取得适当的平衡。

 


                    微信图片_20200403162616.png


当谈到可解释的AI时,Zillow Offer 的应用科学总监David Fagnan 提出了一种哲学,那就是让各地的数学老师都微笑。首先要始终展示您的工作。


这种方法塑造了他使用Zillow最新的AI工具Zillow Offer的方向。该算法旨在计算一个人的房屋价格,然后Zillow将购买该房屋。Fagnan说,尽管它使用一些复杂的决策技术在Zillow的数据库中找到可比的房屋来得出该估计,但结果是以人类可以理解的语言呈现的。


Fagnan说:“如果我们承认可解释性是我们所关心的,那么我们可以将其嵌入目标函数中。” “现在,想象一下我们有一个目标功能,该功能既要考虑准确性又要说明这种可解释性。”


在这种情况下,该算法通过比较市场分析来显示其在计算房屋价值时所考虑的因素-一种常见的房地产经纪人在评估房屋价格时使用的因素。这样一来,与Zillow合作的本地房地产经纪人就可以审核算法的发现并查明算法可能遗漏的因素(例如,邻里即将来临或地板倾斜)并调整结果。


Fagnan说,“人在回路”方法使Zillow能够不断训练模型并提高准确性。


“如果我们承认可解释性是我们关心的问题,那么我们可以将其嵌入目标函数中。”


然而,ThoughtWorks的数据科学家David Johnston 告诫不要试图使每种算法都可以解释。对于初学者来说,人们并不总是需要了解黑盒算法中发生的事情。约翰斯顿说,如果计算机视觉工具将猫识别为猫,则不必知道它用来做出决定的数据。您只需要知道那是一只猫。


除此之外,重要的是要了解透明度不等于公平或可解释性。例如,一个使用深度学习算法的招聘软件来分析一个人的脸部和言语模式以确定其可雇用性得分。约翰斯顿说,即使该算法在其所采用的功能上更加透明,并解释了为什么一个人可以被录用或不被录用,它也不会使其变得更加公平。


约翰斯顿说:“即使他们使用了简单的东西,例如线性模型,也将像现在一样令人恐惧。” “那是因为无论发生什么,您都不会期望它们成为为什么您应该或不应该获得工作机会的充分理由。”


除非人们了解公式或深度学习模型的工作原理,否则识别算法基础的数据输入和数字也无济于事。除此以外,它们只是数字。然后是自动化偏差的问题。如果没有正确理解AI的决策过程,尽管有相反的证据,人们仍会认为计算机正在做出正确的选择。

约翰斯顿说,那么重要的是将数据呈现到上下文中,并从一个清晰,公正的目标开始。


一、检测情感CompanionMX如何训练其AI以发现抑郁症的迹象

 


                  微信图片_20200403162626.png



二、定义可解释性可以帮助您取得平衡  

约翰斯顿说,如果您可以在板上编写算法并轻松地解释它,那么很有可能,它将无用。算法变得越来越复杂,因为复杂性允许它们从更大的数据集中提取信息,将信息放到上下文中并制定更复杂的解决方案。因此,在他看来,为了说明性,我们不应该将所有算法都简化为线性模型。


相反,重要的是要理解在构建可解释性时的内在取舍。约翰斯顿说,最大的一个是偏差方差的权衡。如果某人正在使用深度学习模型构建信用担保算法,那么它可能会准确地准确识别高价值借款人,这意味着其统计偏差较低。但是,在个人层面上,由于数据输入的原因,两个背景差异很小的人可能会收到完全不同的结果。


约翰斯顿说:“除了完全随机之外,这会产生类似偏差的现象。”

一种更简单的算法可能与其结果更一致,但是由于它占用的数据输入较少,因此,如果未正确校准,它可能会产生不太准确的结果。


Fagnan在构建Zillow Offer时吸取的最大教训之一是,他的团队需要有多么认真地表达他们为实现可解释性目标愿意付出的努力。

为了帮助做出这些选择,Fagnan说,从一开始就将可解释性作为其AI的目标,就起到了至关重要的作用。对于Zillow优惠,该算法需要计算准确的房价,并以当地房地产经纪人可以理解的方式说明该价格是如何计算出来的。


“您可以想象,最黑匣子的模型可能会更准确一些,然后再加上最白匣子的模型,您可能会放弃一些准确性。”

然后,他们使用数学世界中称为Pareto Frontier模型的模型来识别一系列模型,这些模型的范围从高精度和低解释性到高解释性但低准确性。Fagnan说,从那里开始,找到合适的组合取决于商业决策。


Fagnan说:“您可以想象,最黑匣子的模型可能会更准确一些,然后再加上最白匣子的模型,您可能会放弃一些准确性。”

他们决定放弃一些更复杂的模型可以提供的准确性,以便人类可以与之交互。整合人员还意味着他们必须减小规模-这种模型不能像Zestimate工具那样工作,该工具将每个房屋都合并到其数据库中。


不过,法格南说,有可能找到一个最佳位置。由于算法的结果与本地房地产经纪人有关,因此这些代理能够审核其发现并纠正数据中的错误。他们的数据修订可以导致目前更准确的房屋价值,并改善训练数据,从长远来看将提高模型的准确性。


“如果我们根据机器选择一条曲线上的解决方案更容易解释且准确性较低,但是随后我们将其输入人类并能够与之交互……这可能会导致组合系统比任何一种更为精确黑匣子或人类。”法格南说。

 


                         微信图片_20200403162632.png


三、从简单开始,然后测试您的复杂性  


约翰斯顿说,但是,如果培训数据和目标来自有偏见的基金会,那么这些都不重要。


算法本身代表了构建它们的人员以及他们所接受的数据的扩展—正如他们所说的那样,垃圾进出。最好的方法是从一个公平的目标(算法的目标)开始,该目标要解决偏差,然后确定一组平衡的数据。


“这可能显示出您意料之外的某种偏见,例如,'哦,它确实非常关心此变量。'”


在此,Johnston建议始终从最简单的线性模型开始,以查看该数据如何影响结果。与从复杂的模型开始相比,使用简单的算法进行测试可以更深入地了解数据的作用。它还可以为可解释性奠定框架。


约翰斯顿说:“这可能显示出您意料之外的某种偏见,例如,'哦,它确实很关心这个变量。” “然后,您可以调查它为何关心该变量,并且可以发现导致这种效果的某种偏见。”


经过这些测试后,Johnston建议使算法更复杂,并观察它如何影响准确性得分。一旦收益最小化,就该停止了。他建议,通过这种方式,数据科学家可以帮助您找到不仅仅出于复杂性而变得复杂的模型。


最终,寻求建立我们可以信任的AI模型的解决方案可能是放慢速度并了解我们正在构建的内容。与其冲向复杂性以自动完成所有事情,不如看看人类在决策中可以扮演什么角色。


Fagnan说,他的团队最终希望找到一种使其Offer工具自动化的方法,但是在此阶段合并人员可以使他们训练极端情况和发现错误。对于他们来说,退回可解释性代表着将来更准确的一步。


Fagnan说:“进化将找出使用人类的正确场所。” “因此,这可能意味着在存在更多主观信息或更具辅助性的审计能力的情况下将其合并。”



已收藏 0
点赞 0

学术会议

【广工主办-院士主讲-快速EI检索】2026年低空经济与技术应用国际学术会议(LETA 2026)
2026年低空经济与技术应用国际学术会议(LETA 2026)旨在为从事相关领域的专家学者、工程技术人员、技术研发人员提供一个共享科研成果和前沿技术,了解学术发展趋势和加强学术研究的平台。
2026-03-06
【IEEE出版】第五届智能电网和绿色能源国际学术会议(ICSGGE 2026)
2026年第五届智能电网和绿色能源国际学术会议(ICSGGE 2026)将于2026年3月20-22日在海南省·东方市举行。会议旨在并致力于为研究人员、科学家、工程师和学者提供交流的机会,欢迎参会。
2026-03-20
【IEEE冠名】第八届IEEE通信、信息系统和计算机工程国际会议(IEEE-CISCE 2026)
​第八届通信、信息系统与计算机工程国际会议(CISCE 2026)将于2026年3月27-29日在中国珠海举行。在当前快速发展的信息时代,通信、信息系统和计算机工程领域的研究和应用已经深入到社会的方方
2026-03-27
【ACM出版|往届EI&Scopus已检索】第二届健康信息化与数据分析国际学术会议(HIDA 2026)
第二届健康信息化与数据分析国际学术会议(HIDA 2026)将于2026年3月27日-29日在中国-南京举办,本次会议将围绕健康信息化与数据分析等主题展开讨论,欢迎广大学者参会交流
2026-03-27
届数高|EI稳定快检索【ACM出版】第六届生物信息学与智能计算国际学术研讨会(BIC 2026)
第六届生物信息学与智能计算国际学术研讨会(BIC 2026)将于2026年3月13-15日在中国东莞举办。大会将极大地凝聚中国该领域同仁的力量,使中国生物信息学与智能计算向更高水平、更高质量发展。
2026-03-13
【SPIE 出版 | 会议上线《遥感学报》 | 往届录用文章均已完成EI检索 | EI 检索】第三届遥感技术与测量测绘国际学术会议(RSTSM 2026)
第三届遥感技术与测量测绘国际学术会议(RSTSM 2025)将在2026年3月6-8日于武汉召开。大会旨在为从事遥感、测量、测绘、地理、定位的专家学者提供一个交流平台。
2026-03-06
相关资讯

SCI一区文章和二区文章有区别吗

SCI分区是众所周知的,一区文章和二区文章其实也是相对于期刊的分区来说的,一区文章就是发表在SCI一区期刊上的文章,二区文章就是发表在SCI二区期刊上的文章,由于SCI分区共分为四个区,一区学术价值最大。

324035

0

2021-04-21

hm² 是什么单位?hm² 怎样换算?

hm² 是一个什么单位呢?hm² 怎样换算?它与我们常见的单位的换算又是怎么样的?本期艾思科蓝​小编带大家了解一下hm² 这个单位。

142350

1

2021-11-17

怎么管理好文献资料

在学术研究的道路上,有效管理文献资料绝非小事,它直接关系到我们工作的效率和成果的质量。一套清晰、可持续的文献管理方法,能让我们从混乱中解脱出来,将更多精力投入到真正的思考和创作中。本篇艾思科蓝小编就为大家介绍“怎么管理好文献资料”。

799

0

2026-02-05

写综述时文献怎么管理

面对成百上千篇相关论文,杂乱无章的堆放不仅会拖慢写作进度,更可能导致逻辑混乱、观点遗漏。因此,一套高效、清晰的文献管理方法,是确保综述质量的生命线。本篇艾思科蓝小编就为大家介绍“写综述时文献怎么管理”。

810

0

2026-02-05

怎么管理已经读过的文献

在日常的学术研究或专业学习中,阅读文献是必不可少的一环。随着时间推移,我们积累的已读文献会越来越多,如何高效地管理这些文献,避免陷入“读过了却找不到”“读完了就忘”的困境,成为很多人的痛点。一套清晰的文献管理方法不仅能提升学习效率,也能为后续的写作与思考打下坚实基础。本篇艾思科蓝小编就为大家介绍“怎么管理已经读过的文献”。

803

0

2026-02-05

怎么管理文献

文献是学术研究的基石,有效的管理不仅能节省大量时间,更能帮助我们深化理解、激发灵感。面对日益增长的电子文献,建立一个清晰、高效的个人知识库变得至关重要。本篇艾思科蓝小编就为大家介绍“怎么管理文献”。

802

0

2026-02-05