AI 模型大量出现以后,该领域的从业者必须能够解释其内部机制并证明其可靠性,尤其是在诸如医疗保健和自动驾驶等高风险应用中。
然而,由于缺乏对可解释 AI(Explainable AI)的严格定义,他们不得不进行诸多与可解释性、可理解性和透明度有关的研究,以便从各个角度解释和分析模型。
为此,近期,来自新加坡南洋理工大学的研究团队,将研究重点缩小到可解释 AI 的一个特定领域,即基于梯度的局部可解释方法,并对其进行了系统探讨。
其一,基于 Vanilla Gradient 的解释。模型预测概率中关于输入样本的梯度表明,沿着某个方向,模型的概率下降最快。所以,梯度能够反映该样本局部区域内的线性模型系数。
在该研究中,研究人员将那些利用修改反向传播的方式,来获得梯度或者梯度的变种方法叫做基于 Vanilla Gradient 的解释。
其二,基于 Integrated Gradients 的解释。梯度只反映局部区域概率下降最快的方向,但对于一个预测概率很高的样本来说,它周围的区域预测概率往往变化很小。因此,梯度不足以解释为什么模型预测为当前类别。
针对此,该领域的科学家们提出基于 Integrated Gradients 的解释,引入一个参考样例,累计从参考样例到当前待解释样例之间的梯度。
目前此类方法主要用于解决如何引入合理的参考样例、从参考样例到当前样例之间的路径,以及在积分过程中的去噪问题。
其三,基于 Bias Gradients 的解释。现在的许多解释方法都忽略了偏置项 bias 对模型的影响,而深度神经网络经常使用 ReLU 作为激活函数。
如果 ReLU 被激活,那么偏置项和当前层特征会一并传播到下一层网络中;如果 ReLU 未被激活,偏置项和当前层特征都将会被置零。所以,最后的预测由偏置项和每层特征共同影响。
基于 Bias Gradients 的解释主要用来研究如何提取偏置项的重要性,并将其关联到输入样例上。
其四,后处理(post-processing)方法。该方法旨在通过一系列后处理操作,减少或去除解释中的噪声。
然后,该课题组按照时间顺序,详细地介绍了每类方法的算法细节和算法之间的关系。
此外,他们还介绍了基于梯度可解释研究的评价指标,包括人工评价、基于定位的测试、消融测试和算法鲁棒性测试。
其中,人工评价主要测试解释能否跟人们的先验知识一致,以增加对模型的信任。
基于定位的测试与人工测试类似,主要验证图像中的解释是否关注在目标区域,而非无关背景。
消融测试假定,如果重要特征的确是模型预测所依赖的,那么去掉这些特征,模型的预测概率就会显著降低。所以,该测试主要通过掩盖或保留重要特征,来观察模型的预测概率变换情况。
算法鲁棒性测试用于观察解释是否与模型参数、模型训练样本有关,排除某些解释方法只在起滤波器的情形。
“我们希望通过对目前主流的基于梯度的解释方法和评价指标的系统性介绍,帮助科研人员快速掌握该领域的研究脉络,从而助力他们开展新的研究。”南洋理工大学 webank-ntu 联合研究院王永杰研究员表示。
王永杰是第一作者,其他作者包括南洋理工大学博士研究生张童、博士后研究员郭旭,以及高级研究科学家申志奇。
近年来,AI 技术高速发展,并且在各行各业都取得显著突破。例如,OpenAI 的大语言模型 ChatGPT 系列、Google 视觉模型 VIT 等。
为了提高模型的识别能力,这些模型通常包括复杂的网络结构(卷积、全连接、多头注意力)和数十亿到数千亿个训练参数,但这也让 AI 从业者无法直接理解模型内部的决策过程。
通俗地讲,即便模型在很多任务上表现出色,但其在可解释性上的缺乏依旧限制了 AI 模型在某些关键领域的应用,例如医疗、司法和金融。
在这些领域中,错误的决策会直接影响人们的生命、自由和财产,并造成无法挽回的重大损失。
此外,由于这些领域要求高透明度、可追溯性和严格的问责制度,以确保决策的公正性和合法性,因此如果不能解释 AI 模型的决策依据、量化决策的风险,用户将会对模型的预测产生怀疑,从而降低模型的实用价值。
可解释 AI,致力于解释模型预测、推理或决策过程,让用户可以更加透明地理解模型的行为,进而增加对模型解释的信任。
围绕该领域的研究需要解决一系列问题,包括:如何理解模型对单个样本的预测结果?模型为什么预测当前类别而不是其他类别?模型的整体预测逻辑和规则是什么?如何呈现模型的决策过程?
而该领域具备的必要性和重要性,也驱使全球众多国家、机构和公司对其开展广泛深入的研究。
据了解,2019 年,谷歌推出《可解释 AI 白皮书》,介绍研究可解释 AI 的必要性,以及谷歌在可解释领域取得的突破。
2020 年,欧盟发布《欧洲 AI 白皮书》,探讨 AI 技术的可解释性、透明度和道德问题。
2022 年,腾讯发布《可解释 AI 发展报告 2022——打开算法黑箱的理念与实践》,详细陈述可解释 AI 的概念、行业发展,并对未来的研究提出建议。
前者旨在设计自解释模型,帮助用户直接理解模型的预测逻辑。其中,常见的自解释模型包括线性模型、决策树和决策规则。
后者针对黑盒模型,从全局或局部角度说明它如何运作或输出特定预测结果。全局解释倾向于理解模型的整体预测逻辑,局部解释注重对某个输入样本预测结果进行归因。
随之而来的是,出现了大量试图全面深入地探讨可解释 AI 的各个方面的综述文章。
然而,有关可解释性研究的内容非常繁杂,仅凭一两篇综述,很难理解某一子领域的研究进展。
举例来说,王永杰和所在团队在 2023 年底之前,利用谷歌学术检索关键词“Explainable AI”,发现已经存在超过 20 万篇文献。
“在这种情况下,研究人员要想选择一个特定的可解释方法,来验证所训练的深度神经网络模型是否可靠,已经成为一个巨大的挑战。”王永杰表示。
基于此,该团队调研了超过 100 篇文章,全面分析了基于梯度的局部可解释方法。
首先,模型梯度反映微小输入样本变化对模型预测的影响,能够直观地显示模型对哪些特征敏感,而这种敏感度在一定程度上说明了模型对特征的依赖程度。因此,利用梯度等可解释方法获得广泛关注。
其次,因为当前深度神经网络已经广泛用于众多领域,在模型训练完成后,可以直接通过反向传播获得模型梯度。所以,基于梯度的解释方法是深度神经网络的理想选择。无需对网络进行任何改动,就能轻松使用现有方法解释模型。
最后,可解释研究作为一个无监督任务,不利于研究人员验证所提供的解释是否真正符合模型预测的逻辑。
基于此,研究人员在设计解释算法时,通常会引入一些公理作为约束,如完备性和实现不变性,而基于梯度的可解释算法能够很好地满足这些约束,并且具有更好的理论证明支撑。
在对该方法进行系统研究的基础上,王永杰也提出了两种用于解决 AI 可信问题的思路。
第一,海量测试。以自动驾驶领域为例,可以收集不同场景下的海量测试数据,等到自动驾驶车辆事故率远低于人工驾驶时,就可以将自动驾驶技术应用到实际场景中。
第二,可解释 AI。针对那些无法进行海量测试的领域,比如医疗领域不但缺少大量的测试病例,而且错误的预测也可能给被测试患者带来危害,则通过可解释 AI 研究解释和预测背后的逻辑,从而解决信任问题。
此外,该课题组也计划在短期内专注于医疗健康领域,致力于通过可解释方法增加医生对 AI 辅助诊断工具的信任。
“例如,医生可以使用 AI 生成诊断报告,以减少接诊时间。所以,如果我们能够提供一套可解释的工具,帮助理解某一段诊断报告对应哪些化验结果和症状,就能建立医生对 AI 辅助诊断的信任。
我们希望能通过可解释研究,推动 AI 诊断在医疗领域的应用。”王永杰说。
据王永杰介绍,早在南洋理工大学读博一时,他就开始从事可解释 AI 的研究。
其二,在特征重要性分析这一具体领域,基于梯度的解释是常见的方法,但却尚未有系统介绍此类方法的相关文献。
正是基于上述发现,他才选择聚焦可解释 AI 领域的一个特定方向,也由此展开了本次研究。
另外,他也指出,尽管当下已经出现很多基于梯度的局部解释研究,但该领域依然存在诸多挑战。
首先,缺少合理的评价可解释方法。模型的黑盒特性让研究人员无法直接验证解释的真伪,所以只能通过一些消除测试或人工测试来对比不同解释方法。但消除测试会受特征相关性影响,人工测试又昂贵无法复现。因此,需要进一步研究更加合理的评价指标。
其次,需要考虑特征之间的相关性。目前多数可解释方法都假设特征之间是独立的,但此类假设在现实中经常无法保证。所以,对于特征之间相关性的考虑尤为重要。
同时,需要在模型安全与可解释之间进行权衡。研究人员在提供用户解释的过程中,也会无意识地暴漏模型的内部机制,这会增加模型被攻击的风险,所以还需要在模型安全与可解释性带来的便利之间,做出更好的权衡。
另外,缺少鲁棒的解释方法。比如,在图像识别领域,可解释方法同样存在类似于对抗样本的问题,在篡改某些像素之后,模型的预测和视觉均会发生改变,但可解释方法却产生了截然不同的解释。在这种情况下,攻击者会通过欺骗解释方法来恶意获取用户信任。
因此,在接下来的研究中,该课题组也会聚焦上述挑战,在找到问题所在的基础上,探索可行的解决方法。
01/ AlphaFold3来了!无需输入任何结构信息,生物分子预测精度高出50%
02/ 揭开化学反应“黑匣子”,杨学明院士团队联合发展控制氢分子立体取向新方法,精准调控化学反应
03/ 南科大团队实现无扩散的单光子波包,为量子态远距离传输提供理想光形态,或实现更复杂的量子系统
04/ 同济团队开发新型无铂催化剂,每克制备成本不到100元,为制备金属氧化物催化材料提供指导
05/ 西工大团队造出可在超声中存在15分钟以上的声悬浮气泡,可用于地面模拟太空微重力环境