如何处理生产环境中的数据和机器学习偏误?

译者 | 布加迪
审校 | 重楼
您是否需要确定自己的数据集存在性别或种族方面的偏误?是否需要确保所使用的机器学习模型没有偏误 , 即使数据有偏误?如果您对上述问题的回答是肯定的 , 那么这篇文章就适合您阅读 。

如何处理生产环境中的数据和机器学习偏误?

文章插图
偏误简介偏误是指有意识或无意识地倾向于某一特定群体 , 通常排斥其他人群 。对于属于某些种族、民族、性别、能力和宗教群体的人来说 , 偏误会导致歧视 , 并在机会和成功方面造成系统性障碍 。在有偏误的世界中生成的数据本身就是有偏误的 。创建和部署机器学习模型总是伴随着显著的偏误风险 。因此 , 机器学习解决方案环境应该提供人类可用的解释以检测和纠正偏误 。
问责制和可访问性在处理偏误方面至关重要 。需要问责制确保任何注意到偏误的人都能采取行动 。生产环境中机器学习系统的可访问性便于及时处理偏误 。审计日志可以部分解决问责制 。通过自动化和易于使用的UI/UX降低机器学习的进入门槛有助于提高可访问性 。
本文将解释如何通过针对数据和机器学习模型的系统来检测和处理与数据相关的偏误和与模型相关的偏误 。按照定义 , 与数据相关的偏误是数据集中已经存在的偏误 。比如在客户流失预测用例中 , 90%的数据集可能含有白人客户 , 导致数据集存在种族偏误 。按照定义 , 与模型相关的偏误指模型内生成的偏误 。在这种情况下 , 由于白人占人口的90% , 旨在尽量减小误差的模型可以更好地预测白人的流失 , 从而导致模型出现种族偏误 。若使用这种模型采取行动以防止客户流失 , 会导致非白人群体得不到充足的服务 。
数据偏误的检测当数据集的一些变量值比其他变量值更频繁地出现时 , 就会出现第一种、也是最常见的数据相关偏误(代表偏误) 。比如在临床试验中 , 90%的参与者可能是男性 。
通过重新采样数据以平等地代表不同的群体 , 可以部分地处理代表偏误 。然而 , 当代表性不足的群体的信息和细节较少时 , 机器学习模型对这个群体的学习可能会较少 。
当存在与目标特征高度相关的变量时 , 也会出现与数据相关的偏误 。为了根据某些敏感特征检测偏误 , 可以计算出特征相关性(即每列相对目标特征的相关性) 。用户可以忽略可能导致偏误的高度相关的敏感特征 , 比如性别或年龄 。请注意 , 线性相关测量可能不适用于同时含有离散特征和连续特征(即非线性相关性)的数据集 。使用归一化互信息有助于解决这个问题 。
即使去除了敏感的相关特征 , 也可能存在与那些敏感特征相关的其他特征 。比如说 , 邮政编码可能与种族高度相关 。即使从模型构建中去除种族 , 保留邮政编码仍然可能导致有偏误的模型 。根据变量之间的相关性对变量进行聚类或分组可能有助于检测和去除这类相关特征 。检测复杂数据偏误的另一种方法是为每个敏感特征创建机器学习模型 。应该忽略机器学习模型中对这些敏感特征的预测贡献最大的特征 。
机器学习模型偏误的检测对于与模型相关的偏误 , 要同时考虑机器学习模型的输入和模型的输出预测 。当数据集不平衡时 , 敏感特征可能与目标特征过于相关而导致偏误 。一些机器学习平台在构建模型时分配自动类权重 , 以强调未充分代表的类 。
机器学习模型解释也有助于检测和预防与模型相关的偏误 。存在局部或全局特征的重要性 , 比如SHAP或LIME , 提供了关于每个特征的值如何影响模型结果的信息 。比如说 , 如果年龄增加导致信用评分预测降低 , 那么模型具有与年龄相关的偏误 。然而 , 很难确定偏误在模型中的确切位置 。可以使用易于解释的代理模型解释 , 比如线性模型或决策树 。代理模型近似并解释用于决策制定的底层机器学习模型 。它们允许更细粒度地检测偏误 。决策树代理模型包含模型预测的自动生成的微分段 , 每个类似一个规则(比如说 , 如果代理类型是老年人 , 性别是男性 , 那么该客户就会流失) 。
【如何处理生产环境中的数据和机器学习偏误?】


推荐阅读