优化模型性能：产品经理需要了解的数据划分与评估策略

搜索

APP

起点课堂会员权益

职业体系课特权

线下行业大会特权

个人IP打造特权

30+门专项技能课

1300+专题课程

12场职场软技能直播

12场求职辅导直播

12场专业技能直播

会员专属社群

荣耀标识

发布

优化模型性能：产品经理需要了解的数据划分与评估策略

陶培林

2024-02-23

0 评论 1882 浏览 5 收藏

9 分钟

如何做好模型的性能评估？我们不妨从两个关键阶段来切入探讨。这篇文章里，作者就做了对应的解读，并阐述了在训练过程中可能遇到的数据泄露问题和相关解决方案，一起来看一下吧。

01

在机器学习的世界里，模型的性能评估是至关重要的。本文将深入探讨评估模型性能的两个关键阶段，并揭示在训练过程中可能遇到的数据泄露问题及其解决方案。

1. 模型开发阶段和调整阶段的性能评估

在这个阶段，可能会尝试不同的机器学习算法，或者对选定的算法进行超参数调整（即调整模型的“表盘”，这里的表盘是一个比喻，指的是模型的内部参数，如学习率、树的深度等）。在每次尝试或调整后，都需要评估模型性能，以便了解这些变化是否提高了模型的预测能力。

这通常在验证集上进行评估来实现。验证集是从原始训练数据中分离出来的，用于在模型训练过程中评估模型性能的数据集。这样做的目的是确保在优化模型时，实际上是超者提高性能方向前进，而不是让模型过拟合或性能下降。

2. 模型最终确定后的性能评估

一旦确定了模型的参数和结构（即模型“最终确定”），需要在完全独立的测试集上评估模型的性能。测试集包含了模型在训练过程中从为见过的数据，有助于评估模型在实际应用中的泛化能力。这个阶段的性能评估是为了验证模型在面对新数据时的表现，确保模型不仅在训练数据上表现良好，也能在实际应用中准确预测。

3. 模型的数据划分

在模型开发和调整阶段，模型进行训练之前，就需要从测试集中分离出一份验证集，这样做的目标就是为了确保验证集数据在整个模型训练过程中不会被模型接触到，从而保证验证集能够提供一个独立的评估环境。即使在模型进行参数或结构调整，优化模型性能的多轮迭代中，使用的也是同一份验证集。

但是在交叉验证中，则不成立。在交叉验证中，训练集被划分成若干分相同的数据量的数据集，每个部分轮流作为验证集，其他作为测试集。

02

上文也提了在模型优化多轮迭代中，使用同一份验证集的问题。这在传统的机器学习中，会存在一个潜在问题，即在多轮迭代优化中使用同一份验证集可能会导致模型“记住”验证集的数据，这被称为信息泄露（Information Leakage）。

为了避免这种情况，通常会在每次迭代中使用不同的验证集，或者采用交叉验证的方式（小数量集数据训练模型时选择交叉验证更优）。

下面说说数据集的一般步骤：

数据预处理：在任何模型训练之前，首先对整个数据集进行清洗、特征工程等预处理步骤。
划分数据集：将预处理后的数据集按照一定比例（如常见的60%训练集，20%验证集，20%测试集）划分训练集。这个过程是在模型训练之前完成的，以确保数据集的随机性和独立性。
训练模型：使用训练集数据来训练模型，这个阶段，模型只会接触到训练集中的数据。
验证模型：在模型训练完成后，使用验证集数据来评估模型的性能。这个过程中，模型会尝试对验证集中的数据进行预测，但不会影响模型的训练过程。
调整模型：根据验证集上的表现，可能需要调整模型的超参数或结构。这个过程可能会多次进行，每次都使用验证集来评估调整后模型的性能。
最终评估：在确定了最佳模型后，使用测试集来对模型进行最终评估。测试集数据在整个过程中都不会被模型接触到，因此它提供了一个最接近实际应用场景的评估。

而在训练模型阶段会产生一个比较严重的问题-数据泄露（Data Leakage）。它指的是在训练模型的过程中，模型意外接触到了本应该在测试阶段才出现的数据或信息。而这种情况的出现一般发生在数据准备和预处理阶段，训练集和测试集数据之间的界限被破坏时。

数据泄露的具体表现可能包括：

特征泄露：训练模型时使用了测试集中的特征，或者在特征工程中，使用了未来信息（比如，时间序列数据中的未来的值），导致模型在训练集上的表现被高估，而在实际应用中性能下降。
统计信息泄露：在训练过程中使用了测试集的统计信息（如均值、标准差等）来调整模型参数，这使得模型在测试集上的表现被高估。
模型参数泄露：在模型选择或超参数调整过程中，使用了测试集的信息，导致模型对测试集的过拟合。

以下补充说明一些特征泄露示列：

1）时间戳泄露

假设你有一个包含过去几年房产交易数据的数据集，其中每个交易记录都有一个时间戳（日期）。如果你在训练模型时，不小心将这些时间戳作为特征输入，并且这些时间戳包含了未来房价变动的信息，那么模型可能会学习到这些未来信息，从而在训练集上表现得很好。

这并不意味着模型真正理解了房价变动的内在规律，因为它依赖的是未来信息，而不是基于当前和过去的数据来预测未来。

2）未来数据泄露

如果是预测明天的天气，在训练模型时，你不小心将后天的天气预报作为特征输入。模型可能会学会基于后天的天气来预测明天的天气，这显然是不合理的，因为模型在实际应用中无法预知未来几天的天气。

3）数据清洗错误

在处理数据时，可能会发现某些异常值或错误数据，并决定将它们从数据集中移除。然而，如果这些异常值在测试集中仍然存在，而模型在训练时已经“学会”了忽略这些值，那么在测试集上模型可能会表现不佳，因为它没有学会如何处理这些真实的异常情况。

4）第三方信息

假设正在构建一个预测用户是否会购买某个产品的模型。在训练过程中，不小心将用户在社交媒体上的活动数据（如点赞、分享等）作为特征。这些数据可能包含了用户购买意愿的线索，但这些信息在用户实际购买行为发生之前是不可用的。这样，模型在训练集上的表现可能会很好，但在实际应用中，由于缺乏这些社交媒体数据，模型的预测能力会下降。

总结一下，为了解决这些问题，我们需要确保数据集的正确划分，并且在训练和验证过程中严格遵守这些划分。此外，交叉验证和定期更换验证集也是预防数据泄露的有效策略。

本文由 @陶培林原创发布于人人都是产品经理，未经许可，禁止转载

题图来自 Unsplash，基于 CC0 协议

该文观点仅代表作者本人，人人都是产品经理平台仅提供信息存储空间服务。

更多精彩内容，请关注人人都是产品经理微信公众号或下载App