在我们最近的客户案例“实现准确的批次生产周期预测,提高按时交付率”中,我们指出,最适合该客户需求的机器学习模型是基于梯度提升树的机器学习模型,尤其是轻量梯度提升机的模型部署。 这一决策得到了 Inria Saclay Centre 和索邦大学的 Léo Grinsztajn、Edouard Oyallon 和 Gaël Varoquaux 近期的研究的支持,他们的研究得出的结论是,在处理中等规模的表格数据上,决策树模型的表现优于深度学习。
研究人员指出,深度学习“在文本和图像数据集方面取得了巨大进步”1,但目前尚未证明深度学习在处理这些数据集方面具有优越性。 为了比较这些模型的性能,他们收集了45个表格数据集,每个数据集包含3000多个真实示例。 然后,他们训练了标准和新型深度学习方法,如普通神经网络、ResNet 和两个基于 Transformer 的模型,以及包括 XGBoost、梯度提升机和随机森林在内的基于树的模型。 每个模型都经过400次训练,在预定义的超参数空间中随机搜索。
在评估模型性能时,对所有任务进行平均,性能最好的树模型比性能最好的深度学习模型的表现还要好20%到30%。 研究人员还发现,神经网络比决策树更容易受到随机或不太重要的数据特征的影响。 当研究人员移除无信息特征后,两种模型的性能更加相似。 而在向数据集中添加随机特征后,神经网络的性能急剧下降。
研究人员总结道:“结果表明,即使不考虑其卓越的速度,树模型在处理中等规模数据(约10,000 个样本)方面仍然是最先进的。”
参考文献
1. Grinsztajn, L., Oyallon, E., Varoquaux, G. Why do tree-based models still outperform deep learning on tabular data? NeurIPS22 Datasets and Benchmarks Track, Nov 22, New Orleans, United States. hal-03723551v2