决策树模型的突出优势

研究表明,决策树模型在处理表格数据方面优于深度学习。

作者: AI Productivity Staff

在我们最近的客户案例“实现准确的批次生产周期预测,提高按时交付率”中,我们指出,最适合该客户需求的机器学习模型是基于梯度提升树的机器学习模型,尤其是轻量梯度提升机的模型部署。 这一决策得到了 Inria Saclay Centre 和索邦大学的 Léo Grinsztajn、Edouard Oyallon 和 Gaël Varoquaux 近期的研究的支持,他们的研究得出的结论是,在处理中等规模的表格数据上,决策树模型的表现优于深度学习。

研究人员指出,深度学习“在文本和图像数据集方面取得了巨大进步”1,但目前尚未证明深度学习在处理这些数据集方面具有优越性。 为了比较这些模型的性能,他们收集了45个表格数据集,每个数据集包含3000多个真实示例。 然后,他们训练了标准和新型深度学习方法,如普通神经网络、ResNet 和两个基于 Transformer 的模型,以及包括 XGBoost、梯度提升机和随机森林在内的基于树的模型。 每个模型都经过400次训练,在预定义的超参数空间中随机搜索。

在评估模型性能时,对所有任务进行平均,性能最好的树模型比性能最好的深度学习模型的表现还要好20%到30%。 研究人员还发现,神经网络比决策树更容易受到随机或不太重要的数据特征的影响。 当研究人员移除无信息特征后,两种模型的性能更加相似。 而在向数据集中添加随机特征后,神经网络的性能急剧下降。

研究人员总结道:“结果表明,即使不考虑其卓越的速度,树模型在处理中等规模数据(约10,000 个样本)方面仍然是最先进的。”

参考文献

1. Grinsztajn, L., Oyallon, E., Varoquaux, G. Why do tree-based models still outperform deep learning on tabular data? NeurIPS22 Datasets and Benchmarks Track, Nov 22, New Orleans, United States. hal-03723551v2

网址:https://hal.archives-ouvertes.fr/hal-03723551v2

相关文章

数据科学家的难题——数据探索和特征工程(第2篇,共5篇)

Data Science Blog
借助集成的端到端软件解决方案,让数据科学家的工作变轻松。

连续流反应器的商业可行性

The Commercial Viability of Continous Flow Reactors
采用先进过程控制的优化实验设计,用于流体化学、连续生产。

通过更好的数据可视化,提高运营效率

Data Visualization
利用 SmartFactory Material Control 和 APF Reporter,为数据驱动型决策制作简单、一致且具有视觉吸引力的图表。