• 联系我们
  • 订阅

数据科学家的难题——数据探索和特征工程(第2篇,共5篇)

借助集成的端到端软件解决方案,让数据科学家的工作变轻松。

作者: Ilias Iliopoulos PhD, Yoram Barak PhD

Data Science Blog
在我们关于“数据科学家难题系列”博客第1篇建模一文中,我们描述了建模工作中第一步会遇到的典型问题,并建议将 SmartFactory Rx 解决方案作为尽量减少这些挑战的途径 [https://appliedsmartfactory.com/zh-hans/pharmaceutical-blog/ai-ml-zh-hans/the-data-scientist-conundrum-part-1/]。事实上,如图1所示,对于未建模过的系统,第一步工作占用了数据科学家的大部分时间,约占 65% 到 95% 不等。 从经验来看,数据科学家通常会将 75% – 80% 的时间用于数据聚合、清理和预处理任务上。
Blog Figure 1 Pyramid
图1:建模过程中的典型步骤
在本文中,我们将探讨物理/化工系统建模的第二步,即:探索工程和特征工程。 传统的建模方法以第一原理为基础来建模,即使用传输现象方程、相关化学反应平衡、等离子体方程等,用于需要近实时决策的生产线上应用; 而这反过来使这项工作的成本变得非常昂贵,因为需要大量的传感器、采样/计量和强大的计算能力来提供及时的结果。 出于这个原因,统计模型被发明出来,并被证明对许多行业都大有裨益。 在上个世纪,单变量 (UVA) 和多变量 (MVA) 技术已被用于监测生产线效率、异常检测以及维护需求。 当随机推断和机器学习技术 (ML) 被添加到建模者可用的“工具箱”中时,UVA 和 MVA 模型的适用性得到了极大的增强。
我们一直在协助我们的客户监测他们在显示器、太阳能、半导体以及制药和其他流程工业中的开发和生产线。 这些客户的共同需求是可用性、灵活性以及准确性。 为了满足客户的期望,我们将统计方法的简单性与第一性原理方法的准确性相结合。 这为我们的客户提供了创建“混合”模型的能力——该模型不仅基于统计,还基于设备设计方程,无论这些方程是流动、扩散、热传递、反应平衡还是其他相关方程。
SmartFactory Rx 解决方案的框架为我们的制药和流程工业客户提供了这种可能性。 用户可以使用各种统计量(在UVA 或 MVA 模型中)来实时比较工艺参数,并通过用户定义的方程式监测它们之间的关系。 因此,用户可以毫不费力地识别出对特定工艺和设备进行监测的关键特征。
这里的一个关键点是工艺设备的不同行为,它增加了工艺可变性。 对于这种不同的设备行为,尤其是当它们处于不同的维护周期时,SmartFactory Rx 解决方案可以通过使用包括 MVA 和 机器学习 (ML) 方法在内的统计方法,以更低的计算成本进行有效的处理。
除此之外,用户还可以使用 Python 编写自己的机器学习 (ML) 模型,这一功能对精通代码的客户很有吸引力,他们认识到我们的 SmartFactory Rx 解决方案提供了一个非常灵活的基础设施,可以构建“混合”模型(统计和第一原理)监测他们的制药或其他工艺生产线。

了解更多我们为制药数据科学家提供的解决方案

关于作者

Picture of Ilias Iliopoulos PhD, Yoram Barak PhD
Ilias Iliopoulos PhD, Yoram Barak PhD
The SmartFactory Rx Team develops integrated automation solutions for process manufacturing to harness the power of data, reduce development time and improve productivity to optimize high value manufacturing. It increases throughput, decreases risk, and accelerates time to market for new products. For more details, connect with us on LinkedIn.