在我们关于“数据科学家难题系列”博客第1篇建模一文中,我们描述了建模工作中第一步会遇到的典型问题,并建议将 SmartFactory Rx™ 解决方案作为尽量减少这些挑战的途径 [https://appliedsmartfactory.com/zh-hans/pharmaceutical-blog/ai-ml-zh-hans/the-data-scientist-conundrum-part-1/]。事实上,如图1所示,对于未建模过的系统,第一步工作占用了数据科学家的大部分时间,约占 65% 到 95% 不等。 从经验来看,数据科学家通常会将 75% – 80% 的时间用于数据聚合、清理和预处理任务上。
在本文中,我们将探讨物理/化工系统建模的第二步,即:探索工程和特征工程。 传统的建模方法以第一原理为基础来建模,即使用传输现象方程、相关化学反应平衡、等离子体方程等,用于需要近实时决策的生产线上应用; 而这反过来使这项工作的成本变得非常昂贵,因为需要大量的传感器、采样/计量和强大的计算能力来提供及时的结果。 出于这个原因,统计模型被发明出来,并被证明对许多行业都大有裨益。 在上个世纪,单变量 (UVA) 和多变量 (MVA) 技术已被用于监测生产线效率、异常检测以及维护需求。 当随机推断和机器学习技术 (ML) 被添加到建模者可用的“工具箱”中时,UVA 和 MVA 模型的适用性得到了极大的增强。
我们一直在协助我们的客户监测他们在显示器、太阳能、半导体以及制药和其他流程工业中的开发和生产线。 这些客户的共同需求是可用性、灵活性以及准确性。 为了满足客户的期望,我们将统计方法的简单性与第一性原理方法的准确性相结合。 这为我们的客户提供了创建“混合”模型的能力——该模型不仅基于统计,还基于设备设计方程,无论这些方程是流动、扩散、热传递、反应平衡还是其他相关方程。
SmartFactory Rx 解决方案的框架为我们的制药和流程工业客户提供了这种可能性。 用户可以使用各种统计量(在UVA 或 MVA 模型中)来实时比较工艺参数,并通过用户定义的方程式监测它们之间的关系。 因此,用户可以毫不费力地识别出对特定工艺和设备进行监测的关键特征。
这里的一个关键点是工艺设备的不同行为,它增加了工艺可变性。 对于这种不同的设备行为,尤其是当它们处于不同的维护周期时,SmartFactory Rx 解决方案可以通过使用包括 MVA 和 机器学习 (ML) 方法在内的统计方法,以更低的计算成本进行有效的处理。
除此之外,用户还可以使用 Python 编写自己的机器学习 (ML) 模型,这一功能对精通代码的客户很有吸引力,他们认识到我们的 SmartFactory Rx 解决方案提供了一个非常灵活的基础设施,可以构建“混合”模型(统计和第一原理)监测他们的制药或其他工艺生产线。
了解更多我们为制药数据科学家提供的解决方案