数据驱动的方式学习时

Korea Data Forum Fosters Collaboration and Growth
Post Reply
rochona
Posts: 8
Joined: Thu May 22, 2025 5:15 am

数据驱动的方式学习时

Post by rochona »

虽然传统方法可以通过领域专业知识的提升,以间模式,但深度学习 (DL)也正应用于这一领域。近年来,随着数据可用性和计算资源的不断增长,我们见证了利用 DL 技术进行时间序列预测任务的显著成果,这得益于 DL 所具备的优势。与传统预测方法相比,DL 模型减少了手动特征工程和模型设计的需求,并且可以学习层次化表示和更复杂的依赖关系。

两种学习方法的故事:离线(批量)与在线(增量)
在许多实际应用中,实时时间序列数据快速增长和演变。这要求预测模型能够及时更新,以避免概念漂移问题。

然而,深度学习模型遵循传统的批量学习范式,处理新的训练样本时需要重新训练整个数据集。这是一个主要问题,因为这种低效的方法不可扩展,并且不适用于从连续数据流中进行学习。


图 1. 在线学习框架概览。在线学习框架并非在每次收到新数据点时都从头开始重新训练,而是以增量方式持续更新模型。

与传统的离线学习模式不同,在线学习旨在从顺序到达的数据中逐步学习模型。当新的训练数据到达时,模型可以通过在线学习器即时高效地更新,从而克服了传统批量学习的弊端。

例如,在我们的云监控系统中,预测模型可以预测未来 24 小时的 CPU 和内存使用情况。此类预测可以帮助决策者提前动态分配云资源,确保客户高可用性,同时降低运营成本。如果我们观察到新的客户行为,已部署的预测模型必然需要适应这种不断变化的环境。幸运的是,借助在线学习,该模型可以自动高效地适应这种新的变化,而无需离线重新训练的高昂成本(时间和空间成本)。

难以找到良好的在线深度时间序列预测模型:动态学习深度预测器的挑战
现在我们知道了在线学习对时间序列预测的好处,您可能会想:我们能否对深度预测模型的优化器 电报数据库 进行微小的改动以支持在线更新?

答案并非如此简单。我们认为,在线培训深度预测器仍然具有挑战性,主要原因有二:

收敛速度慢,难以处理概念漂移:首先,单纯地在数据流上训练深度神经网络收敛速度慢,因为无法获得离线训练的优势,例如小批量训练或多次训练。此外,当概念漂移发生时,如此繁琐的模型需要大量的训练样本来学习这些新概念。总而言之,虽然深度神经网络拥有强大的表征学习能力,但它们缺乏一种机制来促进在数据流上成功学习。
循环模式学习效率低下:其次,时间序列数据通常表现出循环模式,其中一种模式可能失效,但将来又会重新出现。由于深度网络存在灾难性遗忘现象,无法保留先验知识,导致循环模式学习效率低下,进一步影响整体性能。
结论:基于深度模型的在线时间序列预测是一个充满希望却又充满挑战的问题。这些挑战能够被克服吗?继续阅读,找出答案(提示:是的!)。

我们的新方法:FSNet(快速和慢速学习网络)
为了解决上述限制,我们开发了 FSNet(快速和慢速学习网络)——一种旨在动态预测时间序列和处理非平稳时间序列数据的新方法。
Post Reply