加速因果推断：NVIDIA RAPIDS与cuML

realtime news Nov 15, 2024 14:12 UTC 06:12

1 Min Read

随着消费者应用产生的数据量持续增长，企业越来越多地采用因果推断方法来分析观察性数据。根据NVIDIA的博客，这种方法可以深入了解特定组件的变更如何影响关键业务指标。

因果推断技术的进步

在过去的十年中，经济计量学家开发了一种称为双重机器学习的技术，它将机器学习模型整合到因果推断问题中。这涉及在独立的数据集样本上训练两个预测模型，并将它们结合起来，以创建目标变量的去偏估计。像DoubleML这样的开源Python库推动了这种技术的应用，尽管在CPU上处理大数据集时面临挑战。

NVIDIA RAPIDS是一个由开源的GPU加速数据科学和人工智能库组成的集合，其中包括和scikit-learn兼容的Python机器学习库cuML。通过将RAPIDS cuML与DoubleML库结合使用，数据科学家可以实现更快的因果推断，从而有效地处理大型数据集。

RAPIDS cuML的集成使企业可以利用计算密集型机器学习算法进行因果推断，弥合预测导向创新和实际应用之间的差距。在传统基于CPU的方法难以满足日益增长的数据集需求的情况下，这尤为有益。

cuML的性能通过不同规模的数据集与scikit-learn进行了对比。结果显示，在拥有1000万行和100列的数据集上，基于CPU的DoubleML管道耗时超过6.5小时，而GPU加速的RAPIDS cuML将此时间缩短到仅51分钟，实现了7.7倍的加速。

此类加速的机器学习库可比基于CPU的方法提供高达12倍的速度提升，所需代码调整只是很小。这种显著的改进突显了GPU加速在改变数据处理工作流程中的潜力。

因果推断在帮助企业了解关键产品组件的影响方面起着至关重要的作用。然而，历史上，利用机器学习的创新来实现这一目标一直充满挑战。通过将像双重机器学习这样的技术与RAPIDS cuML等加速计算库结合起来，企业能够克服这些困难，仅需进行少量代码更改，即可将处理时间从数小时减少到数分钟。