如何使用Python、Apache Kafka和云平台构建健壮的实时数据管道( 三 ) _数据管道

它利用Spark的分布式运行时，在数据流上实时应用过滤、聚合和排序等操作。
还可以使用多个消费者组并行化消费，并将输出接收器写入数据库、云存储等。
这允许在Kafka的数据上构建可扩展的流处理。
现在已经介绍了端到端管道，以下了解应用它的一些实际用例。
实际用例以下探索一些实际用例，在这些用例中，这些技术可以帮助大规模地处理大量实时数据。
1.用户活动跟踪许多现代网络和移动应用程序跟踪用户的行为，例如页面浏览量、按钮点击、交易等，以收集使用情况分析。
（1）问题

数据量可以随着数百万活跃用户而大规模扩展。
需要实时洞察以检测问题并个性化内容。
希望为历史报表存储汇总数据。

（2）解决方案

使用Python或任何语言将点击流事件摄取到Kafka主题中。
使用PySpark进行清理、聚合和分析。
将输出保存到数据库，例如Cassandra的仪表板。
使用Spark ML实时警报检测异常。

2.物联网数据管道物联网传感器产生大量的实时遥测数据，例如温度、压力、位置等。
（1）问题

每秒产生数百万个传感器事件。
需要清洗、改造、丰富。
需要实时监控和历史存储。

（2）解决方案

使用语言SDK收集Kafka主题中的传感器数据。
使用PySpark进行数据整理和连接外部数据。
将数据流输入机器学习模型进行实时预测。
将聚合数据存储在时间序列数据库中以实现可视化。

3.客户支持聊天分析像Zendesk这样的聊天平台捕获了大量的客户支持对话。
（1）问题

每月产生数百万条聊天信息。
需要了解客户痛点和代理表现。
必须发现负面情绪和紧急问题。

（2）解决方案

使用连接器将聊天记录导入Kafka主题。
使用PySpark SQL和DataFrames进行聚合和处理。
将数据输入NLP模型，对情绪和意图进行分类。
存储洞察到数据库的历史报告。
为联络中心操作提供实时仪表板。

这个用例演示了如何将这些技术应用于涉及大量快速移动数据的实际业务问题。
结论综上所述， Python、Kafka和云平台为构建健壮的、可扩展的实时数据管道提供了一个很好的组合。
原文标题：Building Robust Real-Time Data Pipelines With Python, Apache Kafka, and the Cloud ，作者：Dmitrii Mitiaev