分类导航

PHP教程|ASP.NET教程|Java教程|ASP教程|编程技术|正则表达式|C/C++|IOS|C#|Swift|Android|VB|R语言|JavaScript|易语言|vb.net|

服务器之家 - 编程语言 - 编程技术 - 使用Spark Streaming转换不同的JSON有效负载

使用Spark Streaming转换不同的JSON有效负载

2021-08-24 23:30dzoneRishabh Jain 编程技术

使用 Spark Streaming，你只需要从数据源创建一个读流，这样就可以创建写入流将数据加载到目标数据源中。

Spark Streaming 是底层基于 Spark Core 的对大数据进行实时计算的框架，可以流方式从源读取数据。只需要从数据源创建一个读取流，然后我们可以创建写入流以将数据加载到目标数据源中。

使用Spark Streaming转换不同的JSON有效负载

接下来的演示，将假设我们有不同的 JSON 有效负载进入一个 kafka 主题，我们需要将其转换并写入另一个 kafka 主题。

创建一个ReadStream

为了能连续接收JSON有效负载作为消息。我们需要首先读取消息并使用spark的readstream创建数据帧。Spark 中提供了 readStream 函数，我们可以使用这个函数基本上创建一个 readStream。这将从 kafka 主题中读取流负载。

val df = spark
.readStream
.format("kafka")
.option("kafka.bootstrap.servers", "host1:port1,host2:port2")
.option("subscribe", "topic1")
.load()

我们可以创建一个 case-class(例如CustomerUnion)，它将包含JSON有效负载的所有可能字段。这样，我们就能在数据帧上运行select查询而不会失败。

val rawDfValue = rawData.selectExpr("CAST(value AS STRING)").as[String]
val schema = ScalaReflection.schemaFor[CustomerUnion].dataType.asInstanceOf[StructType]
val extractedDFWithSchema = rawDfValue.select(from_json(col("value"), schema).as("data")).select("data.*")
extractedDFWithSchema.createOrReplaceTempView(“tempView”)

这将为我们提供一个数据帧提取的 DFWithSchema，其中包含作为有效负载字段的列。

示例输入负载

这是两个样本输入有效负载，但也可以有更多的有效负载，有些字段不存在(变量)。

{
“id”: 1234,
“firstName”:”Jon”,
“lastName”:”Butler”,
“City”:”Newyork”,
“Email”:abc@gmail.com,
“Phone”:”2323123”
}

{
“firstName”:”Jon”,
“lastName”:”Butler”,
“City”:”Newyork”,
“Email”:abc@gmail.com,
“Phone”:”2323123”
}

样例输出负载

根据id字段，我们将决定输出有效负载。如果存在一个 id 字段，我们将把它视为一个用户更新案例，并且在输出有效负载中只发送“Email”和“Phone”。我们可以根据某些条件配置任何字段。这只是一个例子。

如果 id 不存在，我们将发送所有字段。下面是两个输出载荷的示例：

{
“userid”: 1234,
“Email”:abc@gmail.com,
“Phone”:”2323123”
}

{
“fullname”:”Jon Butler”,
“City”:”Newyork”,
“Email”:abc@gmail.com,
“Phone”:”2323123”
}

开始WriteStreams

一旦我们有了数据帧，我们就可以运行尽可能多的sql查询，并根据所需的有效负载写入 kafka 主题。因此，我们可以创建一个包含所有sql查询的列表，并通过该列表进行循环，并调用writeStream函数。让我们假设，我们有一个名为 queryList 的列表，它只包含字符串(即sql查询)。

下面为写入流定义的一个函数：

def startWriteStream(query: String): Unit = {
val transformedDf = spark.sql(query)
transformedDf
.selectExpr("CAST(key AS STRING)", "CAST(value AS STRING)")
.writeStream
.format("kafka")
.option("kafka.bootstrap.servers", "host1:port1,host2:port2")
.option("topic", "topic1")
.start()
}

这将启动列表中每个查询的写入流。

queryList.foreach(startWriteStream)
spark.streams.awaitAnyTermination()

如果我们知道输入有效负载的所有可能字段，那么即使有一些字段不存在，我们的sql查询也不会失败。我们已经将有效负载的模式指定为case-class，它将为缺席字段创建指定 NULL 的数据帧。

通过这种方式，我们可以使用 spark-streaming 在所需的转换/过滤器之后将多个有效负载从同一主题写入不同的主题。

【51CTO译稿，合作站点转载请注明原文译者和出处为51CTO.com】

文章来源：https://developer.51cto.com/art/202108/678717.htm

延伸 · 阅读

2022-03-10Spark SerializedLambda错误的两种解决方案
2022-03-09C#实现Json转DataTable并导出Excel的方法示例
2022-03-09Python 的Json 模块编码详解
2022-03-07一文看懂JSONP原理和应用
2022-03-06聊聊Spring MVC JSON数据交互的问题
2022-03-05C++ qt 使用jsoncpp json 读写操作

精彩推荐

编程技术

聊聊接口性能优化的11个小技巧

接口性能优化对于从事后端开发的同学来说，肯定再熟悉不过了，因为它是一个跟开发语言无关的公共问题。...

苏三说技术8302021-11-18
编程技术

一道算法小题的分析过程

最近在看算法的问题比较多，希望能以一道小题，来记录算法分析的过程。题目是: Pig Latin...

前端思维框架12382021-03-02
编程技术

网络编程之get与post的区别与联系

这里来说说get与post的区别与联系，对这方面不懂的同学可以参考下。...

编程技术网5262020-07-19
编程技术

Rust 能够取代 C 语言吗

Rust 是 Mozilla 基金会的一个雄心勃勃的项目，号称是 C 语言和 C++ 的继任者，这篇文章主要介绍了Rust 能够取代 C 语言吗的相关知识,需要的朋友可以参考下...

TGeek5512020-06-30
编程技术

前端:使用CSS3实现酷炫的3D旋转透视

3D动画效果现在越来越普及，已经被广泛的应用到了各个平台，比如阿里云，华为云，webpack官网等。它可以更接近于真实的展示我们的产品和介绍，带来极...

趣谈前端9762021-01-05
编程技术

分布式计算之数据质量漫谈

数据探查不止用在数据质量领域，数仓开发、数据迁移等都需要对源数据进行数据探查。数据仓库的所有数据基础都是源数据（ODS），在开发数仓之前，需...

阿里技术5212021-12-28
编程技术

火车头采集器采集多页内容的抓取教程

本文主要讲解使用火车头采集器采集多页内容的抓取教程，有需要的朋友可以参考下...

编程技术网9852020-07-19
编程技术

git和SVN的区别小结

这篇主要是谈谈两者的区别，svn是集中式版本控制系统，git是分布式版本控制系统，至于谁优谁劣看官自己思考吧， ...

撒野女孩4262020-07-13