feat: add compatibility with Spark 3.5

alvarosantossyngenta · alvarosantossyngenta · commit a9a7d05606fd · 2025-02-07T10:46:53.000Z
diff --git a/.devcontainer/Dockerfile b/.devcontainer/Dockerfile
@@ -35,11 +35,11 @@ ADD .devcontainer/hive-site.xml "/tmp/"
 # Install Java & related
 RUN curl -s "https://get.sdkman.io?rcupdate=false" | bash
 
-ARG JAVA_VERSION="8.0.402-amzn"
-ARG SCALA_VERSION="2.12.17"
+ENV JAVA_VERSION="17.0.13-amzn"
+ENV SCALA_VERSION="2.12.18"
 ENV SCALA_BINARY_VERSION="2.12"
-ARG SBT_VERSION="1.8.0"
-ARG SPARK_VERSION="3.3.1"
+ENV SBT_VERSION="1.10.6"
+ENV SPARK_VERSION="3.5.2"
 
 RUN source "${HOME}/.sdkman/bin/sdkman-init.sh" \
     && sdk install java "$JAVA_VERSION" \
diff --git a/.submodule/script-shell-data-pipelines-orb b/.submodule/script-shell-data-pipelines-orb
@@ -1 +1 @@
-Subproject commit 87bf18ea40b093ff3a89543f3f4a2784802bb45d
+Subproject commit 128a5b9761b803dcd68dfc77760666afc56273ec
diff --git a/README.md b/README.md
@@ -10,10 +10,10 @@ The platform also includes a simple way to write unit and E2E tests.
 
 ## Changes from Original
 
+- Optimized to worh with Spark 3.5.
 - Added compatibility with Hive Catalog(Input), MongoDB (Input/Output), Delta (Input/Output) and Iceberg (Input/Output).
 - Metrics and Verification results are stored in memory for later used by other apps.
 - Files can be read from the same path as the job file using local notation (\"./SOME_PATH"\).
-- Optimized to worh with [AWS Glue](https://aws.amazon.com/glue/) 4.0.
 - JSON schema is simplified and use pure *json-schema* with no extra elements. Enforce JSON schema validation.
 - Add more DQ check operators.
 - [Jinja compatible](https://jinja.palletsprojects.com/) templating engine  instead of `org.apache.commons.text.StringSubstitutor`.
diff --git a/build.sbt b/build.sbt
@@ -19,15 +19,19 @@ scmInfo := Some(
 scalaVersion := Option(System.getenv("SCALA_VERSION")).getOrElse("2.12.19")
 
 val sparkVersion: Def.Initialize[String] = Def.setting {
-  Option(System.getenv("SPARK_VERSION")).getOrElse("3.3.1")
+  Option(System.getenv("SPARK_VERSION")).getOrElse("3.5.2")
+}
+
+val sparkShortVersion: Def.Initialize[String] = Def.setting {
+  sparkVersion.value.split('.').take(2).mkString(".")
 }
 
 val jacksonVersion: Def.Initialize[String] = Def.setting {
   Option(System.getenv("JACKSON_VERSION")).getOrElse("2.12.7")
 }
 
 val sparkTestVersion: Def.Initialize[String] = Def.setting {
-  "3.3.1_1.3.0"
+  "3.5.2_2.0.1"
 }
 
 // sbt-scalafix
@@ -42,12 +46,12 @@ Test / testOptions := Seq(
   )
 )
 
-lazy val excludeAvro     = ExclusionRule(organization = "org.apache.avro", name = "avro")
-lazy val excludeSpark    = ExclusionRule(organization = "org.apache.spark")
-lazy val excludeLog4j    = ExclusionRule(organization = "org.apache.logging.log4j")
-lazy val excludeParquet  = ExclusionRule(organization = "org.apache.parquet")
-lazy val excludeScalanlp = ExclusionRule(organization = "org.scalanlp")
-lazy val excludeJacksonCore = ExclusionRule(organization = "com.fasterxml.jackson.core")
+lazy val excludeAvro              = ExclusionRule(organization = "org.apache.avro", name = "avro")
+lazy val excludeSpark             = ExclusionRule(organization = "org.apache.spark")
+lazy val excludeLog4j             = ExclusionRule(organization = "org.apache.logging.log4j")
+lazy val excludeParquet           = ExclusionRule(organization = "org.apache.parquet")
+lazy val excludeScalanlp          = ExclusionRule(organization = "org.scalanlp")
+lazy val excludeJacksonCore       = ExclusionRule(organization = "com.fasterxml.jackson.core")
 lazy val excludeJacksonDataFormat = ExclusionRule(organization = "com.fasterxml.jackson.dataformat")
 lazy val excludeJacksonDataType   = ExclusionRule(organization = "com.fasterxml.jackson.datatype")
 lazy val excludeJacksonModule     = ExclusionRule(organization = "com.fasterxml.jackson.module")
@@ -63,52 +67,53 @@ libraryDependencies ++= Seq(
   "org.apache.spark" %% "spark-avro"           % sparkVersion.value % "provided",
   "org.apache.spark" %% "spark-hadoop-cloud" % sparkVersion.value % "provided" excludeAll (excludeAWS),
   "com.holdenkarau" %% "spark-testing-base" % sparkTestVersion.value % "test" excludeAll (excludeSpark),
-  "com.github.scopt"          %% "scopt"               % "3.7.1",
-  "org.scala-lang"             % "scala-library"       % scalaVersion.value,
-  "com.typesafe.play"         %% "play-json"           % "2.10.5" excludeAll (excludeJacksonCore, excludeJacksonDataFormat, excludeJacksonDataType, excludeJacksonModule),
-  "com.fasterxml.jackson.core" % "jackson-annotations" % jacksonVersion.value,
-  "com.fasterxml.jackson.core" % "jackson-core"        % jacksonVersion.value,
-  "com.fasterxml.jackson.core" % "jackson-databind"    % jacksonVersion.value,
+  "com.github.scopt" %% "scopt"         % "4.1.0",
+  "org.scala-lang"    % "scala-library" % scalaVersion.value,
+  "com.typesafe.play" %% "play-json" % "2.10.6" excludeAll (excludeJacksonCore, excludeJacksonDataFormat, excludeJacksonDataType, excludeJacksonModule),
+  "com.fasterxml.jackson.core"       % "jackson-annotations"     % jacksonVersion.value,
+  "com.fasterxml.jackson.core"       % "jackson-core"            % jacksonVersion.value,
+  "com.fasterxml.jackson.core"       % "jackson-databind"        % jacksonVersion.value,
   "com.fasterxml.jackson.dataformat" % "jackson-dataformat-cbor" % jacksonVersion.value,
   "com.fasterxml.jackson.dataformat" % "jackson-dataformat-yaml" % jacksonVersion.value,
   "com.fasterxml.jackson.datatype"   % "jackson-datatype-jdk8"   % jacksonVersion.value,
   "com.fasterxml.jackson.datatype"   % "jackson-datatype-jsr310" % jacksonVersion.value,
   "com.fasterxml.jackson.module"    %% "jackson-module-scala"    % jacksonVersion.value,
-  "com.hubspot.jinjava" % "jinjava"       % "2.7.2" excludeAll (excludeJacksonCore, excludeJacksonDataFormat, excludeJacksonDataType, excludeJacksonModule),
-  "org.influxdb"        % "influxdb-java" % "2.23",
-  "io.github.spark-redshift-community" %% "spark-redshift" % "6.2.0-spark_3.3" excludeAll (excludeAWS, excludeJacksonCore, excludeJacksonDataFormat, excludeJacksonDataType, excludeJacksonModule),
+  "com.hubspot.jinjava" % "jinjava" % "2.7.4" excludeAll (excludeJacksonCore, excludeJacksonDataFormat, excludeJacksonDataType, excludeJacksonModule),
+  "org.influxdb" % "influxdb-java" % "2.24",
+  "io.github.spark-redshift-community" %% "spark-redshift" % "6.3.0-spark_3.5" excludeAll (excludeAWS, excludeJacksonCore, excludeJacksonDataFormat, excludeJacksonDataType, excludeJacksonModule),
   "com.segment.analytics.java" % "analytics"                 % "2.1.1" % "provided",
-  "com.datastax.spark"        %% "spark-cassandra-connector" % "3.5.0",
+  "com.datastax.spark"        %% "spark-cassandra-connector" % "3.5.1",
   "com.redislabs"             %% "spark-redis"               % "3.1.0",
-  "org.apache.kafka"          %% "kafka"                     % "3.7.0",
-  "za.co.absa" %% "abris" % "3.2.1" % "provided" excludeAll (excludeAvro, excludeSpark),
+  "org.apache.kafka"          %% "kafka"                     % "3.9.0",
+  "za.co.absa" %% "abris" % "3.2.2" % "provided" excludeAll (excludeAvro, excludeSpark),
   "org.apache.hudi"   %% "hudi-spark-bundle" % "0.10.0" % "provided",
-  "org.apache.parquet" % "parquet-avro"      % "1.14.0" % "provided",
-  "com.amazon.deequ" % "deequ"     % "2.0.7-spark-3.3" excludeAll (excludeSpark, excludeScalanlp),
-  "org.apache.avro"  % "avro"      % "1.11.3" % "provided",
-  "com.databricks"  %% "spark-xml" % "0.18.0",
-  "com.outr"        %% "hasher"    % "1.2.2",
-  "org.mongodb.spark"       %% "mongo-spark-connector"     % "10.3.0",
-  "mysql"                    % "mysql-connector-java"      % "8.0.33",
-  "org.apache.logging.log4j" % "log4j-api"                 % "2.23.1" % "provided",
-  "org.apache.logging.log4j" % "log4j-core"                % "2.23.1" % "provided",
-  "org.apache.logging.log4j" % "log4j-slf4j-impl"          % "2.23.1" % "provided",
-  "org.postgresql"           % "postgresql"                % "42.7.3",
-  "io.delta"                %% "delta-core"                % "2.4.0",
-  "io.vertx"                 % "vertx-json-schema"         % "4.5.9" excludeAll (excludeJacksonCore, excludeJacksonDataFormat, excludeJacksonDataType, excludeJacksonModule),
-  "com.google.guava"         % "guava"                     % "25.0-jre",
-  "org.apache.sedona"       %% "sedona-spark-3.0"          % "1.6.0" excludeAll (excludeSpark),
-  "org.datasyslab"           % "geotools-wrapper"          % "1.6.0-31.0" excludeAll (excludeSpark),
-  "com.amazonaws"            % "aws-java-sdk-s3"           % "1.12.767" excludeAll (excludeJacksonCore, excludeJacksonDataFormat, excludeJacksonDataType, excludeJacksonModule),
-  "com.amazonaws"            % "aws-java-sdk-dynamodb"     % "1.12.767" excludeAll (excludeJacksonCore, excludeJacksonDataFormat, excludeJacksonDataType, excludeJacksonModule),
-  "software.amazon.awssdk"   % "dynamodb"                  % "2.26.30" excludeAll (excludeJacksonCore, excludeJacksonDataFormat, excludeJacksonDataType, excludeJacksonModule),
-  "software.amazon.awssdk"   % "glue"                      % "2.26.30" excludeAll (excludeJacksonCore, excludeJacksonDataFormat, excludeJacksonDataType, excludeJacksonModule),
-  "software.amazon.awssdk"   % "s3"                        % "2.26.30" excludeAll (excludeJacksonCore, excludeJacksonDataFormat, excludeJacksonDataType, excludeJacksonModule),
-  "software.amazon.awssdk"   % "sts"                       % "2.26.30" excludeAll (excludeJacksonCore, excludeJacksonDataFormat, excludeJacksonDataType, excludeJacksonModule),
-  "org.apache.iceberg"      %% "iceberg-spark-runtime-3.3" % "1.6.0" excludeAll (excludeJacksonCore, excludeJacksonDataFormat, excludeJacksonDataType, excludeJacksonModule),
-  "com.jayway.jsonpath"      % "json-path"                 % "2.9.0" excludeAll (excludeJacksonCore, excludeJacksonDataFormat, excludeJacksonDataType, excludeJacksonModule),
-  "io.trino"                 % "trino-jdbc"                % "453",
-  "com.syncron.amazonaws"    % "simba-athena-jdbc-driver"  % "2.1.5" from s"https://downloads.athena.us-east-1.amazonaws.com/drivers/JDBC/SimbaAthenaJDBC-2.1.5.1000/AthenaJDBC42-2.1.5.1000.jar"
+  "org.apache.parquet" % "parquet-avro"      % "1.15.0" % "provided",
+  "com.amazon.deequ" % "deequ" % ("2.0.9-spark-" + sparkShortVersion.value) excludeAll (excludeSpark, excludeScalanlp),
+  "org.apache.avro"          % "avro"                  % "1.12.0" % "provided",
+  "com.databricks"          %% "spark-xml"             % "0.18.0",
+  "com.outr"                %% "hasher"                % "1.2.2",
+  "org.mongodb.spark"       %% "mongo-spark-connector" % "10.4.1",
+  "mysql"                    % "mysql-connector-java"  % "8.0.33",
+  "org.apache.logging.log4j" % "log4j-api"             % "2.24.3" % "provided",
+  "org.apache.logging.log4j" % "log4j-core"            % "2.24.3" % "provided",
+  "org.apache.logging.log4j" % "log4j-slf4j-impl"      % "2.24.3" % "provided",
+  "org.postgresql"           % "postgresql"            % "42.7.5",
+  "io.delta"                %% "delta-core"            % "2.4.0",
+  "io.vertx" % "vertx-json-schema" % "4.5.12" excludeAll (excludeJacksonCore, excludeJacksonDataFormat, excludeJacksonDataType, excludeJacksonModule),
+  "com.google.guava" % "guava" % "25.1-jre",
+  "org.apache.sedona" %% ("sedona-spark-" + sparkShortVersion.value) % "1.6.1" excludeAll (excludeSpark),
+  "org.datasyslab" % "geotools-wrapper" % "1.7.0-28.5" excludeAll (excludeSpark),
+  "com.amazonaws" % "aws-java-sdk-s3" % "1.12.780" excludeAll (excludeJacksonCore, excludeJacksonDataFormat, excludeJacksonDataType, excludeJacksonModule),
+  "com.amazonaws" % "aws-java-sdk-dynamodb" % "1.12.780" excludeAll (excludeJacksonCore, excludeJacksonDataFormat, excludeJacksonDataType, excludeJacksonModule),
+  "software.amazon.awssdk" % "dynamodb" % "2.30.15" excludeAll (excludeJacksonCore, excludeJacksonDataFormat, excludeJacksonDataType, excludeJacksonModule),
+  "software.amazon.awssdk" % "glue" % "2.30.15" excludeAll (excludeJacksonCore, excludeJacksonDataFormat, excludeJacksonDataType, excludeJacksonModule),
+  "software.amazon.awssdk" % "s3" % "2.30.15" excludeAll (excludeJacksonCore, excludeJacksonDataFormat, excludeJacksonDataType, excludeJacksonModule),
+  "software.amazon.awssdk" % "sts" % "2.30.15" excludeAll (excludeJacksonCore, excludeJacksonDataFormat, excludeJacksonDataType, excludeJacksonModule),
+  "org.apache.iceberg" %% ("iceberg-spark-runtime-" + sparkShortVersion.value) % "1.7.1" excludeAll (excludeJacksonCore, excludeJacksonDataFormat, excludeJacksonDataType, excludeJacksonModule),
+  "com.jayway.jsonpath" % "json-path" % "2.9.0" excludeAll (excludeJacksonCore, excludeJacksonDataFormat, excludeJacksonDataType, excludeJacksonModule),
+  "io.trino" % "trino-jdbc" % "470",
+  "com.syncron.amazonaws" % "simba-athena-jdbc-driver" % "2.1.5" from s"https://downloads.athena.us-east-1.amazonaws.com/drivers/JDBC/SimbaAthenaJDBC-2.1.5.1000/AthenaJDBC42-2.1.5.1000.jar",
+  "net.snowflake" % "snowflake-jdbc" % "3.22.0"
 )
 
 resolvers ++= Seq(
diff --git a/project/plugins.sbt b/project/plugins.sbt
@@ -4,3 +4,4 @@ addSbtPlugin("org.scalastyle"  %% "scalastyle-sbt-plugin" % "1.0.0")
 addSbtPlugin("org.xerial.sbt"   % "sbt-sonatype"          % "3.9.15")
 addSbtPlugin("org.scalameta"    % "sbt-scalafmt"          % "2.4.6")
 addSbtPlugin("ch.epfl.scala" % "sbt-scalafix" % "0.11.0")
+addSbtPlugin("com.timushev.sbt" % "sbt-updates" % "0.6.4")
diff --git a/src/main/scala/com/yotpo/metorikku/output/writers/redis/RedisOutputWriter.scala b/src/main/scala/com/yotpo/metorikku/output/writers/redis/RedisOutputWriter.scala
@@ -1,6 +1,7 @@
 package com.yotpo.metorikku.output.writers.redis
 
 import com.redislabs.provider.redis._
+import com.yotpo.metorikku.utils.FileUtils
 import com.yotpo.metorikku.configuration.job.output.Redis
 import com.yotpo.metorikku.output.Writer
 import com.yotpo.metorikku.output.WriterSessionRegistration
@@ -9,8 +10,6 @@ import org.apache.spark.SparkConf
 import org.apache.spark.sql.DataFrame
 import org.apache.spark.sql.SparkSession
 
-import scala.util.parsing.json.JSONObject
-
 object RedisOutputWriter extends WriterSessionRegistration {
   def addConfToSparkSession(sparkConf: SparkConf, redisConf: Redis): Unit = {
     sparkConf.set(s"redis.host", redisConf.host)
@@ -38,8 +37,13 @@ class RedisOutputWriter(props: Map[String, String], sparkSession: SparkSession)
         .na
         .fill("")
         .map(row =>
-          row.getAs[Any](redisOutputOptions.keyColumn).toString ->
-            JSONObject(row.getValuesMap(columns)).toString()
+          row.getAs[Any](redisOutputOptions.keyColumn).toString -> {
+            FileUtils
+              .getObjectMapperByExtension("json") match {
+              case Some(mapper) => mapper.writeValueAsString(row.getValuesMap(columns))
+              case _            => throw new IllegalStateException("JSON mapper not found")
+            }
+          }
         )
       log.info(s"Writting Dataframe into redis with key ${redisOutputOptions.keyColumn}")
       redisDF.sparkSession.sparkContext.toRedisKV(redisDF.toJavaRDD)
diff --git a/src/main/scala/com/yotpo/metorikku/test/StreamMockInput.scala b/src/main/scala/com/yotpo/metorikku/test/StreamMockInput.scala
@@ -13,7 +13,7 @@ class StreamMockInput(fileInput: File) extends File("", None, None, None, None)
 case class StreamMockInputReader(val name: String, fileInput: File) extends Reader {
   def read(sparkSession: SparkSession): DataFrame = {
     val df                  = fileInput.getReader(name).read(sparkSession)
-    implicit val encoder    = RowEncoder(df.schema)
+    implicit val encoder    = RowEncoder.encoderFor(df.schema)
     implicit val sqlContext = sparkSession.sqlContext
     val stream              = MemoryStream[Row]
     stream.addData(df.collect())