Spark Scala

Objetivo

Entender e identificar los componentes principales del ecosistema Spark. Así con su aplicación en el desarrollo de ETL, Data Quality, aplicando “data castings”, teniendo como insumo principal Hadoop y Hive.

¿A quién va dirigido?

A todo aquel consultor que requiere ampliar sus conocimientos en procesamiento paralelo y distribuido, aplicando tecnologías escalables y de alto rendimiento.

Agenda

Ecosistema spark en pyspark y scala

  • Introducción a Spark
  • Spark Context
  • RDDs – Transformaciones y Acciones
  • Lists, Arrays
  • Funciones (parallelize, map, keyBy) y Operaciones (count, take, collect, saveAsTextFile)
  • Programación funcional (Lambda functions)
  • PairRDDs y MapReduce (flatMap, reduceByKey)
  • Lab: De RDD, información en bruto, (1Gb) a Dataframe estructurado

Tratamiento distribuido de tablas con SparkSQL en scala y pyspark SQL Context

  • DataFrames
  • Queries on sqlContext
  • Read and write json
  • Read and write Avro
  • Read TextFiles
  • Infering Schemas
  • Convert RDD tDataframes
  • Loops
  • Read a table from jdbc
  • Saving in hive tables
  • Saving in hive partitioned tables

Creating apps

  • Spark Submit
  • Containers
  • Num-Executors
  • Executor-cores
  • Executor-memory Memory-Overhead

Requisitos

  • Laptop con 4GB de RAM
  • Conocimientos básicos de bases de datos
  • Hadoop básico

Fechas

Sábado 24 y 31 de Agosto 2019
9:00 a 15:00 horas

Duración

12 horas

Dudas y preguntas a:

Twitter
@iscitmx

Facebook
Facebook

Página web
iscit.com.mx

Lugar del curso

Ubicación