Workshop Data engineering with Spark

Objetivo

Este curso cubre los aspectos fundamentales de Apache Spark con Pyspark, y sobre el desarrollo de aplicaciones Apache Spark con Pyspark Spark.

Al final de este curso, obtendrás habilidades generales de manejo de Apache Spark con Pyspark, así como de análisis de big data para adaptar Apache Spark con Pyspark a un proyecto para la construcción de un pipeline de procesamiento de big data y aplicaciones de análisis de datos.

¿A quién va dirigido?

A todo aquel consultor que requiere ampliar sus conocimientos en procesamiento paralelo y distribuido, aplicando tecnologías escalables y de alto rendimiento.

Agenda

  • Introducción a Spark
  • Pyspark
  • Instalación de software necesario
  • RDD
    • Fundamentos de RDD en Apache Spark
    • Transformaciones
    • Acciones
    • Aspectos importantes de los RDD
    • Almacenamiento en Cache y Persistencia
  • Arquitectura Spark y Componentes
  • Otros tipos de RDDs
    • Transformaciones sobre RDDs Clave - valor
    • Acciones sobre RDDs Clave - valor
  • Apache Spark SQL
    • Introducción
    • Conjuntos
    • Rendimiento
  • Ejecución de Aplicaciones

Requisitos

  • Core i 3, 8 GB RAM, 30 GB de disco
  • Nociones básicas de programación con Python
  • Hadoop básico

Fechas

Sábado 15 y 22 de Junio 2019
9:00 a 15:00 horas

Duración

12 horas

Dudas y preguntas a:

Twitter
@iscitmx

Facebook
Facebook

Página web
iscit.com.mx

Lugar del curso

Ubicación