MINE4213 - Sistemas intensivos de datos | Administración del conocimiento

Nombre del curso:	Sistemas intensivos de datos
Profesores:	Christian Ariza, Yachay Tolosa
Créditos:	4
Versión PDF	Click Aquí

Descripción

Descripción

Este curso se enfoca en la arquitectura de datos y las habilidades de ingeniería de datos necesarias para el procesamiento distribuido a gran escala. Los estudiantes utilizarán herramientas del ecosistema de Apache Spark para construir, optimizar y gestionar pipelines de datos. A lo largo del curso, se trabajará con conjuntos de datos representativos de escenarios reales y se aplicarán mejores prácticas de la industria, con énfasis en gobernanza, formatos de almacenamiento y generación de características (feature engineering).

Al finalizar el curso, los estudiantes serán capaces de:

Procesar datos a gran escala utilizando Apache Spark.
Diseñar arquitecturas de datos para soluciones del mundo real.
Implementar pipelines de datos con Delta Lake, MLFlow y Unity Catalog.
Gestionar la ingeniería de características y el ciclo de vida de modelos de machine learning.

Este curso es una evolución del curso de análisis con BigData. Los que vieron ese curso no podrán ver el nuevo curso.

MINE4213 – Sistemas intensivos de datos

Administración del conocimiento

Inicio

Descripción