2019-10

Semestre 2019-10

Nombre del curso: Análisis de Información sobre Big Data
Course Name: Big Data Analytics
Créditos: 4
Profesor: Claudia L. Jiménez G.
Versión PDF Click Aquí

Propósito

Big Data (Datos Enormes) es el término para referirse al contexto de integración y análisis de cantidades masivas de información móvil, web, social y en la nube, pertinentes para el usuario y relevantes para entender el ecosistema de una organización. El análisis de cantidades enormes de datos que se generan tanto dentro de las organizaciones como fuera de ellas, ha cambiado las tecnologías y las metodologías con las cuales se desarrollan soluciones basadas en contenidos que buscan generar valordiferenciación y oportunidad en la toma de decisiones.

El propósito del curso es presentar, analizar y utilizar las oportunidades de innovación que ofrece el análisis de grandes cantidades de datos en: la toma de decisiones estratégicas y tácticas de una organización, el desarrollo de aplicaciones en diferentes campos del conocimiento y la selección e integración de infraestructuras que aseguren una alta escalabilidad permitiendo así un crecimiento natural de las soluciones implementadas.

A nivel estratégico y táctico de una organización, Big Data Analytics busca comprender y aprovechar los datos propios y externos a la empresa con el fin de entender los cambios y las tendencias de mercado, identificar opiniones de segmentos poblacionales relevantes para el negocio e interpretar de flujos de datos provenientes de fuentes sociales para generar análisis de competitividad.

A nivel de desarrollo de aplicaciones Big Data, se generan técnicas y metodologías propias para este tipo de información que además son adaptables a diferentes campos de aplicación, permitiendo así el uso efectivo de los datos en el análisis de una problemática específica. Entre los campos de desarrollo de Big Data se encuentran, entre otros: el análisis de comercio electrónico, el entendimiento en línea de la reacción de clientes frente a un producto o su competencia, la definición y ajuste de políticas públicas, las telecomunicaciones, los videojuegos en línea, las aplicaciones gubernamentales, aplicaciones de salud y ciencia, el análisis del comportamiento urbano y la predicción, prevención y reacción frente a desastres.

A nivel de infraestructura, tecnologías como Hadoop y NoSQL son utilizadas para facilitar la alta escalabilidad necesaria en procesamiento, y almacenamiento de este tipo de información. El uso de este tipo de tecnologías acompañado de la definición de arquitecturas orientadas a los datos, permite ofrecer sistemas robustos y eficientes generando ventajas competitivas en diferentes perspectivas en el ámbito empresarial así como en los ámbitos científico e investigativo.

Finalmente, a nivel de información, suele trabajarse con fuentes estructuradas como no estructuradas, profundamente heterogéneas. La información proviene de fuentes diversas usualmente autónomas, es creciente de forma exponencial y no manipulable de forma efectiva con herramientas tradicionales de gestión de bases de datos. Según IDC, se estima en 1.8 Zetabytes (1.8 * 106 Petabytes) la información generada sólo en 2011, siendo los contenidos los protagonistas. Las fuentes suelen ser blogs, wikis, RSS, email, comunidades participativas como las redes sociales y comunidades virtuales especializadas. Estas se integran con la información propia a las organizaciones y los individuos, de manera ubicua.

Se cuenta con ejemplos, desarrollados en el contexto de cursos y proyectos de investigación del grupo, en dominios tan variados como la biología, la medicina, temas financieros, análisis de opinión de productos en el mercado, análisis de imagen de personajes públicos, análisis de comentarios en noticias de prensa y análisis de estado de la comunidad a partir de los streams de redes sociales.