Análisis de datos

Posgrado: Métodos para el Análisis de Datos

Inscripciones únicamente a través del siguiente link de Inscripción: https://forms.gle/kQ775V1zYRuczgnR7

Responsables:

  • Dra. Myriam Herrera

Colaboradores:

  • Mg. Ruiz Susana,
  • Lic. Sosa Magali
  • Tec. Gonzales Simón

Fundamentación de la propuesta

La Estadística es una ciencia que proporciona métodos para analizar datos empíricos, permitiendo arribar a conclusiones confiables. Debido, en una parte, a la disponibilidad de grandes bases de datos y, en otra parte, a los desarrollos recientes de la Teoría Estadística, la mayoría de los métodos estadísticos se presentan en la actualidad como temas del Análisis de Datos Multivariados, que forma parte de las metodologías de Minería de Datos y de Análisis de Datos. En estos estudios se cuenta con la información de numerosas variables, cuyas múltiples relaciones pueden ser analizadas adecuadamente a través del empleo de los Métodos Estadísticos Multivariados.
La mayoría de las técnicas multivariadas son muy intensivas en los cálculos, y conllevan gráficos y diagrama muy complejos, por lo que resulta indispensable utilizar herramientas informáticas, para que los usuarios accedan a los contenidos que fundamentan la teoría, realicen aplicaciones prácticas, interpreten y analicen resultados.
El contenido del curso se ha sido diseñado a fin de brindar a los asistentes las bases de la Teoría del Análisis Estadístico, sobre todo del Análisis Multivariado, y una descripción de algunos métodos en función de los más empleados en el área de la Ciencia Informática (herramientas de Data Mining y Machine Learning).
La primera parte del curso es introductoria, en ella se describen brevemente los conceptos básicos de Estadística y Álgebra Matricial que son utilizados en desarrollos posteriores. En la segunda parte se incluyen los llamados Métodos Exploratorios, en la tercera los Métodos Inferenciales o Explicativos, y en la última parte, técnicas para el Análisis Estadístico Exploratorio de Datos Textuales. Está previsto la aplicación de software apropiados en cada sección, preferentemente libres.

Marco Teórico

Los datos se han convertido en un recurso crítico en muchas organizaciones y por
lo tanto, el acceso eficiente a estos, la necesidad de compartirlos, extraer información de los mismos y hacer uso de la información, se ha transformado en una necesidad urgente. El requerimiento de comprender grandes conjuntos de datos y complejos, ricos en información, es común a todos los campos de los negocios, ciencia e ingeniería. La habilidad para extraer conocimiento útil, escondido en esos datos, y actuar sobre el conocimiento, está transformándose en algo cada vez más importante en el mundo competitivo de estos días. Como resultado hay muchos esfuerzos no sólo para integrar varias fuentes de datos dispersos a través de sitios diferentes, sino también es importante la información extraída de esas bases de datos en la forma de patrones y tendencias.
Data Mining, que proporciona métodos al Análisis de Datos, analiza conjuntos de datos para encontrar relaciones y resúmenes de datos útiles para el propietario de los datos. Estas relaciones y resúmenes, derivados a través del ejercicio del Data Mining se refieren a modelos y patrones.
La aplicación automatizada de algoritmos, de Minería de Datos, permite detectar fácilmente patrones en los datos. Estos algoritmos se clasifican en dos grandes categorías: supervisados (o predictivos) y no supervisados.
Los modelos supervisados requieren de un conjunto de pruebas y de interacciones de entrenamiento. Las técnicas usadas son la clasificación (Análisis Discriminante) y la predicción de valores. Los modelos no supervisados descubren patrones y tendencias en los datos actuales (no utilizan datos históricos). Las técnicas usadas son: Asociación, Segmentación o ‘Clustering’ (Análisis de Conglomerados).
El Reconocimiento de Patrones tiene como objetivo la clasificación de objetos dentro de un número de categorías o clases. Dependiendo de la aplicación estos objetos pueden ser imágenes, señales o cualquier tipo de medidas que necesitan ser clasificadas. Esas medidas se llaman patrones.
Las medidas usadas para la clasificación de objetos o patrones son conocidas como características. Los conjuntos de todas las características forman el vector que identifica únicamente a un patrón (objeto).
Las cuestiones que preocupan en el diseño de un sistema de clasificación que ejecuta la tarea de un reconocimiento de patrones son: (a) la generación de características para lo cual es importante la elección del mejor número de características; (b) el diseño del clasificador y finalmente, cuando el clasificador está
diseñado, (c) la evaluación del rendimiento del clasificador diseñado mediante el error de clasificación.
Análisis Estadístico de Datos Textuales (AEDT) comporta una serie de herramientas que se enmarcan en el Análisis Estadístico Multidimensional Descriptivo, frecuentemente llamado “Análisis de Datos”. El enfoque de estas herramientas, no lleva a emitir aserciones apoyadas en pruebas estadísticas, sino a subrayar diferentes rasgos presentes en las observaciones que permiten orientar investigaciones posteriores y/o emitir nuevas hipótesis. Los resultados así obtenidos presentan una gran riqueza y diversidad.

Objetivos

Objetivo principal:
Reconocer la capacidad de las técnicas estadísticas para aumentar el conocimiento respecto a un determinado problema en Análisis de Datos.
Objetivos específicos
  • Identificar situaciones prácticas, en Análisis de Datos, en las que es pertinente la adaptación de cada Método Estadístico.
  • Utilizar softwares apropiados, preferente libres, para realizar la tarea de procesamiento e interpretar correctamente los resultados.
  • Avanzar en la profundización teórica y metodológica del Análisis Multivariado.
  • Utilizar métodos estadísticos adecuados, para analizar bases de datos provenientes de algún área de interés de asistentes al curso.

Contenidos mínimos

  • Introducción al Análisis Multivariado.
  • Componentes principales. Análisis Factorial
  • Análisis de Conglomerados.
  • Discriminación.
  • Análisis de Datos Textuales

Programa

Unidad 1: Cálculo Multidimensional de Datos
Tipos de Variables: Datos cuantitativos vs datos cualitativos. Técnicas de Análisis Multivariado. Correspondencia simple y multivariada. Representación y operaciones con
vectores. Medidas descriptivas y distancias. Ejemplos de aplicación utilizando softwares o paquetes libres, preferentemente con base en el software R.
Unidad 2: Métodos Factoriales
Enfoque clásico de Componentes Principales. Extracción de Componentes Principales con Parámetros Poblacionales Conocidos. Estimación de las componentes principales. Inferencias para componentes muestrales. Descomposición en valores singulares . Análisis General. Análisis de Correspondencias Simples. Análisis de Correspondencias Múltiples. Análisis Factorial Exploratorio. Ejemplos de aplicación utilizando softwares o paquetes libres con base en el software R.
Unidad 3: Análisis de Conglomerados
Medidas de Proximidad. Medidas de Disimilaridad. Medidas de Similaridad. Algoritmos para la formación de clúster. Evaluación de los resultados. Limitaciones del análisis. Ejemplos de aplicación utilizando softwares o paquetes libres con base en el software R.
Unidad 4: Discriminación Supervisada
Clasificación entre dos poblaciones. Tipos de clasificación, discriminación bayesiana. Clasificación Logística. Ejemplos de aplicación utilizando softwares o paquetes libres con base en el software R.
Unidad 5: Análisis de Datos Textuales
Determinación del problema. Definición de los datos y metainformación. Preguntas abiertas versus preguntas cerradas. Unidades Léxicas y segmentación del texto. Análisis de correspondencias sobre tablas léxicas. Análisis de grupos. Visualización de datos textuales. Ejemplos de aplicación utilizando softwares o paquetes libres con base en el software R.

Destinatarios:

Estudiantes de Doctorado en Ciencias Informáticas. Licenciado en Ciencias Informáticas o afines. Licenciados en Ciencias de la Computación, Licenciados en Matemática, Ingenieros en Sistemas o carreras afines. Estudiantes de Doctorado en Ciencias Biológicas.

Cupo

10 alumnos cómo mínimo 25 alumnos cómo máximo

Inscripciones

Únicamente a través del siguiente link de Inscripción: https://forms.gle/kQ775V1zYRuczgnR7