Guía docente de Análisis Exploratorio de Datos (22311C1)

Curso 2024/2025
Fecha de aprobación: 25/06/2024

Grado

Grado en Estadística

Rama

Ciencias

Módulo

Análisis Exploratorio y Minería de Datos

Materia

Análisis Exploratorio y Minería de Datos

Year of study

4

Semestre

1

ECTS Credits

6

Tipo

Optativa

Profesorado

Teórico

José Fernando Vera Vera. Grupo: A

Práctico

José Fernando Vera Vera Grupo: 1

Tutorías

José Fernando Vera Vera

Email
No hay tutorías asignadas para el curso académico.

Prerrequisitos y/o Recomendaciones

Se recomienda la realización previa de los módulos Análisis de Datos y Estadística Computacional.

Breve descripción de contenidos (Según memoria de verificación del Máster)

  • Análisis exploratorio de datos (AED). Conceptos básicos.
  • Técnicas cuantitativas del AED.
  • Herramientas software para el AED

Competencias

Competencias Generales

  • CG01. CG01. Poseer los conocimientos básicos de los distintos módulos que, partiendo de la base de la educación secundaria general, y apoyándose en libros de texto avanzados, se desarrollan en la propuesta de título de Grado en Estadística que se presenta. 
  • CG02. CG02. Saber aplicar los conocimientos básicos de cada módulo a su trabajo o vocación de una forma profesional y poseer las competencias que suelen demostrarse por medio de la elaboración y defensa de argumentos y la resolución de problemas dentro de la Estadística y ámbitos en que esta se aplica directamente.  
  • CG03. CG03. Saber reunir e interpretar datos relevantes para emitir juicios que incluyan una reflexión sobre temas relevantes de índole social, científica o ética.  
  • CG04. CG04. Poder transmitir información, ideas, problemas y sus soluciones, de forma escrita u oral, a un público tanto especializado como no especializado.  
  • CG05. CG05. Haber desarrollado aquellas habilidades de aprendizaje necesarias para emprender estudios posteriores con un alto grado de autonomía.  
  • CG06. CG06. Saber utilizar herramientas de búsqueda de recursos bibliográficos.  
  • CG08. CG08. Poseer habilidades y aptitudes que favorezcan el espíritu emprendedor en el ámbito de aplicación y desarrollo de su formación académica. 

Competencias Específicas

  • CE01. CE01. Conocer los fundamentos básicos del razonamiento estadístico, en el diseño de estudios, en la recogida de información, en el análisis de datos y en la extracción de conclusiones. 
  • CE02. CE02. Conocer, saber seleccionar y saber aplicar, técnicas de adquisición de datos para su tratamiento estadístico. 
  • CE03. CE03. Conocer los fundamentos teóricos y saber aplicar modelos y técnicas estadísticas en estudios y problemas reales en diversos ámbitos científicos y sociales. 
  • CE04. CE04. Saber seleccionar los modelos o técnicas estadísticas para su aplicación en estudios y problemas reales en diversos ámbitos científicos y sociales, así como conocer herramientas de validación de los mismos. 
  • CE06. CE06. Comprender y utilizar básicamente el lenguaje matemático. 
  • CE08. CE08. Conocer y saber utilizar aplicaciones informáticas de análisis estadístico, cálculo numérico y simbólico, bases de datos, visualización gráfica y optimización, que sean útiles para la aplicación y desarrollo de las técnicas estadísticas. 
  • CE09. CE09. Conocer los conceptos básicos y habilidades propias de un ámbito científico o social en el que la Estadística o la Investigación operativa sean una herramienta fundamental. 

Resultados de aprendizaje (Objetivos)

  • Comprender la necesidad de una exploración previa de los datos, su preparación y adecuación, así como conocer las técnicas de filtrado y transformación.
  • Conocer los problemas que pueden ser resueltos mediante AED, qué técnicas son aplicables en cada caso y cuáles son sus limitaciones.
  • Conocer las técnicas más habituales en AED desde una perspectiva gráfica.
  • Ser capaz de utilizar adecuadamente las herramientas software para AED.

Programa de contenidos Teóricos y Prácticos

Teórico

TEMARIO TEÓRICO:

1. INTRODUCCIÓN AL ANÁLISIS EXPLORATORIO DE DATOS. APRENDIZAJE NO SUPERVISADO.

  • La perspectiva exploratoria. La importancia del AED en la aplicación de la Estadística.
  • Diferencias del AED con la estadística tradicional.
  • Objetivos, herramientas y problemas del AED.
  • Técnicas clásicas de la detección de datos anómalos. Estimadores robustos.
  • El problema del "Big Data".

2. ANÁLISIS EXPLORATORIO DE DATOS DE UNA VARIABLE Y DE LA RELACIÓN ENTRE DOS VARIABLES.

  • Introducción.
  • Exploración de la forma de una distribución. Exploración no paramétrica de la densidad.
  • Detección de datos anómalos. Estimadores robustos. Transformaciones.
  • Generación de observaciones aleatorias. Simulación. Mezcla de distribuciones.
  • Exploración gráfica de la relación entre dos variables.
  • La línea resistente de Tukey. Análisis de residuos. Relaciones monótonas.
  • Aplicación a problemas reales.

3. EXPLORACIÓN MULTIDIMENSIONAL DE DATOS. AGRUPAMIENTO Y CLASIFICACIÓN.

  • Introducción.
  • Exploración gráfica de la relación entre datos. Modelos basados en distancias.
  • Técnicas exploratorias de agrupamiento.
  • Técnicas exploratorias de clasificación.
  • Relación entre técnicas exploratorias supervisadas y no supervisadas.
  • Aplicación a problemas reales.

4. EXPLORACIÓN MULTIDIMENSIONAL DE DATOS. REDUCCIÓN DE LA DIMENSIONALIDAD.

  • Introducción.
  • Medidas de proximidad. Disimilaridades.
  • Técnicas para la exploración de datos de proximidad. Aplicación a problemas reales
  • Técnicas para la exploración de datos de preferencias. Aplicación a problemas reales

Práctico

  • Metodología del análisis exploratorio de datos con SPSS y R.
  • Aplicaciones del AED en Marketing, Ciencias Sociales, Biometría, etc…
  • Seminarios/Talleres: La Percepción Gráfica.
  • Perspectiva histórica.: El análisis y la comunicación gráfica.
  • Métodos modernos de análisis de datos.: Diagnóstico exploratorio y regresión.
  • Tratamiento exploratorio de datos anómalos y de casos influyentes. Análisis de residuos.
  • Métodos exploratorios de estimación.: Métodos basados en Bootstrap. Métodos basados en simulación.

Prácticas de Laboratorio

  • Práctica 1. Paradojas del AED.
  • Práctica 2. AED para una variable y para varias variables con R.
  • Práctica 3. Resolución de problemas mediante transformaciones. Aplicación con R.
  • Práctica 4. AED de la relación entre datos con R.
  • Práctica 5. Exploración gráfica con SPSS y R.
  • Práctica 6. Análisis exploratorio de datos multivariantes con R.

Bibliografía

Bibliografía fundamental

BIBLIOGRAFÍA FUNDAMENTAL:

  1. BORG, I., GROENEN, P (2005). Modern Multidimensional Scaling. Second Edition. Springer.
  2. ESCOBAR, M.(1999).- Análisis Gráfico/Esploratorio. Cuadernos de Estadística. La Muralla. Hespérides.
  3. HARTWIG, F & DEARING, B.E.(1979).-Exploratory Data Analysis. Beverly Hills. Sage.
  4. HOAGLIN, D., MOSTELLER, F. & TUKEY, J.W.(1983).-Understanding robust and Exploratory Data Analysis. New York. John Wiley & Sons.
  5. LUNN, A. D. & McNEIL, D.R.(1991).-Computer Interactive Data Analysis. John Wiley & Sons.
  6. ROBERT, C. P. & CASELLA, G. (2004).-Monte Carlo Statistical Methods. 2nd ed. Springer. New York.
  7. TUKEY, J.W.(1977).-Exploratory Data Analysis. Reading Mass. Addison & Wesley.
  8. YOUNG, F. W. VALERO-MORA, P. and FRIENDLY M. (2006) Visual Statistics: Seeing your data with Dynamic Interactive Graphics. Wiley

Bibliografía complementaria

BIBLIOGRAFÍA COMPLEMENTARIA:

  1. Abranovic, W. A. (1997): Statistical Thinking and Data Analysis Methods for Managers. Ed. Addison-Wesley. Aguarón J. y otros (1993): Simulación. Colección Textos Docentes, Servicio de Publicaciones de la Universidad de Zaragoza.
  2. Carrie, A. (1988): Simulation of Manufacturing Systems. Ed. John Wiley & Sons.
  3. Chambers J.M. y otros (1983): Graphical Methods for Data Analysis. Ed. Chapman-Hall.
  4. Olson, D.L. (2002): Introduction to Simulation and Risk Analysis. Ed. Prentice-Hall.
  5. Hair, J.F.; Anderson, R.E.; Tatham, R.L.; Black, W.C. (1999): Análisis Multivariante, 5a ed. Ed. Prentice Hall
  6. Kelton, W.D.; Sadowski, R.P.; Sadowski, D.A. (2002): Simulation with Arena.
  7. McGraw-Hill. Law, A.M.; Kelton, W.D. (2000): Simulation Modeling and Analysis, 3rd edition. Ed. McGraw-Hill.
  8. Martínez-Arias, R. (1999):El Análisis Multivariante en la Investigación Científica. Colección Cuadernos de Estadística. Ed. La Muralla-Hespérides.
  9. Middleton M. R. (1995): Data Analysis Using Excel 5.0. Ed. Duxbury.
  10. Naylor T.H. (1982): Experimentos de Simulación en computadoras con modelos de Sistemas Económicos. Ed. Limusa.
  11. Pardo L. Y Valdés T. (1987): Simulación. Aplicaciones prácticas en la Empresa. Ed. Díaz de Santos S.A.
  12. Pérez, C. (2001): Técnicas Estadísticas con SPSS. Ed. Pearson Educación.
  13. Rial, A.; Varela, J.; Rojas, A.J. (2001): Depuración y Análisis Preliminares de Datos en SPSS. Ed. Ra-Ma.
  14. Ríos-Insúa D.; Ríos-Insúa S.; Martín J. (1997): Simulación. Métodos y Aplicaciones. Ed. Rama.
  15. Visauta B.(1997): Análisis Estadístico con SPSS para Windows. Ed. McGraw-Hill.
  16. Waters, D.(1998): Essential Quantitative Methods. Ed. Addison Wesley Longman.
  17. Winston W.(2000): Financial Models using Simulation and Optimization. Ed. Palisade

Metodología docente

  • MD01. MD1. Lección magistral/expositiva 
  • MD02. MD2. Sesiones de discusión y debate 
  • MD03. MD3. Resolución de problemas y estudio de casos prácticos 
  • MD04. MD4. Prácticas en sala de informática 
  • MD05. MD5. Seminarios 
  • MD06. MD6. Ejercicios de simulación 
  • MD07. MD7. Análisis de fuentes y documentos 
  • MD08. MD8. Realización de trabajos en grupo 
  • MD09. MD9. Realización de trabajos individuales 

Evaluación (instrumentos de evaluación, criterios de evaluación y porcentaje sobre la calificación final)

Evaluación Ordinaria

Todo lo relativo a la evaluación se regirá por la normativa de planificación docente y organización de exámenes de la Universidad de Granada.

El sistema de calificación empleado será el establecido en el artículo 5 del Real Decreto 1125/2003, de 5 de septiembre, por el que se establece el sistema europeo de créditos y el sistema de calificaciones en las titulaciones universitarias de carácter oficial y validez en todo el territorio nacional.

Los criterios de evaluación se indicarán en los Programas y Guías Didácticas correspondientes a cada asignatura, garantizando así la transparencia y objetividad de los mismos. De acuerdo con el Real Decreto 1125/2003, la valoración del nivel de adquisición de las competencias generales y específicas de cada materia se llevará a cabo de manera continua a lo largo de todo el periodo académico.

La evaluación se realizará a partir de la medición de las diversas actividades que realizan los alumnos. La superación de cualquiera de las pruebas no se logrará sin un conocimiento uniforme y equilibrado de toda la materia. Se tendrán en cuenta los siguientes procedimientos, aspectos y criterios, asignando a cada uno de ellos un porcentaje que se mantenga en el rango indicado y de tal manera que la suma de los tres constituya el total (100%) de la calificación:

• Pruebas específicas de conocimientos y resolución de ejercicios, orales y escritas, donde se valorarán tanto la asimilación como la expresión de los conocimientos adquiridos por el alumno, especialmente, su capacidad para la aplicación de los mismos a situaciones prácticas concretas y se realizará una observación sistemática del proceso de aprendizaje. Aportará el 45% de la calificación.

• Trabajos y seminarios. Abarca todos los trabajos y seminarios realizados por los estudiantes a lo largo del curso (ejercicios, prácticas en ordenador, resúmenes, cuadernos de trabajo, presentaciones, entrevistas, cuestionarios, etc.), tanto de carácter individual como en grupo. Se valorará además de los propios trabajos, la presentación y defensa de los mismos, y los debates suscitados en los seminarios, para obtener información sobre aspectos actitudinales, de integración y actuación social. Aportará el 50% de la calificación.

• Participación, actitud y esfuerzo personal de los alumnos en todas las actividades formativas programadas, así como una autoevaluación razonada. Aportará el 5% de la calificación.

Evaluación Extraordinaria

La evaluación extraordinaria establecida en la Normativa de evaluación y de calificación de los estudiantes de la Universidad de Granada consistirá en un examen escrito en el que se incluirán preguntas teóricas y prácticas sobre el temario que figura en esta guía docente.

Evaluación única final

La evaluación única final establecida en la Normativa de evaluación y de calificación de los estudiantes de la Universidad de Granada consistirá en un examen escrito en el que se incluirán preguntas teóricas y prácticas sobre el temario que figura en esta guía docente.

Información adicional

  • Clases de teoría: Sesiones para todo el grupo de alumnos en las que se explicarán, por parte del profesor, los contenidos teóricos fundamentales y su importancia en el contexto de la materia, y que servirán para fijar los conocimientos ligados a las competencias previstas.
  • Clases de problemas y de prácticas en ordenador: Sesiones para todo el grupo de alumnos en las que el profesor realizará ejercicios y problemas sobre los contenidos teóricos de cada tema y guiará a los alumnos en la resolución de otros similares. También, dependiendo de las materias, y mediante la utilización de programas de ordenador adecuados, el profesor realizará prácticas en ordenador para temas específicos y guiará a los alumnos en el planteamiento y realización de nuevas prácticas. Así, tanto en las clases de problemas como en las clases de prácticas en ordenador, se aplicarán los contenidos adquiridos en las teóricas, de modo que los estudiantes vayan obteniendo las competencias previstas. Para las clases de prácticas en ordenador se harán subgrupos de tamaño acorde con las posibilidades de las aulas de informática.
  • Seminarios y trabajos tutelados: Como complemento de las clases teóricas y prácticas, los profesores podrán proponer a los estudiantes la realización de trabajos individuales o en grupos reducidos, para lo que podrán contar con el apoyo del profesor en tutorías. En los seminarios, organizados para todo el grupo de alumnos, se realizarán debates sobre la materia, se discutirán aspectos específicos del temario, y los alumnos desarrollarán ejercicios y trabajos, y podrán compartir con sus compañeros y con el profesor las dudas que encuentren y obtener solución a las mismas.
  • Actividades no presenciales individuales (Estudio y trabajo autónomo). Los estudiantes habrán de llevar a cabo una tarea personal de estudio y asimilación de la teoría y de preparación y resolución de trabajos y problemas propuestos, para alcanzar las competencias previstas.
  • Actividades no presenciales grupales. Además, los estudiantes podrán de llevar a cabo la realización de trabajos en grupo, para lo que podrán contar con el apoyo del profesor en Tutorías académicas, de forma que los estudiantes puedan compartir con sus compañeros y con el profesor las dudas que encuentren, obtener solución a las mismas y comenzar a alcanzar por sí mismos las competencias de la materia.
  • Tutorías académicas. Ofrecerán apoyo y asesoramiento, personalizado o en grupos formados por un pequeño número de alumnos, para abordar las tareas encomendadas en las actividades formativas indicadas previamente o específicas del trabajo personal. El profesor jugará un papel proactivo, orientando hacia un aprendizaje cooperativo, a lo largo de todo el curso.

Las anteriores actividades formativas se desarrollarán desde una metodología participativa y aplicada centrada en el trabajo del estudiante (presencial y no presencial / individual y grupal) según la siguiente distribución aproximada (atendiendo a las indicaciones generales de los módulos del grado):

· Un 40% de docencia presencial en el aula.

· Un 50% de estudio individualizado del alumno, búsqueda, consulta y tratamiento de información, resolución de problemas y casos prácticos, y realización de trabajos y exposiciones.

· Un 10% para tutorías colectivas y evaluación.

Software Libre

Se usarán:

R: A language and environment for statistical computing. R Foundation for Statistical Computing, Vienna, Austria. URL https://www.R-project.org/

RStudio: Integrated Development for R. RStudio, PBC, Boston, MA URL http://www.rstudio.com/.