Guía docente de Minería de Datos (22311C2)

Curso 2024/2025
Fecha de aprobación:
Departamento de Ciencias de la Computación e Inteligencia Artificial: 27/06/2024
Departamento de Estadística e Investigación Operativa: 25/06/2024

Grado

Grado en Estadística

Rama

Ciencias

Módulo

Análisis Exploratorio y Minería de Datos

Materia

Análisis Exploratorio y Minería de Datos

Year of study

4

Semestre

2

ECTS Credits

6

Tipo

Optativa

Profesorado

Teórico

María del Carmen Pegalajar Jiménez. Grupo: A

Práctico

María Dolores Ruiz Jiménez Grupo: 1

Tutorías

María del Carmen Pegalajar Jiménez

Email
  • Primer semestre
    • Martes de 10:00 a 13:00 (D23 (Etsiit))
    • Jueves de 10:00 a 13:00 (D23 (Etsiit))
  • Segundo semestre
    • Martes de 10:00 a 12:00 (D23 (Etsiit))
    • Miércoles de 12:00 a 14:00 (D23 (Etsiit))
    • Viernes de 12:00 a 14:00 (D23 (Etsiit))

María Dolores Ruiz Jiménez

Email
  • Primer semestre
    • Lunes de 10:00 a 13:00 (Fo11 (Etsiit))
    • Martes de 10:00 a 13:00 (Fo11 (Etsiit))
  • Segundo semestre
    • Lunes de 10:00 a 13:00 (Fo11 (Etsiit))
    • Martes de 10:00 a 13:00 (Fo11 (Etsiit))

Prerrequisitos y/o Recomendaciones

Aunque no es necesario que los alumnos tengan aprobadas asignaturas, materias o módulos previos como requisito indispensable para cursar este módulo, se recomienda la realización previa de los módulos Estadística y Estadística Computacional, así como la asignatura Análisis Exploratorio de Datos.

Breve descripción de contenidos (Según memoria de verificación del Máster)

  • Minería de datos. Conceptos básicos.
  • Técnicas de Minería de Datos para problemas de agrupamiento.
  • Técnicas de Minería de Datos para problemas de clasificación.
  • Técnicas de Minería de Datos para problemas de asociación.
  • Herramientas software para Minería de Datos.

Competencias

Competencias Generales

  • CG01. CG01. Poseer los conocimientos básicos de los distintos módulos que, partiendo de la base de la educación secundaria general, y apoyándose en libros de texto avanzados, se desarrollan en la propuesta de título de Grado en Estadística que se presenta. 
  • CG02. CG02. Saber aplicar los conocimientos básicos de cada módulo a su trabajo o vocación de una forma profesional y poseer las competencias que suelen demostrarse por medio de la elaboración y defensa de argumentos y la resolución de problemas dentro de la Estadística y ámbitos en que esta se aplica directamente.  
  • CG03. CG03. Saber reunir e interpretar datos relevantes para emitir juicios que incluyan una reflexión sobre temas relevantes de índole social, científica o ética.  
  • CG04. CG04. Poder transmitir información, ideas, problemas y sus soluciones, de forma escrita u oral, a un público tanto especializado como no especializado.  
  • CG05. CG05. Haber desarrollado aquellas habilidades de aprendizaje necesarias para emprender estudios posteriores con un alto grado de autonomía.  
  • CG06. CG06. Saber utilizar herramientas de búsqueda de recursos bibliográficos.  
  • CG08. CG08. Poseer habilidades y aptitudes que favorezcan el espíritu emprendedor en el ámbito de aplicación y desarrollo de su formación académica. 

Competencias Específicas

  • CE01. CE01. Conocer los fundamentos básicos del razonamiento estadístico, en el diseño de estudios, en la recogida de información, en el análisis de datos y en la extracción de conclusiones. 
  • CE02. CE02. Conocer, saber seleccionar y saber aplicar, técnicas de adquisición de datos para su tratamiento estadístico. 
  • CE03. CE03. Conocer los fundamentos teóricos y saber aplicar modelos y técnicas estadísticas en estudios y problemas reales en diversos ámbitos científicos y sociales. 
  • CE04. CE04. Saber seleccionar los modelos o técnicas estadísticas para su aplicación en estudios y problemas reales en diversos ámbitos científicos y sociales, así como conocer herramientas de validación de los mismos. 
  • CE06. CE06. Comprender y utilizar básicamente el lenguaje matemático. 
  • CE08. CE08. Conocer y saber utilizar aplicaciones informáticas de análisis estadístico, cálculo numérico y simbólico, bases de datos, visualización gráfica y optimización, que sean útiles para la aplicación y desarrollo de las técnicas estadísticas. 
  • CE09. CE09. Conocer los conceptos básicos y habilidades propias de un ámbito científico o social en el que la Estadística o la Investigación operativa sean una herramienta fundamental. 

Resultados de aprendizaje (Objetivos)

  • Comprender la necesidad de una exploración previa de los datos, su preparación y adecuación, así como conocer las técnicas de filtrado y transformación.
  • Comprender el concepto de la minería de datos (MD), su relación con otras áreas de los campos de la Estadística y de la Informática, y su papel en los procesos de extracción de conocimiento y ayuda a la toma de decisiones.
  • Conocer los problemas que pueden ser resueltos mediante MD, qué técnicas son aplicables en cada caso y cuáles son sus limitaciones.
  • Conocer las técnicas más habituales en MD, correspondientes a agrupamientos, clasificación asociación y predicción.
  • Ser capaz de utilizar adecuadamente las herramientas software para MD.

Programa de contenidos Teóricos y Prácticos

Teórico

Tema 1: Perspectiva Estadística de la Minería de Datos.

  • La minería de datos como técnica estadística de exploración y validación para grandes conjuntos de datos.
  • Técnicas estadísticas de preprocesamiento de datos: imputación de datos faltantes e ingeniería de variables.
  • Aplicación de preprocesamiento para Minería de Datos con R.

Tema 2: Minería de Datos mediante técnicas estadísticas de agrupamiento.

  • Introducción al problema de agrupamiento.
  • Agrupamiento mediante métodos basados en centroides.
  • Agrupamiento mediante métodos basados en densidad.
  • Aplicaciones de Minería de Datos mediante técnicas de agrupamiento con R.

Tema 3. Minería de datos mediante técnicas estadísticas de clasificación.

  • Introducción al problema de clasificación.
  • Principales modelos de clasificación.
  • Evaluación de modelos de clasificación.
  • Aplicaciones de minería de datos mediante técnicas de clasificación con R.

Tema 4: Perspectiva informática de la Minería de Datos. Modelos de asociación.

  • La Minería de Datos y su relación con la Informática - Selección y transformación de datos.
  • Concepto de patrón frecuente y regla de asociación o tendencia
  • Métodos para la obtención de reglas de asociación
  • Medidas de interés para la evaluación del modelo.

Tema 5: Modelos de Agrupamiento o Segmentación.

  • Modelos de agrupamiento con un número fijo de grupos.
  • Agrupamiento jerárquico.
  • Evaluación de modelos

Tema 6: Modelos Predictivos.

  • Regresión.
  • Modelos de Clasificación: Basados en instancias (lazy), Bayesianos, Basados en árboles de decisión.
  • Evaluación del clasificador.
  • Clasificación con costes

Práctico

Práctica 1: Aplicación de técnicas estadísticas de la Minería de Datos.

  • Metodología del análisis estadístico computacional para la Minería de Datos con R.
  • Preprocesamiento Estadístico con R.

Práctica 2: Aplicación de las técnicas estadísticas de Agrupamiento.

  • Aplicaciones del análisis de agrupamiento con R.

Práctica 3: Aplicación de las técnicas estadísticas de Clasificación.

  • Aplicación de los principales modelos de clasificación con R.

Práctica 4: Herramientas para la Minería de Datos. Modelos de asociación con Python

  • Técnicas y Herramientas para selección de datos
  • Técnicas y Herramientas para transformación de datos.
  • Detección de patrones frecuentes y tendencias
  • Filtrado de reglas y aplicación de medidas de interés

Práctica 5. Creación de modelos de agrupamiento y segmentación con Python

  • Con valores de k (número de grupos) fijados de antemano
  • Con conjuntos de datos artificiales creados por el alumno conteniendo datos esféricos, no esféricos y con/sin outliers
  • Sin fijar un valor de k, sino obteniéndolo a través de un diagrama SSE

Práctica 6. Creación de modelos de predicción con Python

  • Con variables numéricas (regresión)
  • Con variables dependientes nominales (clasificación)
  • Ajuste del modelo, usando métodos como validación cruzada

Bibliografía

Bibliografía fundamental

  1. An Introduction to Statistical Learning with Applications in R. Gareth James, Daniela Witten, Trevor Hastie, Robert Tibshirani. Springer, 2nd ed. 2021.
  2. The Elements of Statistical Learning: Data Mining, Inference, and Prediction. Trevor Hastie, Robert Tibshirani, Jerome Friedman. Springer; 2nd ed. 2009.
  3. Python Data Science Handbook: Essential Tools for Working with Data 2nd Edición. Jake Vanderplass. Editorial: O'Reilly 2023
  4. Introduction to Data Mining. Pang-Ning Tan, Michael Steinbach, Vipin Kumar. Addison Wesley, 2nd ed. 2019.
  5. Handbook of Computational Statistics. Concepts and Methods. Gentle, J.E., Härdle, W., Mori, Y Editors. Springer, 2nd ed. 2012.
  6. Applied Data Mining: Statistical Methods for Business and Industry. P. Guidici, S. Figini. Wiley, 2nd ed. 2009
  7. Introducción a la Minería de Datos. José Hernández Orallo, M.José Ramírez Quintana, Cèsar Ferri Ramírez. Pearson, 2004.

Bibliografía complementaria

  1. Handbook of Statistical Analysis and Data Mining Applications. Robert Nisbet, John Elder IV, Gary Miner. Academic Press; 2009.
  2. Data Mining: Practical Machine Learning Tools and Techniques. Ian H. Witten, Eibe Frank. Morgan Kaufmann, 2005
  3. Data Mining, Second Edition: Concepts and Techniques. Jiawei Han, Micheline Kamber, Jian Pei. Morgan Kaufmann, 2006

Enlaces recomendados

  • http://elvex.ugr.es/idbis/dm/ (Página web del grupo de investigación IDBIS del departamento de Ciencias de la Computación e Inteligencia Artificial, con material docente y de investigación sobre Minería de Datos)
  • http://www.kdnuggets.com/ (Principal página en la Web sobre todo tipo de recursos relacionados con la Minería de Datos)
  • http://www.r-project.org/ (Página principal de la plataforma R)

Metodología docente

  • MD01. MD1. Lección magistral/expositiva 
  • MD02. MD2. Sesiones de discusión y debate 
  • MD03. MD3. Resolución de problemas y estudio de casos prácticos 
  • MD04. MD4. Prácticas en sala de informática 
  • MD05. MD5. Seminarios 
  • MD06. MD6. Ejercicios de simulación 
  • MD07. MD7. Análisis de fuentes y documentos 
  • MD08. MD8. Realización de trabajos en grupo 
  • MD09. MD9. Realización de trabajos individuales 

Evaluación (instrumentos de evaluación, criterios de evaluación y porcentaje sobre la calificación final)

Evaluación Ordinaria

La evaluación se realizará mediante tres calificaciones obtenidas a partir de:

  • Pruebas específicas de conocimientos y resolución de ejercicios, orales y escritas, donde se valorarán tanto la asimilación como la expresión de los conocimientos adquiridos por el alumno, especialmente, su capacidad para la aplicación de los mismos a situaciones prácticas concretas y se realizará una observación sistemática del proceso de aprendizaje. Aportará el 45% de la calificación
  • Trabajos y seminarios. Abarca todos los trabajos y seminarios realizados por los estudiantes a lo largo del curso (ejercicios, prácticas en ordenador, resúmenes, cuadernos de trabajo, presentaciones, entrevistas, cuestionarios, etc.), tanto de carácter individual como en grupo. Se valorará además de los propios trabajos, la presentación y defensa de los mismos, y los debates suscitados en los seminarios, para obtener información sobre aspectos actitudinales, de integración y actuación social. Aportará el 50% de la calificación.
  • Participación, actitud y esfuerzo personal de los alumnos en todas las actividades formativas programadas, así como una autoevaluación razonada. Aportará el 5% de la calificación.

Evaluación Extraordinaria

La evaluación extraordinaria establecida en la Normativa de evaluación y de calificación de los estudiantes de la Universidad de Granada consistirá en un examen escrito en el que se incluirán preguntas teóricas y prácticas sobre el temario que figura en esta guía docente. Siendo el 50% de ponderación para cada una de ellas

Evaluación única final

La evaluación única final establecida en la Normativa de evaluación y de calificación de los estudiantes de la Universidad de Granada consistirá en un examen escrito en el que se incluirán preguntas teóricas y prácticas sobre el temario que figura en esta guía docente. Siendo el 50%de ponderación para cada una de ellas.

Software Libre

R. RStudio. Orange Data Mining.