Guía docente de Tecnologías del Habla (22111AA)

Curso 2024/2025
Fecha de aprobación: 28/06/2024

Grado

Grado en Ingeniería de Tecnologías de Telecomunicación

Rama

Ingeniería y Arquitectura

Módulo

Complementos de Sistemas de Telecomunicación

Materia

Complementos de Sistemas de Telecomunicación

Curso

4

Semestre

1

Créditos

6

Tipo

Optativa

Profesorado

Teórico

María del Carmen Benítez Ortúzar. Grupo: A

Práctico

María del Carmen Benítez Ortúzar Grupo: 1

Tutorías

María del Carmen Benítez Ortúzar

Email
  • Martes de 10:00 a 13:00 (Desp. 2.6 Etsiit)
  • Jueves de 10:00 a 13:00 (Desp. 2.6 Etsiit)

Prerrequisitos y/o Recomendaciones

Los alumnos no tendrán que tener asignaturas, materias o módulos aprobados como requisito indispensable para aprobar el módulo. No obstante se recomienda la superación de los contenidos y adquisición de competencias de las materias de formación básica y las comunes a la rama de telecomunicación.

Breve descripción de contenidos (Según memoria de verificación del Grado)

Análisis de voz. Aproximación estadística: Modelado acústico y del lenguaje, Sistemas de reconocimiento automático del habla. Reconocimiento y verificación de locutores. Sistemas de conversión texto-a-voz.

Competencias

Competencias específicas

  • CE28. Capacidad para entender los aspectos relativos a la tecnología del habla. Capacidad para entender los problemas relacionados con el modelado acústico de la señal de voz, el modelado del lenguaje, los sistemas actuales de reconocimiento automático del habla y de síntesis de voz, así como las técnicas utilizadas para la evaluación de sistemas. Introducir los conceptos básicos de esta disciplina así como sus ventajas, limitaciones y aplicaciones principales.  

Competencias Transversales

  • CT01. Capacidad de análisis y síntesis: Encontrar, analizar, criticar (razonamiento crítico), relacionar, estructurar y sintetizar información proveniente de diversas fuentes, así como integrar ideas y conocimientos.  
  • CT02. Capacidad de organización y planificación así como capacidad de gestión de la Información. 
  • CT03. Capacidad de comunicación oral y escrita en el ámbito académico y profesional con especial énfasis, en la redacción de documentación técnica. 
  • CT04. Capacidad para la resolución de problemas. 
  • CT05. Capacidad para tomar decisiones basadas en criterios objetivos (datos experimentales, científicos o de simulación disponibles) así como capacidad de argumentar y justificar lógicamente dichas decisiones, sabiendo aceptar otros puntos de vista. 
  • CT06. Capacidad para el uso y aplicación de las TIC en el ámbito académico y profesional.  
  • CT07. Capacidad de comunicación en lengua extranjera, particularmente en inglés. 
  • CT08. Capacidad de trabajo en equipo. 
  • CT09. Capacidad para el aprendizaje autónomo así como iniciativa y espíritu emprendedor. 
  • CT10. Motivación por la calidad y la mejora continua, actuando con rigor, responsabilidad y ética profesional.  
  • CT11. Capacidad para adaptarse a las tecnologías y a los futuros entornos actualizando las competencias profesionales.  
  • CT12. Capacidad para innovar y generar nuevas ideas. 
  • CT13. Sensibilidad hacia temas medioambientales. 
  • CT14. Respeto a los derechos fundamentales y de igualdad entre hombres y mujeres. 
  • CT15. Capacidad para proyectar los conocimientos, habilidades y destrezas adquiridos para promover una sociedad basada en los valores de la libertad, la justicia, la igualdad y el pluralismo. 

Resultados de aprendizaje (Objetivos)

Entender los aspectos relativos a las tecnologías del habla. Entender los problemas relacionados con el modelado acústico de la señal de voz, el modelado del lenguaje, los sistemas actuales de reconocimiento automático del habla y de síntesis de voz, así como las técnicas utilizadas para la evaluación de sistemas. Entender las ventajas de los sistemas relacionados con esta disciplina, sus limitaciones y sus principales aplicaciones.

Programa de contenidos teóricos y prácticos

Teórico

1. Introducción a las tecnologías del habla (1h).

  • 1.1. Introducción histórica.
  • 1.2. Las aplicaciones de las tecnologías del habla.
  • 1.3. Importancia de las tecnologías del habla.
  • 1.4. Páginas web de interés.

2. La señal de voz (2h).

  • 2.1. El sonido.
  • 2.2. Producción de voz: aparato fonador.
  • 2.3. Análisis localizado en el tiempo.
  • 2.4. Análisis localizado en frecuencia.
  • 2.5. Caracterización de los sonidos de voz.
  • 2.6. Percepción.

3. Tratamiento digital de la señal de voz (4h).

  • 3.1. Modelo de producción de la voz.
  • 3.2. Análisis de predicción lineal.
  • 3.3. Algoritmos de estimación de la frecuencia fundamental.
  • 3.4. Análisis de la señal de voz basado en banco de filtros.
  • 3.5. Caracterización de la señal mediante parámetros.

4. Introducción a la clasificación de patrones (8h).

  • 4.1. Pre-procesado de los datos
  • 4.2. Tipos de problemas: clasificación, regresión y predicción.
  • 4.3. Técnicas paramétricas de clasificación: distancia mínima.
  • 4.4. Técnicas no paramétricas de clasificación: KNN.
  • 4.5. Regresión.
  • 4.6. Agrupamiento o clustering.
  • 4.7. Clasificadores bayesianos.
  • 4.8. Redes Neuronales, el perceptrón multicapa.

5. Conversión de texto a voz (TTS) (4h).

  • 5.1. Introducción al problema de TTS.
  • 5.2. Procesamiento del texto.
  • 5.3. Modelado prosódico.
  • 5.4. Generación de voz: síntesis paramétrica.
  • 5.5. Generación de voz: síntesis basada en corpus.

6. Reconocimiento automático del habla (RAH) (6h).

  • 6.1. Introducción al problema de RAH.
  • 6.2. Evaluación de los sistemas de RAH.
  • 6.3. Reconocimiento de voz basado en comparación de patrones.
  • 6.4. Sistemas de RAH basados en modelado estadístico.
  • 6.5. Sistema de reconocimiento de palabras aisladas.
  • 6.6. Sistema de reconocimiento de voz continua.
  • 6.7. Sistemas de diálogo.

7. Otras tecnologías del habla (2h).

  • 7.1. Biometría basada de voz.
  • 7.2. Aplicación de las tecnologías del habla en trastornos de la voz.

Práctico

  1. Grabación y análisis de señales de voz (2h)
  2. Análisis de Predicción Lineal. (2h)
  3. Estimación del Pitch. (2h)
  4. Cálculo de los coeficientes MFCC. (2h)
  5. Implementación de un algorítmo de síntesis de voz. (4h)
  6. Implementación de un algoritmo de reconocimiento de palabras aisladas. (4h)
  7. Realización y presentación de un trabajo.

Bibliografía

Bibliografía fundamental

  • “Introduction to DigitalSpeech Processing”. L. Rabiner, R. Shafer. Foundations and Trends on Signal Processing. 2
  • "Spoken language processing" de X. Huang, A. Acero y H. Hon, Prentice-Hall 2.
  • "Speech Communications: Human and Machine", de D. O'Shaughnessy, IEEE Press 2002.

Bibliografía complementaria

  • Speech and Language Processing.
  • STATISTICAL PATTERN RECOGNITION, Andrew R. WebbKeith D. Copsey, WILEY, 2011
  • Jurafsky, D., & Martin, J. H. (2020). Speech and Language Processing: An Introduction to Natural Language Processing, Computational Linguistics, and Speech Recognition. Cambridge University Press.
  • Huang, X., Acero, A., & Hon, H. (2001). Spoken language processing: A guide to theory, algorithm, and system development. Prentice Hall PTR.
  • Young, S., Hain, T., & Woodland, P. (2019). Speech recognition and synthesis. Springer.
  • Lee, K.-F., & Hon, H.-W. (2015). Speaker recognition: Fundamentals and features. Springer.
  • Rabiner, L. R., & Juang, B. H. (1993). Fundamentals of speech recognition. Prentice Hall PTR.
  • Hinton, G., Deng, L., Yu, D., Dahl, G. E., Mohamed, A. R., Jaitly, N., ... & Kingsbury, B. (2012). Deep neural networks for acoustic modeling in speech recognition: The shared views of four research groups. IEEE Signal Processing Magazine, 29(6), 82-97.
  • Renals, S. (2020). Neural network methods for speech and language processing. Cambridge University Press
  • Zeiler, M. D., & Fergus, R. (2014). Visualizing and understanding convolutional networks. In European conference on computer vision (pp. 818-833). Springer.
  • Hasegawa-Johnson, M., He, L., Liu, R., & Verhelst, W. (2019). Speech analysis for voice biometrics: Fundamentals and challenges. IEEE Signal Processing Magazine, 36(3),

Enlaces recomendados

Metodología docente

  • MD01. Lección magistral 
  • MD02. Actividades prácticas 
  • MD03. Seminarios 
  • MD04. Actividades no presenciales 
  • MD05. Tutorías académicas 

Evaluación (instrumentos de evaluación, criterios de evaluación y porcentaje sobre la calificación final)

Evaluación ordinaria

Con objeto de evaluar la adquisición de los contenidos y competencias a desarrollar en la materia, se utilizará un sistema de evaluación diversificado, seleccionando las técnicas de evaluación más adecuadas para las asignaturas en cada momento, que permitan poner de manifiesto los diferentes conocimientos y capacidades adquiridos por el estudiantado al cursar cada asignatura. De entre las siguientes técnicas evaluativas se utilizarán alguna de las siguientes:

  • 30% Realización y presentación oral y escrita de trabajos .
  • 30% Prácticas (asistencia, presentación y entregas en las fechas determinadas).
  • 40% Examen teórico-práctico.

El sistema de calificaciones se expresará mediante calificación numérica de acuerdo con lo establecido en el art. 5 del R. D 1125/2003, de 5 de septiembre, por el que se establece el sistema europeo de créditos y el sistema de calificaciones en las titulaciones universitarias de carácter oficial y validez en el territorio nacional.

Se necesita una calificación mínima de 4 sobre 10 en las actividades (examen, trabajo y prácticas) para poder optar a superar la asignatura. La calificación total se obtendrá sumando las calificaciones parciales (pesadas según se ha indicado anteriormente) de cada actividad; la suma debe superar los 5 puntos sobre 10 para superar la asignatura.

Los exámenes, pruebas parciales, presentaciones orales y entrevistas personales se realizarán de forma presencial en las aulas asignadas por el centro o en las establecidas en la convocatoria emitida por el profesorado de la asignatura.

Para cualquier actividad que requiera de la entrega de un trabajo, memorias de prácticas, etc, se realizarán a través de PRADO.

Régimen de asistencia

La asistencia a todas las actividades es obligatoria. La no asistencia a una sesión de Prácticas o de Ejercicios equivale la no presentación de la práctica o ejercicios correspondientes.

Para los estudiantes que se acojan a la evaluación única final, esta modalidad de evaluación estará formada por todas aquellas pruebas que el profesor estime oportunas, de forma que se pueda acreditar que el estudiante ha adquirido la totalidad de las competencias generales y específicas descritas en el apartado correspondiente de esta Guía Docente.

Todo lo relativo a la evaluación se regirá por la Normativa de evaluación y calificación de los estudiantes vigente en la Universidad de Granada.

Evaluación extraordinaria

La evaluación extraordinaria constará de un único examen teórico-práctico.

Evaluación única final

La evaluación única final constará de dos partes:

  1. Examen teórico-práctico (60%)
  2. Realización y presentación oral y escrita de un trabajo (40%).

Se necesita una calificación mínima de 4 sobre 10 en el examen teórico práctico para poder superar la asignatura.

Información adicional

Las actividades formativas propuestas se desarrollarán desde una metodología participativa y aplicada que se centra en el trabajo del estudiante (presencial y no presencial/individual y grupal). Las clases teóricas, los seminarios, las clases prácticas, las tutorías, el estudio y trabajo autónomo y el grupal son las maneras de organizar los procesos de enseñanza y aprendizaje de esta asignatura, tal y como se detalla en el documento de verificación de este grado.

Las actividades de prácticas y seminarios se realizarán en grupos de un máximo de 25 personas con el fin de que sean interactivas. Los seminarios se orientarán como una actividad complementaria de la teoría en la que haya más interacción con el alumno.

La metodología docente se desarrolla en base a una serie de actividades a través de las cuales se orientará alumno en el proceso de adquisición de competencias y habilidades de la asignatura. Estas actividades estarán necesariamente complementadas con el estudio y trabajo autónomo del alumno.

  1. Clases teórico-expositivas. Correspondientes a la presentación en el aula de los conceptos fundamentales y desarrollo de los contenidos propuestos para la asignatura.
  2. Clases prácticas a través de las cuales se pretende mostrar al estudiantado la aplicación de los conocimientos teóricos adquiridos y para desarrollar en el estudiantado de las habilidades instrumentales relacionadas con la materia.
  3. Actividades de trabajo grupal y expositivas que tienen como objetivo incidir en el trabajo colaborativo entre el estudiantado así como mejorar las capacidades de síntesis y expresión oral del estudiantado.
  4. Actividades evaluativas (informes, exámenes, …)
  5. Estudio individualizado de los contenidos de la materia.
  6. Tutorías académicas. Basadas en la interacción directa entre el estudiante y el profesor orientan el trabajo autónomo y grupal del estudiantado para profundizar en distintos aspectos de la materia y orientar la formación académica-integral del estudiante.
  7. Foros de debate. Esta actividad se implementará de forma virtual e individual para los alumnos. Se utilizarán para la resolución de dudas específicas de los alumnos tanto sobre los aspectos teóricos como prácticos de la asignatura. El objetivo es que los alumnos puedan compartir experiencias y soluciones a dudas y dificultades encontradas tanto en la parte teórica como práctica de la asignatura. Utilizando este recurso, el profesor puede identificar y resolver dudas y problemas planteados por los alumnos, constituyendo una valiosa herramienta para el desarrollo de las tutorías académicas tanto individuales como grupales.

Información de interés para estudiantado con discapacidad y/o Necesidades Específicas de Apoyo Educativo (NEAE): Gestión de servicios y apoyos (https://ve.ugr.es/servicios/atencion-social/estudiantes-con-discapacidad).