Área de Investigación

Procesamiento de habla y audio

El objetivo central de esta área de investigación es analizar, modelar y comprender el habla humana mediante técnicas de inteligencia artificial y aprendizaje automático, integrando herramientas del procesamiento de señales, el aprendizaje profundo, la lingüística computacional y las ciencias cognitivas. A partir de este enfoque interdisciplinario, se desarrollan modelos y sistemas capaces de interpretar información acústica y lingüística compleja, con aplicaciones en salud, educación e interacción humano-computadora.

Sus principales áreas de investigación incluyen:

  • Identificación de deterioro cognitivo leve (MCI)
    Esta línea de investigación busca identificar marcadores automáticos del habla en hablantes de español que permitan detectar señales tempranas de deterioro cognitivo leve. Para ello, se integran características acústicas y lingüísticas con evaluaciones neuropsicológicas y datos neurocientíficos, utilizando modelos de aprendizaje automático. El objetivo es evaluar la sensibilidad y robustez de estos marcadores y aportar herramientas de apoyo a la detección temprana en contextos clínicos y de investigación.
  • Confianza y trabajo en equipo en interacciones humano-computadora
    En esta área se estudia cómo las características de los asistentes virtuales influyen en la percepción del usuario, su forma de hablar y el desempeño en tareas compartidas. A partir de experimentos controlados, se analiza si es posible inferir el nivel de confianza del usuario en el asistente y la calidad del trabajo en equipo mediante el análisis del habla, con el fin de diseñar sistemas conversacionales más efectivos, adaptativos y confiables.
  • Aprendizaje de representaciones para voz y audio
    El grupo investiga métodos de aprendizaje profundo, especialmente enfoques auto-supervisados, para aprender representaciones robustas de señales de habla y audio. Estas representaciones permiten un entrenamiento más eficiente en tareas como reconocimiento automático del habla, reconocimiento de emociones, detección de eventos acústicos y clasificación musical. Asimismo, se analizan las propiedades internas de estas representaciones para comprender qué tipo de información lingüística y paralingüística capturan.
  • Patologías de la voz
    Esta línea se enfoca en el desarrollo de sistemas de inteligencia artificial para la identificación automática de patologías vocales, con el objetivo de asistir a profesionales de la salud en el diagnóstico y seguimiento de pacientes. Además, se investigan sistemas de reconocimiento automático del habla adaptados a personas con dificultades de comunicación y herramientas para el monitoreo del progreso terapéutico y la generación de ejercicios personalizados de rehabilitación.
  • Coordinación en el diálogo
    El tema estudia los mecanismos de coordinación que emergen durante la conversación humana, tanto en el plano temporal como en dimensiones prosódicas y lingüísticas. Comprender estos fenómenos permite modelar la sincronización entre interlocutores e incorporar este conocimiento en sistemas de diálogo hablado, con el fin de mejorar su naturalidad, fluidez y capacidad de interacción.
  • Extracción de metadatos a partir del habla
    En esta área se desarrollan métodos para extraer información adicional del habla, como la identidad del hablante, la emoción, la edad, el idioma o el canal de transmisión. Estos sistemas tienen aplicaciones en el análisis de grandes volúmenes de datos, la mejora de interfaces conversacionales, la personalización de servicios y el control automático de acceso a sistemas.
  • Aprendizaje de lenguas asistido por computadora
    El grupo investiga sistemas que evalúan automáticamente la calidad de la pronunciación en una segunda lengua, generando puntuaciones fonéticas y prosódicas a nivel de frase, palabra, sílaba o fonema. Estas métricas pueden integrarse en plataformas educativas para complementar los procesos de enseñanza y aprendizaje de idiomas mediante retroalimentación objetiva y personalizada