Nicolás Martorell es investigador postdoctoral en inteligencia artificial e interpretabilidad, con formación previa en neurociencias y aprendizaje profundo.

Su trabajo parte de una pregunta que forma un puente entre sus distintos saberes: cómo funcionan los sistemas pensantes, desde los biológicos hasta los artificiales, no solo vistos desde afuera sino analizados desde adentro.

Actualmente se concentra en el estudio de modelos de lenguaje, en particular en el desarrollo de métodos para analizar sus representaciones internas. Le interesan especialmente la interpretabilidad mecanicista, el uso de probes lineales y técnicas de steering para estudiar conceptos internos, y pone énfasis en hacer investigación con el objetivo de reducir riesgos catastróficos por IA superinteligente, y en encontrar las similitudes y diferencias entre la cognición de los LLMs y la de los humanos.

Su investigación busca construir herramientas que permitan entender mejor cómo “piensan” los sistemas artificiales actuales y cómo ese entendimiento puede contribuir al desarrollo de IA más transparente, robusta y segura.

Link a Google Scholar: https://scholar.google.com/citations?hl=en&user=-L6GLYgAAAAJ