🎯 Avanzado · Lección 1

La IA comete errores

Los sistemas de inteligencia artificial fallan de maneras que los ingenieros no siempre anticipan — con consecuencias reales para personas reales.

En 2019, el sistema de detección de imágenes médicas desarrollado por Google DeepMind para identificar enfermedades oculares — específicamente retinopatía diabética — fue presentado como uno de los mayores avances de la IA en medicina. Sin embargo, cuando se desplegó en clínicas reales de Tailandia, el sistema rechazó entre el 20% y el 35% de las imágenes por baja calidad, imágenes que médicos humanos podían leer perfectamente. En entornos con recursos limitados, ese rechazo equivalía simplemente a no diagnosticar al paciente. El sistema entrenado en condiciones de laboratorio perfectas no generalizó al mundo real.

Por qué los errores de IA son distintos

Los errores humanos suelen ser aleatorios: un médico cansado comete errores distintos a otro médico cansado. Los errores de la IA son sistemáticos: el mismo sistema fallará de la misma manera en miles o millones de casos simultáneamente. Esto multiplica el daño potencial a una escala que los errores humanos individuales nunca alcanzan.

Los errores de IA se pueden clasificar según su causa. Los errores de datos ocurren cuando el conjunto de entrenamiento no representa el mundo real: el modelo de DeepMind fue entrenado con imágenes de alta resolución tomadas en condiciones ideales. Los errores de distribución ocurren cuando el sistema se enfrenta a situaciones que difieren de lo que vio durante el entrenamiento — llamado "distributional shift". Los errores de especificación ocurren cuando el objetivo que se le da al modelo no captura exactamente lo que los humanos queremos.

Concepto clave

La diferencia entre el entorno donde se entrena un modelo y el entorno donde se despliega se llama brecha de distribución. Es una de las causas más frecuentes de fallos en producción.

En 2020, el sistema de IA utilizado por el gobierno del Reino Unido para calcular las notas de exámenes universitarios durante la pandemia de COVID-19 (cuando los exámenes físicos fueron cancelados) penalizó sistemáticamente a estudiantes de centros educativos de barrios desfavorecidos, porque el modelo usaba el historial histórico del colegio como predictor — perpetuando desigualdades estructurales. Ante la presión pública masiva, el gobierno revirtió los resultados en 48 horas.

Tipos de error: falsos positivos y falsos negativos

En clasificación, hay dos tipos fundamentales de error. Un falso positivo ocurre cuando el sistema predice que algo es verdad cuando no lo es (decir que hay cáncer cuando no lo hay). Un falso negativo ocurre cuando el sistema predice que algo no es verdad cuando sí lo es (no detectar un cáncer real). El contexto determina cuál tipo de error es más costoso.

En detección de fraude bancario, un falso negativo (dejar pasar fraude) es más grave que un falso positivo (bloquear una transacción legítima)
En detección de spam, un falso positivo (bloquear un correo legítimo) puede ser tan grave como un falso negativo
En diagnóstico de enfermedades graves, el costo de cada tipo de error depende del coste del tratamiento y de no tratarse

Los diseñadores de sistemas de IA deben decidir conscientemente cómo equilibrar estos dos tipos de error. Esta decisión no es técnica: es ética y política.

📝 Quiz · Lección 1

La IA comete errores

Comprueba lo que has aprendido sobre los tipos de error en IA.

1. ¿Qué falló en el sistema de IA de DeepMind cuando se desplegó en Tailandia?

✓ Correcto. El modelo fue entrenado en condiciones ideales de laboratorio y no generalizó bien a la variabilidad del mundo real — un ejemplo clásico de brecha de distribución.

✗ Incorrecto. El problema fue que el modelo fue entrenado en imágenes perfectas y luego falló al procesar imágenes de menor calidad tomadas en clínicas reales.

2. ¿Cuál es la principal diferencia entre los errores humanos y los errores de los sistemas de IA?

✓ Exacto. El carácter sistemático de los errores de IA es lo que los hace especialmente peligrosos a escala.

✗ No es correcto. La clave es la escala y la sistematicidad: un error de IA puede replicarse en millones de decisiones simultáneas.

3. En el caso del sistema de calificaciones del Reino Unido en 2020, ¿qué variable usó el modelo que provocó resultados injustos?

✓ Correcto. Usar el historial del colegio como predictor reprodujo desigualdades estructurales existentes, perjudicando a estudiantes de centros con peor historial académico por razones socioeconómicas.

✗ No es correcto. El sistema usó el historial histórico del colegio como variable predictora, lo que perpetuó las desventajas de los centros educativos de zonas desfavorecidas.

🧪 Lab · Lección 1

Laboratorio: Tipos de error

Conversa con la IA sobre cómo clasificar y analizar los tipos de error en sistemas reales.

Objetivo del laboratorio

En este laboratorio analizarás casos reales de errores de IA junto con un tutor. La IA te hará preguntas sobre cómo clasificar los errores y qué consecuencias tienen.

Sugerencia: "¿Cómo diferenciarías un error de distribución de un error de especificación en el caso de DeepMind en Tailandia?"

🤖 Tutor IA — Errores en sistemas reales Módulo 3 · Lab 1

🎯 Avanzado · Lección 2

Cuando la IA no sabe

Las alucinaciones, la incertidumbre y los límites del conocimiento de los modelos de lenguaje.

En junio de 2023, el abogado neoyorquino Steven Schwartz presentó ante un tribunal federal un escrito que citaba seis sentencias judiciales precedentes. El juez ordenó verificar las citas. Ninguna de las seis sentencias existía: todas habían sido inventadas por ChatGPT, incluyendo los nombres de los jueces, las partes del proceso y los argumentos legales. Schwartz admitió haber usado la herramienta sin verificar los resultados. Fue sancionado con 5.000 dólares y el caso se convirtió en referencia mundial sobre los riesgos de las alucinaciones de IA en contextos legales.

¿Qué es una alucinación de IA?

Los modelos de lenguaje grandes (LLMs) generan texto prediciendo la siguiente palabra más probable en una secuencia, basándose en patrones estadísticos aprendidos durante el entrenamiento. Esta arquitectura tiene una consecuencia fundamental: el modelo no "sabe" si lo que dice es verdad. No consulta una base de datos de hechos verificados. Genera texto que suena plausible dado el contexto.

Cuando un modelo produce información que parece factual pero es incorrecta o completamente inventada, se llama alucinación. El término es algo engañoso: el modelo no está "confundido" ni tiene una experiencia subjetiva de confusión. Simplemente produce la secuencia de tokens estadísticamente más probable, incluso cuando esa secuencia describe algo que no existe.

Por qué es especialmente peligroso

Las alucinaciones de IA no vienen marcadas con una advertencia. El modelo presenta información inventada con el mismo tono de confianza que información correcta. Esto hace que sean difíciles de detectar sin verificación independiente.

Límites del conocimiento: fechas de corte y dominios

Los modelos de lenguaje tienen una fecha de corte (knowledge cutoff): solo conocen información que existía en sus datos de entrenamiento hasta una fecha determinada. Eventos posteriores a esa fecha son desconocidos para el modelo. Sin embargo, el modelo rara vez admite espontáneamente este límite: puede generar respuestas sobre eventos futuros a su fecha de corte como si fueran hechos conocidos.

Además del límite temporal, existen límites de dominio. Los modelos están menos informados en dominios con menor representación en internet, en idiomas distintos al inglés, o en campos altamente especializados con terminología técnica poco frecuente. Un modelo puede parecer competente en un área mientras comete errores graves en otra adyacente.

Los modelos generan respuestas aunque no tengan conocimiento real sobre el tema
La confianza expresada por el modelo no correlaciona con su precisión factual
Pedir al modelo que cite fuentes puede producir más alucinaciones, no menos
La verificación humana independiente es la única salvaguarda fiable

📝 Quiz · Lección 2

Cuando la IA no sabe

Evalúa tu comprensión sobre alucinaciones y límites del conocimiento en IA.

1. ¿Por qué las alucinaciones de los modelos de lenguaje son particularmente peligrosas?

✓ Correcto. La ausencia de marcadores de incertidumbre hace que las alucinaciones sean indistinguibles de hechos reales sin verificación externa.

✗ No es correcto. El peligro principal es que el modelo no distingue entre información correcta e inventada en su presentación — todo suena igual de seguro.

2. ¿Qué ocurrió en el caso del abogado Steven Schwartz en 2023?

✓ Exacto. Este caso se volvió referencia mundial sobre los riesgos de usar LLMs para investigación legal sin verificación independiente.

✗ Incorrecto. Schwartz presentó seis sentencias judiciales que ChatGPT había fabricado por completo, incluyendo nombres de jueces y argumentos legales.

3. ¿Qué significa que un modelo de lenguaje tenga una "fecha de corte"?

✓ Correcto. Los modelos no tienen acceso en tiempo real a nueva información a menos que se les proporcione herramientas específicas de búsqueda.

✗ No es correcto. La fecha de corte se refiere al límite temporal del conocimiento del modelo: no sabe nada de lo que ocurrió después de que terminó su entrenamiento.

🧪 Lab · Lección 2

Laboratorio: Detectar alucinaciones

Practica identificar cuándo una IA puede estar inventando información y cómo verificarla.

Objetivo del laboratorio

En este laboratorio explorarás las estrategias para detectar y gestionar alucinaciones en modelos de lenguaje. El tutor te guiará con preguntas sobre situaciones concretas.

Sugerencia: "Si un modelo de IA me cita una fuente académica, ¿cómo puedo saber si es real o inventada?"

🤖 Tutor IA — Alucinaciones y verificación Módulo 3 · Lab 2

🎯 Avanzado · Lección 3

¿De quién es la culpa?

Responsabilidad, rendición de cuentas y la cadena de decisiones detrás de los fallos de IA.

En marzo de 2018, el vehículo autónomo de Uber atropelló y mató a Elaine Herzberg en Tempe, Arizona, mientras ella cruzaba una calle con su bicicleta. La investigación reveló múltiples fallos: el sistema de IA detectó a Herzberg pero clasificó la señal como "objeto desconocido", luego como "bicicleta", luego como "peatón", cambiando de clasificación sin llegar a activar frenado de emergencia. El sistema tenía frenado de emergencia autónomo desactivado deliberadamente para evitar "comportamientos erráticos". La operadora humana en el vehículo miraba su teléfono. Uber, la operadora, y el diseño regulatorio compartieron responsabilidad — pero ninguna parte asumió responsabilidad penal completa.

La brecha de responsabilidad en IA

Cuando un médico comete un error, existe un marco legal y ético claro para determinar responsabilidad. Cuando un sistema de IA comete un error, la cadena de responsabilidad se fragmenta entre el equipo que diseñó el algoritmo, los ingenieros que eligieron los datos de entrenamiento, los ejecutivos que decidieron el umbral de seguridad, la empresa que operó el sistema, y el usuario que confió en él sin verificar.

Esta fragmentación es un problema estructural que los reguladores de todo el mundo intentan resolver. La Unión Europea, con su Reglamento de IA (AI Act, aprobado en 2024), establece por primera vez un marco legal que clasifica los sistemas de IA por nivel de riesgo y asigna responsabilidades a sus desarrolladores y operadores. Sin embargo, los casos concretos siguen siendo jurídicamente complejos.

El problema de muchas manos

El filósofo de tecnología Dennis Thompson denominó "the problem of many hands" (el problema de muchas manos) a situaciones donde el daño es causado por múltiples actores y ninguno puede ser considerado individualmente responsable. Los sistemas de IA desplegados en organizaciones complejas son el ejemplo contemporáneo más claro de este problema.

Responsabilidad distribuida: diseñadores, operadores y usuarios

El caso de Uber ilustra tres capas de responsabilidad que coexisten en cualquier sistema de IA desplegado:

Responsabilidad del diseñador: el equipo técnico que toma decisiones sobre arquitectura, datos y parámetros de seguridad. Desactivar el frenado automático fue una decisión de diseño con consecuencias fatales.
Responsabilidad del operador: la organización que despliega el sistema en condiciones reales. Uber eligió operar en vías públicas con un sistema que tenía fallos conocidos.
Responsabilidad del usuario: la persona que interactúa con el sistema. La operadora humana dentro del vehículo tenía un rol de supervisión que no cumplió.

Los marcos regulatorios modernos reconocen estas tres capas pero difieren en cómo ponderan la responsabilidad entre ellas. La tendencia actual es hacia la responsabilidad objetiva del operador: la empresa que despliega el sistema es responsable de sus consecuencias independientemente de si actuó negligentemente.

📝 Quiz · Lección 3

¿De quién es la culpa?

Evalúa tu comprensión sobre responsabilidad y rendición de cuentas en IA.

1. En el accidente mortal del vehículo autónomo de Uber en 2018, ¿cuál fue uno de los fallos de diseño identificados en la investigación?

✓ Correcto. Desactivar el frenado automático fue una decisión de diseño que priorizó la suavidad del trayecto sobre la seguridad, con consecuencias fatales.

✗ Incorrecto. La investigación reveló que el frenado de emergencia autónomo había sido desactivado a propósito — una decisión de diseño deliberada.

2. ¿Qué describe el "problema de muchas manos" en el contexto de los sistemas de IA?

✓ Exacto. Esta fragmentación de la responsabilidad es uno de los mayores desafíos éticos y legales que plantean los sistemas de IA en organizaciones complejas.

✗ No es correcto. El "problema de muchas manos" se refiere a la fragmentación de la responsabilidad moral y legal cuando múltiples actores contribuyen a un daño.

3. ¿Cuál es la tendencia principal en los marcos regulatorios modernos respecto a quién es responsable cuando un sistema de IA causa daño?

✓ Correcto. La tendencia hacia la responsabilidad objetiva del operador busca evitar que la complejidad técnica sirva como escudo para eludir consecuencias.

✗ No es correcto. Los marcos modernos tienden hacia la responsabilidad objetiva del operador, reconociendo que quien despliega el sistema es quien mejor puede controlar sus riesgos.

🧪 Lab · Lección 3

Laboratorio: Cadenas de responsabilidad

Analiza quién es responsable en escenarios complejos donde la IA causa daño.

Objetivo del laboratorio

El tutor te presentará escenarios donde un sistema de IA causa un daño y tendrás que razonar sobre cómo distribuir la responsabilidad entre diseñadores, operadores y usuarios.

Sugerencia: "Si un sistema de IA médica diagnostica erróneamente a un paciente, ¿quién crees que debería asumir mayor responsabilidad?"

🤖 Tutor IA — Responsabilidad en sistemas de IA Módulo 3 · Lab 3

🎯 Avanzado · Lección 4

Sesgo en, sesgo afuera

Cómo los sesgos presentes en los datos de entrenamiento se amplifican y perpetúan en los sistemas de IA.

Entre 2014 y 2017, Amazon desarrolló internamente un sistema de IA para filtrar currículums y preseleccionar candidatos. En 2018, Reuters reveló que Amazon había descartado el proyecto: el modelo había aprendido a penalizar currículums que mencionaban la palabra "mujeres" (como en "capitana del equipo de mujeres") y a preferir candidatos varones, porque fue entrenado con los currículums de contrataciones históricas de Amazon, una empresa con historial de contratación predominantemente masculina en roles técnicos. El sesgo histórico en los datos se convirtió en sesgo algorítmico en las decisiones de contratación.

El origen del sesgo: datos que reflejan el mundo

Los modelos de machine learning aprenden de datos históricos. Si esos datos reflejan desigualdades, discriminaciones o desequilibrios presentes en el mundo real, el modelo los aprenderá y los aplicará en sus predicciones futuras. Esto no es un bug técnico: es una consecuencia inevitable de cómo funcionan estos sistemas cuando no se interviene deliberadamente.

El sesgo en IA puede originarse en múltiples puntos del proceso. El sesgo de selección ocurre cuando los datos de entrenamiento no representan adecuadamente a todos los grupos afectados por el sistema. El sesgo de medición ocurre cuando las variables usadas como proxy de lo que queremos medir son imperfectas y correlacionan con características protegidas como etnia o género. El sesgo de retroalimentación ocurre cuando las predicciones del modelo influyen en el mundo y generan nuevos datos que refuerzan el sesgo inicial.

Sesgo de retroalimentación en acción

Si un sistema predictivo de policía envía más patrullas a ciertos barrios, detectará más delitos en esos barrios, lo que refuerza la predicción de que son zonas de alta criminalidad, lo que justifica enviar aún más patrullas. El modelo construye su propia realidad.

Amplificación del sesgo

Un hallazgo importante en la investigación sobre sesgo en IA es que los modelos no solo reproducen los sesgos de los datos — frecuentemente los amplían. Un estudio de la Universidad de Washington de 2017 encontró que modelos de visión por computadora que aprendían a asociar actividades domésticas con mujeres lo hacían con mayor intensidad que la que reflejaban los datos originales de entrenamiento.

Esta amplificación ocurre porque los modelos optimizan para maximizar la precisión en datos de entrenamiento sesgados. Si en los datos de entrenamiento el 80% de las personas fotografiadas cocinando son mujeres, el modelo puede llegar a predecir mujer con mayor frecuencia aún — incluso cuando la imagen es ambigua — porque esa predicción mejora su rendimiento promedio en el conjunto de datos.

Los sesgos históricos en datos de contratación, crédito y justicia se han amplificado en sistemas automatizados
La amplificación puede hacer que sesgos menores en datos se conviertan en discriminación sistemática en producción
Detectar la amplificación requiere comparar el sesgo en datos con el sesgo en predicciones del modelo

📝 Quiz · Lección 4

Sesgo en, sesgo afuera

Comprueba tu comprensión sobre el origen y la amplificación del sesgo en IA.

1. ¿Por qué el sistema de contratación de IA de Amazon penalizaba currículums de mujeres?

✓ Correcto. El modelo aprendió a replicar el patrón histórico de contratación, convirtiendo una desigualdad histórica en sesgo algorítmico automatizado.

✗ No es correcto. El sesgo surgió del aprendizaje de datos históricos sesgados — no de una programación explícita discriminatoria.

2. ¿Qué es el sesgo de retroalimentación en sistemas de IA?

✓ Exacto. El sesgo de retroalimentación es especialmente peligroso porque hace que los sistemas de IA construyan y refuercen activamente su propia realidad sesgada.

✗ Incorrecto. El sesgo de retroalimentación se refiere al ciclo en que las predicciones del modelo moldean el mundo y crean datos que confirman y amplifican el sesgo.

3. ¿Qué encontró el estudio de la Universidad de Washington de 2017 sobre la amplificación del sesgo?

✓ Correcto. La amplificación significa que los modelos no simplemente reproducen el sesgo — lo intensifican, convirtiendo desigualdades menores en discriminación sistemática grave.

✗ No es correcto. El hallazgo fue que los modelos amplifican el sesgo, no lo reducen — las predicciones eran más sesgadas que los propios datos de entrenamiento.

🧪 Lab · Lección 4

Laboratorio: Detectar sesgo en datos

Razona sobre cómo identificar y mitigar el sesgo en conjuntos de datos de entrenamiento.

Objetivo del laboratorio

El tutor te planteará situaciones donde debes identificar posibles fuentes de sesgo en datos de entrenamiento y proponer estrategias para mitigarlas.

Sugerencia: "Si tuviera que crear un sistema de IA para aprobar préstamos bancarios, ¿qué tipos de sesgo debería vigilar en los datos históricos?"

🤖 Tutor IA — Sesgo en datos de entrenamiento Módulo 3 · Lab 4

🎯 Avanzado · Lección 5

Equidad y la IA

Las definiciones matemáticas de equidad son múltiples, mutuamente incompatibles y reflejan valores éticos distintos.

En 2016, la organización periodística ProPublica publicó un análisis del sistema COMPAS, usado por tribunales de varios estados de EE.UU. para predecir la reincidencia delictiva y apoyar decisiones sobre libertad condicional. ProPublica demostró que COMPAS clasificaba erróneamente a los acusados negros como de alto riesgo de reincidencia casi el doble de veces que a los acusados blancos. La empresa desarrolladora, Northpointe, respondió que su modelo tenía precisión predictiva similar entre grupos raciales. Ambas afirmaciones eran matemáticamente correctas. El problema: dos definiciones de equidad matemáticamente incompatibles. Cuando la tasa de reincidencia real difiere entre grupos, no es posible satisfacer ambas definiciones simultáneamente.

Las múltiples definiciones matemáticas de equidad

La equidad en sistemas de IA no tiene una única definición universalmente aceptada. Los investigadores han identificado más de veinte definiciones formales, varias de ellas matemáticamente incompatibles entre sí. Las más importantes son:

Paridad demográfica: el modelo debe tomar decisiones positivas con la misma frecuencia en todos los grupos. Si el 30% de los solicitantes blancos recibe crédito, el 30% de los solicitantes de cualquier otra etnia también debe recibirlo.
Equidad de calibración: si el modelo predice un 70% de probabilidad de algo para individuos de cualquier grupo, ese 70% debe cumplirse igualmente en todos los grupos.
Paridad de errores: el modelo debe tener tasas de falsos positivos y falsos negativos iguales en todos los grupos.

El teorema de imposibilidad

En 2016, los investigadores Chouldechova y Kleinberg demostraron formalmente que cuando las tasas base reales difieren entre grupos, es matemáticamente imposible satisfacer simultáneamente paridad de calibración y paridad de tasas de error. La elección entre definiciones de equidad es inevitablemente una elección de valores.

Equidad como decisión política, no técnica

El caso COMPAS ilustra que la equidad en IA no es un problema técnico con solución técnica. Es un problema político que requiere decisiones sobre qué tipo de error es más tolerable, qué grupos merecen mayor protección y qué objetivo persigue el sistema.

La definición de equidad que elijamos refleja valores. Si elegimos paridad demográfica, priorizamos igualdad de resultados. Si elegimos equidad de calibración, priorizamos que las predicciones sean igualmente precisas para todos. Estas dos prioridades pueden requerir sacrificar la otra. No hay respuesta técnicamente correcta — hay decisiones políticas y éticas disfrazadas de métricas matemáticas.

Esto tiene implicaciones prácticas inmediatas: los desarrolladores de sistemas de IA que afirman que su modelo es "equitativo" sin especificar qué definición de equidad usan están siendo, en el mejor caso, imprecisos, y en el peor caso, engañosos.

📝 Quiz · Lección 5

Equidad y la IA

Evalúa tu comprensión sobre las definiciones matemáticas de equidad y sus implicaciones.

1. En el caso del sistema COMPAS analizado por ProPublica en 2016, ¿qué hizo que el debate sobre su equidad fuera tan complejo?

✓ Correcto. El caso COMPAS demostró que "el sistema es equitativo" puede ser simultáneamente verdadero y falso dependiendo de qué definición matemática de equidad se utilice.

✗ No es correcto. El meollo del debate era que ambas partes tenían razón matemáticamente — pero usaban definiciones distintas de equidad que son mutuamente incompatibles.

2. ¿Qué establece el teorema de imposibilidad de Chouldechova y Kleinberg (2016)?

✓ Exacto. Este resultado matemático formal significa que la elección entre definiciones de equidad es inevitablemente una elección ética y política, no técnica.

✗ Incorrecto. El teorema establece que satisfacer simultáneamente ciertas definiciones de equidad es matemáticamente imposible cuando existen diferencias en las tasas base entre grupos.

3. ¿Qué implica que un desarrollador afirme que su modelo de IA es "equitativo" sin especificar qué definición de equidad usa?

✓ Correcto. Reclamar equidad sin especificar la definición matemática utilizada es una forma de obscurecer decisiones de valores disfrazándolas de afirmaciones técnicas.

✗ No es correcto. Sin especificar qué definición se usa, la afirmación de equidad es vacía — hay más de veinte definiciones formales y varias son incompatibles entre sí.

🧪 Lab · Lección 5

Laboratorio: Definiciones de equidad

Razona sobre qué definición de equidad aplicar en contextos de alto impacto.

Objetivo del laboratorio

El tutor te presentará escenarios de decisión con IA en áreas como crédito, contratación o justicia, y debatirás qué definición de equidad debería aplicarse y por qué.

Sugerencia: "Si tuviera que elegir entre paridad demográfica y equidad de calibración para un sistema de préstamos, ¿qué factores consideraría?"

🤖 Tutor IA — Equidad en sistemas de decisión Módulo 3 · Lab 5

🎯 Avanzado · Lección 6

Modos de fallo y mitigación

Taxonomía de los fallos de IA en producción y estrategias sistemáticas para anticiparlos y reducirlos.

El 1 de agosto de 2012, el sistema automatizado de trading de Knight Capital Group ejecutó órdenes de compra y venta de acciones en la Bolsa de Nueva York durante 45 minutos antes de que los operadores humanos pudieran detenerlo. Una actualización de software había reactivado código obsoleto que ejecutó millones de operaciones no intencionadas. En 45 minutos, Knight Capital perdió 440 millones de dólares — más que sus ganancias del año anterior. La empresa fue absorbida por un competidor meses después. El fallo no fue de la IA en sí misma, sino de la interacción entre sistema automatizado, proceso de actualización deficiente y ausencia de mecanismos de parada de emergencia adecuados.

Taxonomía de modos de fallo

Los investigadores de seguridad en IA han desarrollado varias taxonomías para clasificar los modos en que los sistemas de IA fallan. Una clasificación útil distingue entre fallos según su origen:

Fallos de especificación: el objetivo que se da al sistema no captura correctamente lo que queremos. El sistema optimiza perfectamente un objetivo incorrecto.
Fallos de robustez: el sistema funciona bien en condiciones normales pero falla ante entradas inusuales, ataques o distribuciones fuera del entrenamiento.
Fallos de monitorización: el sistema se degrada con el tiempo porque el mundo cambia pero el modelo no se actualiza, y nadie detecta la degradación.
Fallos de integración: el sistema de IA funciona correctamente por sí mismo pero falla al interactuar con otros sistemas, procesos humanos o infraestructura tecnológica.

El caso de Knight Capital es un fallo de integración: no fue el algoritmo individual el que falló, sino la interacción entre el proceso de actualización de software y el sistema automatizado.

Estrategias de mitigación

La ingeniería de sistemas seguros ha desarrollado principios que se aplican directamente a sistemas de IA. La defensa en profundidad consiste en implementar múltiples capas de protección para que ningún fallo único sea catastrófico. Los interruptores de circuito (circuit breakers) son mecanismos automáticos que detienen el sistema cuando detectan comportamiento anómalo.

Principios de mitigación

Mínimo privilegio: los sistemas de IA deben tener acceso solo a los recursos que necesitan para su función. Diseño a prueba de fallos: cuando algo falla, el estado seguro por defecto debe ser la opción conservadora, no la acción. Supervisión humana significativa: los humanos en el bucle deben tener información, tiempo y capacidad real de intervenir — no solo responsabilidad formal.

La mitigación más efectiva es la anticipación. Las organizaciones que han implementado prácticas de "red teaming" — equipos que intentan activamente encontrar formas de hacer fallar el sistema antes de desplegarlo — reportan significativamente menos incidentes en producción. El objetivo no es eliminar todos los fallos posibles, sino reducir la probabilidad de los fallos graves e irreversibles.

📝 Quiz · Lección 6

Modos de fallo y mitigación

Comprueba tu comprensión sobre taxonomías de fallo y estrategias de mitigación en IA.

1. ¿Qué tipo de fallo describe mejor el incidente de Knight Capital Group en 2012?

✓ Correcto. El algoritmo operó según lo programado — el fallo fue cómo interactuó con el proceso de actualización que reactivó código obsoleto.

✗ No es correcto. El fallo fue de integración: la interacción entre sistemas y procesos organizativos, no el algoritmo en sí mismo.

2. ¿Qué es un "fallo de especificación" en sistemas de IA?

✓ Exacto. El fallo de especificación es especialmente traicionero porque el sistema puede funcionar perfectamente según sus métricas de evaluación mientras produce resultados no deseados.

✗ Incorrecto. El fallo de especificación ocurre cuando el objetivo definido no captura lo que realmente queremos — el sistema puede estar funcionando correctamente y aun así producir daño.

3. ¿Qué implica el principio de "diseño a prueba de fallos" en sistemas de IA?

✓ Correcto. En sistemas críticos, el fallo seguro es detenerse y esperar intervención humana, no continuar con la acción prevista.

✗ No es correcto. El principio de diseño a prueba de fallos significa que ante el fallo, el sistema adopta la postura más conservadora y segura — generalmente la inacción.

🧪 Lab · Lección 6

Laboratorio: Diseñar sistemas robustos

Aplica principios de mitigación de fallos a escenarios de sistemas de IA reales.

Objetivo del laboratorio

El tutor te planteará escenarios de sistemas de IA con posibles modos de fallo y debatirás qué estrategias de mitigación aplicar y en qué orden de prioridad.

Sugerencia: "Si diseñara un sistema de IA para controlar semáforos en una ciudad, ¿qué tipo de fallos debería anticipar y qué salvaguardas implementaría?"

🤖 Tutor IA — Mitigación de fallos en IA Módulo 3 · Lab 6

🎯 Avanzado · Lección 7

Ataques adversariales y manipulación

Cómo actores maliciosos pueden engañar, manipular y subvertir deliberadamente los sistemas de IA.

En 2017, investigadores de la Universidad de Washington y Google Brain demostraron que podían imprimir pegatinas físicas con patrones de ruido visual aparentemente aleatorios que, cuando se colocaban en objetos cotidianos, hacían que los sistemas de reconocimiento de imágenes de vanguardia los clasificaran incorrectamente con alta confianza. Una tostadora con la pegatina correcta era clasificada como rifle con 99% de confianza. El ataque funcionaba en el mundo físico con objetos impresos, no solo en entornos digitales. En 2019, investigadores de MIT demostraron un ataque similar contra sistemas de reconocimiento de señales de tráfico en vehículos autónomos.

¿Qué son los ataques adversariales?

Un ataque adversarial es una entrada diseñada deliberadamente para hacer fallar a un sistema de IA de una manera específica. A diferencia de los errores accidentales, los ataques adversariales son intencionales: un actor con conocimiento del sistema construye entradas que explotan sus vulnerabilidades.

Los ataques adversariales contra modelos de imagen explotan una propiedad fundamental de las redes neuronales: aprenden a reconocer patrones estadísticos que no corresponden necesariamente a los conceptos que los humanos reconocemos visualmente. Una pequeña perturbación imperceptible para el ojo humano puede desplazar la representación interna de la imagen fuera del espacio de clasificación correcto.

Tipos de ataque adversarial

Ataque de evasión: modificar la entrada para que el sistema no la detecte (ej. malware que evade antivirus de IA). Ataque de envenenamiento: contaminar los datos de entrenamiento para degradar el modelo. Ataque de extracción: hacer muchas consultas al modelo para reconstruir sus parámetros o datos de entrenamiento. Ataque de inferencia: deducir información privada sobre individuos cuyos datos se usaron en entrenamiento.

Jailbreaking y manipulación de modelos de lenguaje

Los modelos de lenguaje son vulnerables a un tipo específico de ataque llamado jailbreaking: técnicas de redacción de prompts diseñadas para hacer que el modelo ignore sus directrices de seguridad y produzca contenido que en condiciones normales rechazaría. El jailbreaking no requiere acceso al código del modelo — cualquier usuario puede intentarlo.

Además, los modelos desplegados con acceso a herramientas externas son vulnerables a inyección de prompts: instrucciones maliciosas ocultas en datos del entorno (páginas web, documentos, correos) que el modelo procesa y sigue como si fueran instrucciones legítimas del usuario. En 2023, varios investigadores demostraron ataques de inyección de prompts contra sistemas de IA con acceso a correo electrónico que podían reenviar correos privados a terceros sin que el usuario lo supiera.

Los ataques adversariales son un campo activo de investigación en seguridad de IA
Los modelos más grandes y potentes no son necesariamente más robustos ante ataques
La defensa contra ataques adversariales es significativamente más difícil que el ataque
Sistemas de IA en infraestructuras críticas requieren evaluación adversarial sistemática antes del despliegue

📝 Quiz · Lección 7

Ataques adversariales y manipulación

Evalúa tu comprensión sobre las vulnerabilidades deliberadas de los sistemas de IA.

1. ¿Qué demostraron los investigadores de la Universidad de Washington y Google Brain en 2017 con sus experimentos de pegatinas adversariales?

✓ Correcto. Este experimento demostró que los ataques adversariales no son solo vulnerabilidades digitales — pueden ejecutarse con objetos físicos impresos en el mundo real.

✗ Incorrecto. El experimento demostró que perturbaciones visuales físicas específicamente diseñadas podían hacer fallar sistemas de reconocimiento de imágenes de vanguardia en el mundo real.

2. ¿Qué es un ataque de envenenamiento de datos (data poisoning)?

✓ Exacto. Los ataques de envenenamiento son especialmente peligrosos porque sus efectos pueden no ser detectables hasta que el modelo se despliega en producción.

✗ No es correcto. El envenenamiento de datos consiste en contaminar el conjunto de entrenamiento para que el modelo aprenda comportamientos indeseados o incorrectos.

3. ¿Qué es la inyección de prompts (prompt injection) en sistemas de IA con acceso a herramientas?

✓ Correcto. La inyección de prompts es especialmente peligrosa en sistemas agentes con acceso a correo, archivos o acciones en el mundo, porque el modelo puede ser manipulado para ejecutar acciones no autorizadas.

✗ No es correcto. La inyección de prompts consiste en esconder instrucciones maliciosas en contenido que el modelo procesa, haciendo que el sistema siga esas instrucciones como si vinieran del usuario legítimo.

🧪 Lab · Lección 7

Laboratorio: Pensar como un atacante

Explora las vulnerabilidades de los sistemas de IA desde la perspectiva de un evaluador de seguridad.

Objetivo del laboratorio

En este laboratorio adoptarás la perspectiva de un evaluador de seguridad (red teamer) que intenta identificar vulnerabilidades en sistemas de IA antes de que lo hagan actores maliciosos.

Sugerencia: "Si fuera un evaluador de seguridad de un sistema de IA para aprobación de visados, ¿qué tipos de ataques o manipulaciones intentaría primero?"

🤖 Tutor IA — Seguridad y ataques adversariales Módulo 3 · Lab 7

🎯 Avanzado · Lección 8

Evaluar y auditar sistemas de IA

Metodologías, herramientas y marcos institucionales para evaluar y responsabilizar a los sistemas de IA.

En 2021, el Gobierno de los Países Bajos fue condenado por un tribunal por el uso del sistema de detección de fraude fiscal SyRI (Sistema de Indicación de Riesgo). El sistema combinaba datos de 17 fuentes gubernamentales distintas para calcular una puntuación de riesgo de fraude para ciudadanos, y había sido desplegado principalmente en barrios de bajos ingresos con alta proporción de residentes de origen migrante. El tribunal dictaminó que el sistema violaba el artículo 8 del Convenio Europeo de Derechos Humanos por falta de transparencia y por el impacto desproporcionado sobre grupos vulnerables. Fue la primera vez que un tribunal europeo detuvo un sistema de IA gubernamental por razones de derechos humanos.

¿Qué es una auditoría de IA?

Una auditoría de IA es una evaluación sistemática e independiente de un sistema de IA para determinar si funciona según su diseño declarado, si produce resultados equitativos, si cumple requisitos legales y éticos, y si sus riesgos son gestionables. A diferencia de una evaluación de rendimiento técnico, una auditoría de IA examina las implicaciones sociales del sistema.

Las auditorías pueden realizarse en diferentes momentos del ciclo de vida del sistema: antes del despliegue (pre-deployment audit), durante la operación (continuous monitoring) o después de un incidente (post-incident review). Las auditorías independientes — realizadas por terceros sin conflicto de interés — son consideradas más fiables que las autoevaluaciones.

Componentes de una auditoría de IA

Auditoría de datos: examina los datos de entrenamiento para identificar sesgos, vacíos de representación y problemas de calidad. Auditoría de modelo: evalúa el rendimiento del modelo en subgrupos, su robustez y sus modos de fallo. Auditoría de impacto: evalúa las consecuencias del sistema sobre personas y grupos afectados. Auditoría de gobernanza: examina los procesos organizativos de supervisión, rendición de cuentas y gestión de riesgos.

Marcos regulatorios y el futuro de la gobernanza de IA

El caso SyRI marcó un punto de inflexión en la gobernanza de IA en Europa. El Reglamento de IA de la Unión Europea (AI Act, 2024) establece requisitos obligatorios de evaluación de conformidad para sistemas de IA de alto riesgo — incluyendo sistemas de scoring crediticio, evaluación de empleados, control fronterizo, y priorización en servicios públicos. Los sistemas de mayor riesgo deben someterse a auditorías de terceros independientes antes de su despliegue.

El AI Act clasifica los sistemas de IA por niveles de riesgo: inaceptable, alto, limitado y mínimo
Los sistemas de riesgo alto requieren documentación técnica, registro de eventos, transparencia hacia usuarios y supervisión humana
La Agencia de IA de la UE tiene competencias de supervisión y sanción sobre sistemas de riesgo alto
Países como Brasil, Canadá y Japón están desarrollando marcos regulatorios similares

Las herramientas técnicas de auditoría incluyen análisis de equidad por subgrupos, pruebas de robustez adversarial, análisis de sensibilidad de características, y técnicas de explicabilidad como LIME y SHAP. Sin embargo, ninguna herramienta técnica reemplaza el juicio humano sobre qué impactos son aceptables y cuáles no.

📝 Quiz · Lección 8

Evaluar y auditar sistemas de IA

Comprueba tu comprensión sobre metodologías de auditoría y marcos regulatorios de IA.

1. ¿Qué fue históricamente significativo en la sentencia judicial sobre el sistema SyRI en los Países Bajos en 2021?

✓ Correcto. El caso SyRI marcó un precedente crucial: los tribunales europeos pueden detener sistemas de IA gubernamentales cuando violan derechos fundamentales.

✗ Incorrecto. El hito fue que un tribunal europeo detuvo activamente un sistema de IA gubernamental por razones de derechos humanos — la primera vez que esto ocurría.

2. ¿Cuál es la diferencia principal entre una auditoría de modelo y una auditoría de impacto en el contexto de la IA?

✓ Exacto. Ambas son necesarias: el rendimiento técnico excelente no garantiza ausencia de impactos sociales negativos.

✗ No es correcto. La distinción clave es entre evaluar el sistema técnicamente (rendimiento, robustez) versus evaluar sus consecuencias sobre las personas.

3. Según el Reglamento de IA de la UE (AI Act, 2024), ¿qué categoría de riesgo requiere auditorías de terceros independientes antes del despliegue?

✓ Correcto. El AI Act establece una clasificación por riesgo donde los sistemas de alto riesgo en áreas sensibles requieren los controles más estrictos, incluyendo auditorías independientes.

✗ No es correcto. El AI Act aplica los requisitos más estrictos — incluyendo auditorías de terceros — específicamente a los sistemas clasificados como de riesgo alto.

🧪 Lab · Lección 8

Laboratorio: Diseñar una auditoría de IA

Aplica metodologías de auditoría a un sistema de IA hipotético con implicaciones reales.

Objetivo del laboratorio

El tutor te guiará en el diseño de un plan de auditoría para un sistema de IA específico, razonando sobre qué dimensiones evaluar y cómo estructurar el proceso.

Sugerencia: "¿Por dónde empezaría a auditar un sistema de IA que el Ministerio de Educación quiere usar para predecir el riesgo de abandono escolar?"

🤖 Tutor IA — Auditoría de sistemas de IA Módulo 3 · Lab 8

📋 Examen del Módulo 3

15 preguntas sobre errores, sesgos, responsabilidad y auditoría en sistemas de IA. Selecciona la mejor respuesta para cada pregunta.

1. ¿Cuál es la principal razón por la que los errores de los sistemas de IA son potencialmente más dañinos que los errores humanos individuales?

✓ Correcto. La escala y sistematicidad de los errores de IA es lo que multiplica su potencial de daño.

✗ La respuesta correcta es que los errores de IA son sistemáticos y se replican a escala masiva simultáneamente.

2. Una clínica despliega un sistema de IA para detección de cáncer. El sistema detecta correctamente el 95% de los casos positivos, pero también genera alarmas falsas en el 40% de los pacientes sanos. ¿Qué tipo de error es alto en este sistema?

✓ Correcto. Un falso positivo es cuando el sistema indica que hay cáncer cuando no lo hay — alarmar erróneamente a pacientes sanos.

✗ Un falso positivo es cuando el sistema dice que algo es verdad cuando no lo es. El 40% de alarmas en pacientes sanos es una alta tasa de falsos positivos.

3. ¿Qué es la "brecha de distribución" en sistemas de IA desplegados?

✓ Correcto. La brecha de distribución es una causa fundamental de fallos en producción cuando el mundo real difiere de los datos de entrenamiento.

✗ La brecha de distribución es la diferencia entre las condiciones de entrenamiento y las condiciones reales de despliegue.

4. ¿Por qué pedirle a un modelo de lenguaje que cite fuentes puede generar más alucinaciones?

✓ Exacto. El modelo no "busca" fuentes — genera texto de cita que suena plausible, incluyendo autores, títulos y años, que pueden ser completamente inventados.

✗ El problema es que el modelo genera citas plausibles estadísticamente sin verificar que correspondan a publicaciones reales.

5. En el accidente del vehículo autónomo de Uber en 2018, ¿cuántas capas de responsabilidad identificó la investigación?

✓ Correcto. El caso ilustra perfectamente el "problema de muchas manos" — múltiples actores contribuyeron al accidente sin que ninguno asumiera responsabilidad completa.

✗ El caso identificó múltiples capas de responsabilidad: diseñadores, decisiones de despliegue y operadora humana.

6. ¿Cuál de estas estrategias describe mejor el "sesgo de selección" en datos de entrenamiento?

✓ Correcto. El sesgo de selección surge de la subrepresentación — el conjunto de datos no captura adecuadamente la diversidad del mundo real.

✗ El sesgo de selección ocurre cuando los datos de entrenamiento no representan de manera adecuada a todos los grupos que el sistema encontrará.

7. El sistema de calificaciones de IA del Reino Unido en 2020 fue revertido. ¿Qué consecuencia directa tuvo esto para el desarrollo de políticas de IA?

✓ Correcto. El caso se convirtió en referencia sobre la importancia de la participación ciudadana en la supervisión de sistemas algorítmicos de alto impacto.

✗ La consecuencia más importante fue demostrar que la movilización pública puede revertir sistemas algorítmicos y la necesidad de auditorías previas al despliegue.

8. ¿Cuál de estas afirmaciones sobre las definiciones matemáticas de equidad es correcta?

✓ Correcto. El teorema de imposibilidad demuestra que ningún sistema puede satisfacer simultáneamente todas las definiciones cuando existen diferencias en tasas base.

✗ La realidad es que hay más de veinte definiciones formales y varias son matemáticamente incompatibles entre sí.

9. ¿Qué es el "mínimo privilegio" como principio de mitigación en sistemas de IA?

✓ Correcto. Limitar el acceso de los sistemas de IA a lo estrictamente necesario reduce el daño potencial si el sistema falla o es comprometido.

✗ El mínimo privilegio significa que los sistemas de IA solo tienen acceso a los recursos que necesitan — no más.

10. ¿Cuál de estas opciones describe un ataque de extracción de modelo (model extraction attack)?

✓ Correcto. Los ataques de extracción permiten a actores sin acceso al código fuente reconstruir un modelo equivalente consultando la API pública.

✗ Un ataque de extracción consiste en reconstruir el modelo haciendo muchas consultas a la API pública, sin necesitar acceso directo al código o los pesos.

11. ¿Qué hace que la supervisión humana en sistemas de IA sea "significativa" (en contraposición a meramente formal)?

✓ Exacto. La supervisión humana solo tiene valor si el humano puede comprender, evaluar e intervenir realmente — no si solo existe en papel.

✗ La supervisión significativa requiere información real, tiempo real de revisión y capacidad real de intervención — no solo responsabilidad formal.

12. ¿Qué herramientas como LIME y SHAP ayudan a hacer en auditorías de IA?

✓ Correcto. LIME (Local Interpretable Model-agnostic Explanations) y SHAP (SHapley Additive exPlanations) son técnicas de explicabilidad que muestran qué variables impulsaron cada predicción.

✗ LIME y SHAP son técnicas de explicabilidad que revelan qué características del input influyeron en las predicciones del modelo.

13. Un sistema de IA de detección policial envía más patrullas a un barrio, lo que resulta en más arrestos, lo que refuerza la predicción de alta criminalidad, justificando más patrullas. ¿Cómo se llama este fenómeno?

✓ Correcto. El sesgo de retroalimentación ocurre cuando las predicciones del modelo moldean la realidad y generan datos que confirman y amplifican el sesgo original.

✗ Este ciclo autorreferencial se llama sesgo de retroalimentación: el modelo construye activamente la realidad que predice.

14. ¿Por qué la inyección de prompts es especialmente peligrosa en sistemas de IA agentes con acceso a herramientas?

✓ Correcto. Cuando el modelo tiene capacidad de actuar en el mundo — enviar correos, modificar archivos, ejecutar código — las inyecciones de prompts pueden tener consecuencias reales y graves.

✗ El peligro de la inyección de prompts en sistemas agentes es que puede hacer que el modelo ejecute acciones reales no autorizadas en nombre de un atacante.

15. ¿Cuál es la limitación fundamental de las herramientas técnicas de auditoría de IA como el análisis de equidad por subgrupos?

✓ Correcto. Las herramientas técnicas pueden medir sesgos y rendimiento, pero determinar qué niveles son aceptables y para quién es una decisión irreductiblemente humana, ética y política.

✗ La limitación fundamental es que la equidad requiere juicio sobre valores humanos — qué es justo, para quién y en qué contexto — que ninguna métrica matemática puede resolver por sí sola.