🎯 Avanzado · Lección 1

Aprender con Ejemplos

El aprendizaje supervisado: cómo las máquinas extraen reglas a partir de pares etiquetados de entrada y salida.

En 2012, el equipo SuperVision de la Universidad de Toronto —liderado por Alex Krizhevsky, Ilya Sutskever y Geoffrey Hinton— presentó AlexNet en la competencia ImageNet Large Scale Visual Recognition Challenge (ILSVRC). El sistema redujo la tasa de error top-5 del 26 % al 15,3 %, una brecha tan grande que los jueces pensaron inicialmente que había un error. AlexNet no fue programado con reglas explícitas sobre cómo distinguir un gato de un perro: fue entrenado con 1,2 millones de imágenes etiquetadas a mano por humanos. Cada imagen llegaba con su respuesta correcta, y el sistema ajustó millones de parámetros hasta que sus predicciones coincidieron con esas etiquetas. Ese resultado transformó el campo completo.

El Mecanismo Central del Aprendizaje Supervisado

El aprendizaje supervisado opera sobre un principio deceptivamente simple: dado un conjunto de pares (entrada, salida correcta), encontrar una función matemática que asigne cada entrada a su salida correspondiente con el menor error posible. A ese conjunto de pares se le llama datos de entrenamiento etiquetados.

El proceso tiene tres fases. Primero, el modelo hace una predicción sobre una entrada. Segundo, se calcula cuánto se equivocó usando una función de pérdida (loss function), que cuantifica numéricamente el error. Tercero, ese error se propaga hacia atrás a través del modelo —mediante el algoritmo de retropropagación (backpropagation)— ajustando ligeramente cada parámetro para reducir el error en la siguiente iteración.

Este ciclo se repite millones de veces. Cada pasada completa por los datos de entrenamiento se llama época. Con suficientes épocas y datos de calidad, el modelo captura la estructura subyacente del problema.

Concepto Clave

El etiquetado humano es el cuello de botella histórico del aprendizaje supervisado. ImageNet tomó tres años de trabajo humano coordinado para etiquetar 14 millones de imágenes. Sin esas etiquetas, AlexNet no habría existido.

Tipos de Tareas Supervisadas

Las tareas supervisadas se dividen en dos grandes familias. La clasificación asigna una etiqueta discreta: "este correo es spam / no es spam", "este tumor es maligno / benigno". La regresión predice un valor continuo: "esta vivienda vale 320.000 euros", "esta acción subirá un 2,3% mañana".

La distinción importa porque cambia la función de pérdida utilizada. La clasificación suele usar entropía cruzada; la regresión, el error cuadrático medio. Ambas penalizan el error, pero de maneras matemáticamente distintas que moldean cómo el modelo aprende.

Clasificación binaria: dos clases posibles (spam/no spam, fraude/legítimo)
Clasificación multiclase: n clases (ImageNet tiene 1.000 categorías de objetos)
Regresión univariada: predecir un único número continuo
Regresión multisalida: predecir varios valores simultáneamente

El Precio de las Etiquetas

En medicina, etiquetar datos requiere expertos clínicos. Un radiólogo necesita revisar miles de radiografías para confirmar diagnósticos. Esto hace que los conjuntos de datos médicos etiquetados sean escasos y costosos. Google Health entrenó su modelo de detección de retinopatía diabética con 128.175 imágenes de retina verificadas por entre tres y siete oftalmólogos cada una. El coste humano de esas verificaciones fue enorme, pero determinó directamente la calidad clínica del sistema.

Este dilema —más datos etiquetados significa mejor rendimiento, pero etiquetar es caro y lento— ha impulsado toda una área de investigación: el aprendizaje semi-supervisado, que combina pocos ejemplos etiquetados con grandes cantidades de datos no etiquetados para extraer valor de ambos.

📝 Quiz · Lección 1

Aprender con Ejemplos

Pon a prueba tu comprensión del aprendizaje supervisado.

1. ¿Qué fue lo más significativo del resultado de AlexNet en ILSVRC 2012?

✓ Correcto. La mejora del 26% al 15,3% de tasa de error fue tan grande que parecía un error de medición. Ese margen demostró que las redes neuronales profundas entrenadas con datos etiquetados superaban radicalmente los enfoques anteriores.

✗ Incorrecto. El impacto de AlexNet fue precisamente la magnitud de su mejora: más de 10 puntos porcentuales de caída en la tasa de error, algo nunca visto antes en esa competencia.

2. ¿Qué función cumple la función de pérdida (loss function) durante el entrenamiento?

✓ Correcto. La función de pérdida convierte el error del modelo en un número, lo que permite usar cálculo diferencial (retropropagación) para ajustar los parámetros en la dirección que reduce ese error.

✗ Incorrecto. La función de pérdida no selecciona datos ni genera etiquetas. Su rol es medir el error de predicción de forma cuantificable para guiar el ajuste de parámetros.

3. En el contexto del modelo de retinopatía diabética de Google Health, ¿por qué se necesitaban múltiples oftalmólogos para etiquetar cada imagen?

✓ Correcto. En medicina, una etiqueta errónea puede propagar diagnósticos incorrectos a escala. Usar entre tres y siete oftalmólogos por imagen permitió construir un consenso clínico sólido y detectar casos donde los expertos discrepaban.

✗ Incorrecto. La razón principal fue la calidad: en diagnósticos médicos, el error individual de un experto es real, y el consenso entre varios reduce ese riesgo antes de que las etiquetas entren al modelo.

🧪 Lab · Lección 1

Laboratorio: Aprender con Ejemplos

Explora cómo el aprendizaje supervisado transforma datos etiquetados en decisiones.

Investigación guiada por IA

En este laboratorio conversarás con un tutor de IA especializado en aprendizaje supervisado. El tutor comenzará con una pregunta para activar tu pensamiento crítico.

Sugerencias de exploración:

¿Por qué el etiquetado humano sigue siendo el cuello de botella en proyectos médicos de IA?
¿Qué diferencia práctica hay entre clasificación y regresión en aplicaciones reales?
¿Cómo sabría un ingeniero si su modelo está aprendiendo el patrón correcto o solo memorizando los datos?

Tema del laboratorio: aprendizaje supervisado, datos etiquetados, funciones de pérdida y el caso de AlexNet/ImageNet.

🤖 Tutor IA — Aprendizaje Supervisado Módulo 6 · L1

🎯 Avanzado · Lección 2

Patrones en Todas Partes

Cómo las redes neuronales detectan estructura estadística en datos de alta dimensión.

En 2016, DeepMind publicó los resultados de WaveNet, una red neuronal que aprendió a generar voz humana natural analizando patrones en formas de onda de audio crudo. En lugar de usar reglas de síntesis fonética, WaveNet procesó miles de horas de grabaciones humanas y aprendió que ciertos patrones de amplitud a escala de microsegundos son estadísticamente típicos del habla natural. El resultado fue una mejora del 50% en naturalidad percibida respecto al mejor sistema anterior en inglés americano, según evaluaciones humanas. El sistema nunca "entendió" el lenguaje: detectó patrones en datos a una granularidad que los humanos no pueden procesar conscientemente.

¿Qué Es un Patrón para una Red Neuronal?

Un patrón, en términos de aprendizaje automático, es una regularidad estadística: una combinación de características que aparece con mayor frecuencia en ciertos tipos de ejemplos que en otros. Las redes neuronales no buscan patrones semánticos que los humanos reconocerían; detectan correlaciones en espacios de alta dimensión que pueden ser imposibles de articular verbalmente.

En una imagen, las primeras capas de una red convolucional detectan bordes y gradientes de color. Las capas intermedias combinan esos bordes en texturas. Las capas finales ensamblan texturas en objetos reconocibles. Cada capa extrae patrones de nivel creciente de abstracción, un proceso llamado representación jerárquica.

Este mismo principio se aplica al audio (WaveNet), al texto (transformers) y a secuencias de proteínas (AlphaFold). El dominio cambia; la mecánica de detectar patrones estadísticos en capas jerarquizadas permanece constante.

Representación Jerárquica

En 2013, investigadores de Zeiler y Fergus visualizaron qué detecta cada capa de AlexNet. Las primeras capas respondían a bordes. Las capas medias, a texturas como pelaje o ladrillo. Las últimas capas, a partes completas de objetos: ojos, ruedas, patas. Nadie programó estas jerarquías explícitamente — emergieron del entrenamiento.

El Problema de la Maldición de la Dimensionalidad

Una imagen de 224×224 píxeles en color RGB tiene 150.528 dimensiones. Una secuencia de texto de 1.000 tokens en un modelo de lenguaje puede tener millones de dimensiones en su representación interna. En espacios tan grandes, los datos son extremadamente escasos: la mayor parte del espacio de posibilidades está vacío. Este fenómeno, llamado maldición de la dimensionalidad, hace que las técnicas estadísticas clásicas fallen.

Las redes neuronales profundas evitan parcialmente este problema al aprender a proyectar datos de alta dimensión en representaciones de baja dimensión que preservan la información relevante. A estas representaciones compactas se les llama embeddings o representaciones latentes.

Espacio de entrada: millones de dimensiones (píxeles, palabras, bases genómicas)
Espacio latente: cientos o miles de dimensiones que capturan lo esencial
Clustering emergente: ejemplos similares se agrupan en el espacio latente sin instrucción explícita
Interpolación semántica: moverse en el espacio latente genera variaciones coherentes

Patrones Espurios: El Riesgo Oculto

En 2019, un estudio del MIT encontró que varios clasificadores médicos de dermatología entrenados con imágenes de lesiones cutáneas aprendieron a asociar la presencia de reglas de medición fotográficas con diagnósticos malignos, y el color claro de piel con diagnósticos benignos. Esto ocurrió porque en los datos de entrenamiento, las imágenes de lesiones graves solían estar tomadas con más instrumentación clínica, y la mayoría de imágenes disponibles mostraban piel clara.

El sistema detectó patrones reales en los datos —la correlación existía estadísticamente— pero esos patrones no causaban la enfermedad. Aprendió correlaciones espurias: relaciones estadísticas que no reflejan la causalidad subyacente. Este es uno de los problemas más difíciles del campo: un modelo puede ser estadísticamente preciso en datos de entrenamiento y ser peligrosamente incorrecto en el mundo real.

📝 Quiz · Lección 2

Patrones en Todas Partes

Pon a prueba tu comprensión de representaciones jerárquicas y correlaciones espurias.

1. ¿Qué demostró WaveNet de DeepMind sobre cómo las redes neuronales detectan patrones en audio?

✓ Correcto. WaveNet no "comprende" el habla. Detecta regularidades estadísticas en microsegundos de forma de onda que corresponden a los patrones acústicos del habla humana, logrando una mejora del 50% en naturalidad sin ninguna comprensión semántica.

✗ Incorrecto. WaveNet demostró exactamente lo opuesto: sin reglas fonéticas y sin "entender" el lenguaje, la detección de patrones estadísticos en audio crudo fue suficiente para superar todos los enfoques anteriores.

2. ¿Qué son los "embeddings" o representaciones latentes en el contexto del aprendizaje profundo?

✓ Correcto. Un embedding toma un input de alta dimensión (una imagen de 150.000 dimensiones, una palabra de vocabulario de 50.000 palabras) y lo proyecta en un espacio compacto donde la proximidad geométrica refleja similitud semántica o estadística.

✗ Incorrecto. Los embeddings son representaciones intermedias aprendidas por el modelo —proyecciones de baja dimensión que comprimen la información relevante y permiten que ejemplos similares queden cerca en el espacio matemático.

3. ¿Por qué es peligroso que un modelo aprenda correlaciones espurias, como se documentó en clasificadores de dermatología?

✓ Correcto. El clasificador de dermatología era estadísticamente preciso en sus datos de entrenamiento porque la correlación era real en esos datos. El peligro es el despliegue: en clínicas con diferentes protocolos fotográficos o distinta demografía de pacientes, esa correlación espuria desaparece y el modelo falla de formas impredecibles.

✗ Incorrecto. El problema de las correlaciones espurias no es de velocidad ni de capacidad de clasificación multietiqueta. Es un problema de validez: el modelo aprende algo que parece funcionar en entrenamiento pero no refleja la causalidad real del mundo.

🧪 Lab · Lección 2

Laboratorio: Patrones en Todas Partes

Investiga cómo las redes detectan patrones estadísticos y por qué algunos patrones son engañosos.

Investigación guiada por IA

El tutor abrirá con una pregunta sobre patrones estadísticos, representaciones jerárquicas o correlaciones espurias.

Líneas de investigación sugeridas:

¿Cómo sabe un investigador si su modelo aprendió un patrón causal o uno espurio?
¿Por qué la representación jerárquica emerge sin ser programada explícitamente?
¿Qué técnicas existen para detectar correlaciones espurias antes del despliegue?

Tema del laboratorio: detección de patrones estadísticos, representaciones latentes, maldición de la dimensionalidad y correlaciones espurias en IA.

🤖 Tutor IA — Patrones en IA Módulo 6 · L2

🎯 Avanzado · Lección 3

¿Qué Es un Modelo?

Un modelo de IA es una función matemática con parámetros ajustados. Entender qué significa eso cambia cómo interpretas cada sistema de IA.

GPT-2, publicado por OpenAI en febrero de 2019, contenía 1.500 millones de parámetros. OpenAI lo lanzó de forma escalonada, argumentando que el modelo era "demasiado peligroso" para publicarlo en su totalidad de inmediato. La decisión generó un debate intenso: ¿puede un conjunto de 1.500 millones de números reales —los parámetros del modelo— ser inherentemente peligroso? El debate reveló cuánto malentendido existe sobre qué es concretamente un modelo de lenguaje: no un programa con instrucciones explícitas, sino una función matemática masiva cuyos parámetros encapsulan regularidades estadísticas del texto humano.

Un Modelo Es una Función Paramétrica

Un modelo de aprendizaje automático es, matemáticamente, una función f(x; θ) donde x es la entrada y θ es el conjunto de parámetros —millones o billones de números reales— que el entrenamiento ajustó. Dado x, el modelo produce una salida siguiendo operaciones matemáticas deterministas aplicadas con esos parámetros.

En una red neuronal, los parámetros son los pesos y sesgos de cada conexión entre neuronas. Antes del entrenamiento se inicializan aleatoriamente. Después del entrenamiento, codifican todo lo que el modelo aprendió de los datos. El modelo no "recuerda" los datos de entrenamiento individuales —en condiciones normales— sino que comprimió su información estadística en esos números.

Escala de Parámetros

GPT-2 (2019): 1.500M parámetros. GPT-3 (2020): 175.000M. GPT-4 (2023): estimado en más de un billón. Cada parámetro es un número de 32 bits (4 bytes). Almacenar GPT-3 sin comprimir requiere ~700 GB. La escala no es solo curiosidad: es el mecanismo por el cual los modelos grandes capturan más estructura del lenguaje.

Inferencia vs. Entrenamiento

Existe una distinción crítica que se confunde frecuentemente. El entrenamiento es el proceso donde los parámetros θ se ajustan iterativamente usando datos y retropropagación. Es costoso computacionalmente, puede durar semanas y consume grandes cantidades de energía. La inferencia es aplicar el modelo entrenado a datos nuevos: simplemente evaluar f(x; θ) con los parámetros fijos. Es comparativamente rápida.

Esta distinción tiene consecuencias económicas y operativas. Entrenar GPT-3 costó aproximadamente 4 millones de dólares en cómputo. Cada inferencia individual cuesta fracciones de centavo. Por eso los laboratorios entrenan una vez y sirven millones de consultas.

Entrenamiento: parámetros variables, datos fijos, gradientes calculados, costoso
Inferencia: parámetros fijos, datos nuevos, sin gradientes, eficiente
Fine-tuning: reanudar el entrenamiento con datos específicos de un dominio
Congelado (frozen): un modelo cuyos parámetros no se modificarán más

Arquitecturas: La Forma de la Función

La arquitectura de un modelo define cómo se conectan las capas, qué operaciones realiza cada una y cómo fluye la información. Es la forma matemática de la función, independientemente de los parámetros. Las tres familias dominantes en la actualidad son las redes convolucionales (CNN) para datos con estructura espacial como imágenes, las redes recurrentes (RNN/LSTM) para secuencias temporales, y los transformers para texto y datos secuenciales con dependencias largas.

La elección de arquitectura no es neutra: determina qué tipos de patrones el modelo puede capturar eficientemente y cuáles son difíciles de aprender. Los transformers dominan el procesamiento de lenguaje natural hoy porque su mecanismo de atención puede capturar dependencias entre palabras separadas por miles de posiciones, algo que las RNN no hacían eficientemente.

📝 Quiz · Lección 3

¿Qué Es un Modelo?

Pon a prueba tu comprensión de parámetros, arquitecturas e inferencia.

1. ¿Qué son los parámetros de un modelo de aprendizaje automático?

✓ Correcto. Los parámetros (pesos y sesgos) son números reales que el proceso de entrenamiento ajusta iterativamente. Codifican, de forma comprimida, las regularidades estadísticas de los datos de entrenamiento.

✗ Incorrecto. Los parámetros no son reglas explícitas ni los datos en sí. Son los coeficientes numéricos de la función matemática que el entrenamiento optimiza.

2. ¿Por qué los transformers superaron a las redes recurrentes (RNN) en procesamiento de lenguaje natural?

✓ Correcto. El mecanismo de atención permite al transformer "mirar" simultáneamente cualquier posición de la secuencia al procesar cada token, capturando relaciones de larga distancia sin el problema del gradiente evanescente que afectaba a las RNN.

✗ Incorrecto. Los transformers generalmente tienen más parámetros y no eliminan la necesidad de datos. Su ventaja específica es el mecanismo de atención para dependencias de largo alcance en secuencias.

3. El entrenamiento de GPT-3 costó aproximadamente 4 millones de dólares, pero cada consulta (inferencia) cuesta fracciones de centavo. ¿Qué consecuencia económica directa tiene esta asimetría?

✓ Correcto. Esta estructura de costos —alto costo fijo de entrenamiento, costo marginal muy bajo de inferencia— explica el modelo de negocio de las APIs de IA: el costo de entrenamiento se amortiza entre millones de usuarios y consultas.

✗ Incorrecto. La asimetría favorece exactamente lo contrario: entrenar una vez, servir muchas veces. Es el principio que hace económicamente viable ofrecer acceso masivo a modelos costosos de entrenar.

🧪 Lab · Lección 3

Laboratorio: ¿Qué Es un Modelo?

Explora la naturaleza matemática de los modelos de IA con tu tutor.

Investigación guiada por IA

El tutor iniciará con una pregunta sobre parámetros, arquitecturas o la distinción entre entrenamiento e inferencia.

Líneas de investigación sugeridas:

¿Por qué tiene sentido decir que un modelo "comprime" información estadística en sus parámetros?
¿Qué implica que la arquitectura sea la "forma" de la función independientemente de los parámetros?
¿Cómo afecta el debate sobre GPT-2 nuestra comprensión de qué es peligroso en IA?

Tema del laboratorio: modelos como funciones paramétricas, arquitecturas de redes neuronales, parámetros, entrenamiento vs. inferencia, y el caso de GPT-2.

🤖 Tutor IA — Modelos de IA Módulo 6 · L3

🎯 Avanzado · Lección 4

Aprendizaje No Supervisado y por Refuerzo

Dos paradigmas radicalmente distintos al aprendizaje supervisado, con consecuencias que cambiaron la historia de la IA.

En octubre de 2017, DeepMind publicó AlphaGo Zero, un sistema que aprendió a jugar al Go partiendo de cero —sin ningún juego humano como referencia— usando exclusivamente aprendizaje por refuerzo. Jugó contra sí mismo 4,9 millones de veces. Después de 40 días de entrenamiento, venció a AlphaGo, el campeón anterior que había derrotado al mejor jugador humano, por 100 partidas a 0. Lo que asombró a los investigadores no fue solo el resultado: fue que AlphaGo Zero redescubrió aperturas del Go que los humanos habían tardado siglos en desarrollar, y luego inventó estrategias que ningún jugador humano había concebido.

Aprendizaje por Refuerzo: Premio, Castigo, Estrategia

En el aprendizaje por refuerzo (RL), no hay un conjunto de pares (entrada, respuesta correcta). En cambio, un agente toma acciones en un entorno y recibe recompensas o penalizaciones según los resultados. El objetivo es aprender una política: una función que mapea estados del entorno a acciones que maximizan la recompensa acumulada a largo plazo.

La dificultad central es el crédito temporal: cuando el agente gana o pierde, ¿qué acción previa fue responsable? En una partida de Go que dura 200 movimientos, un error en el movimiento 30 puede no revelarse hasta el movimiento 180. El algoritmo debe rastrear hacia atrás qué decisiones contribuyeron al resultado.

La Función de Recompensa Define el Objetivo

En AlphaGo Zero, la recompensa era binaria: +1 por ganar, -1 por perder. Esta señal extremadamente simple, aplicada a través de millones de juegos de práctica, fue suficiente para producir el juego de Go más avanzado jamás registrado. La complejidad emergió del proceso de optimización, no de la señal de recompensa.

Aprendizaje No Supervisado: Estructura Sin Etiquetas

El aprendizaje no supervisado opera sobre datos sin etiquetas, buscando descubrir estructura inherente. Las técnicas más importantes son el clustering (agrupar ejemplos similares), la reducción de dimensionalidad (encontrar representaciones compactas) y los modelos generativos (aprender la distribución probabilística de los datos para generar nuevos ejemplos).

En 2013, Tomas Mikolov y su equipo en Google publicaron Word2Vec, un método no supervisado que aprendió representaciones vectoriales de palabras analizando cuáles aparecen juntas en el texto. Sin ninguna etiqueta semántica, el sistema aprendió que "rey − hombre + mujer ≈ reina" como una relación geométrica en el espacio de embeddings. Ningún humano programó esa analogía: emergió de la estructura estadística del lenguaje.

K-means clustering: agrupa datos en k grupos por proximidad geométrica
PCA / t-SNE / UMAP: reducen dimensiones preservando estructura relevante
Autoencoders: aprenden a comprimir y reconstruir datos, capturando representaciones latentes
GANs: dos redes compiten —una genera, otra discrimina— para producir datos sintéticos realistas

El Riesgo del Aprendizaje por Refuerzo: Optimización Mal Especificada

Un agente de RL optimiza exactamente lo que se le pide que optimice, incluso si el resultado no es lo que los diseñadores querían. En 2016, investigadores de OpenAI entrenaron un agente en el videojuego CoastRunners con la recompensa de maximizar puntuación. El agente aprendió a girar en círculos recogiendo bonificaciones repetibles sin completar la carrera, logrando más puntos que cualquier estrategia orientada al objetivo real. Esto ilustra el problema de especificación de recompensa: definir formalmente lo que queremos que un agente maximice es mucho más difícil de lo que parece.

📝 Quiz · Lección 4

Aprendizaje No Supervisado y por Refuerzo

Pon a prueba tu comprensión de RL, clustering y Word2Vec.

1. ¿Qué hizo notable a AlphaGo Zero frente a su predecesor AlphaGo?

✓ Correcto. AlphaGo original usó millones de partidas humanas para aprender aperturas y estrategias. AlphaGo Zero comenzó sin ningún conocimiento humano: solo las reglas del juego y la señal de recompensa binaria (ganar/perder).

✗ Incorrecto. La diferencia clave es que AlphaGo Zero no usó datos humanos en absoluto. Partió de cero, jugando únicamente contra sí mismo, lo que le permitió descubrir estrategias que el pensamiento humano nunca había concebido.

2. En el experimento del videojuego CoastRunners de OpenAI, ¿qué reveló el comportamiento inesperado del agente?

✓ Correcto. El agente hizo exactamente lo que se le pidió matemáticamente: maximizar puntos. Que eso no equivaliera a ganar la carrera es un problema de especificación de recompensa, no de fallo del algoritmo.

✗ Incorrecto. El experimento demostró lo contrario: el agente aprendió muy bien, pero aprendió a maximizar la recompensa formal, no el objetivo que los humanos realmente querían. Esa brecha entre recompensa formal y intención real es el problema de especificación.

3. Word2Vec aprendió que "rey − hombre + mujer ≈ reina" sin ninguna etiqueta semántica. ¿Qué principio explica esto?

✓ Correcto. Word2Vec aplica la hipótesis distribucional: el significado de una palabra está determinado por las palabras que aparecen a su alrededor. Al aprender a predecir el contexto, el modelo construye un espacio donde las relaciones semánticas se vuelven relaciones geométricas.

✗ Incorrecto. Word2Vec es no supervisado: no hay reglas explícitas ni recompensas. La relación "rey − hombre + mujer ≈ reina" emergió de los patrones estadísticos de co-ocurrencia de palabras en millones de textos.

🧪 Lab · Lección 4

Laboratorio: Aprendizaje No Supervisado y por Refuerzo

Investiga los paradigmas más allá del aprendizaje supervisado.

Investigación guiada por IA

El tutor abrirá con una pregunta sobre aprendizaje por refuerzo, aprendizaje no supervisado o el problema de especificación de recompensa.

Líneas de investigación sugeridas:

¿Por qué es tan difícil especificar correctamente una función de recompensa para sistemas de IA del mundo real?
¿Cómo decidirías qué paradigma de aprendizaje usar para un problema dado?
¿Qué implicaciones tiene que AlphaGo Zero inventara estrategias nunca vistas por humanos?

Tema del laboratorio: aprendizaje por refuerzo, aprendizaje no supervisado, especificación de recompensa, AlphaGo Zero y Word2Vec.

🤖 Tutor IA — Paradigmas de Aprendizaje Módulo 6 · L4

🎯 Avanzado · Lección 5

El Problema de los Datos

La calidad, cantidad y representatividad de los datos determinan lo que cualquier modelo puede y no puede aprender — con consecuencias reales y documentadas.

En 2015, Amazon desarrolló un sistema de IA para filtrar currículums de candidatos a empleo. En 2018, Reuters reportó que Amazon descubrió que el sistema penalizaba sistemáticamente candidaturas que incluían la palabra "mujer" —como "capitana del equipo femenino de ajedrez"— y bajaba la puntuación de graduadas de universidades exclusivamente femeninas. El sistema había sido entrenado con currículums de empleados contratados en los diez años anteriores, una base de datos mayoritariamente masculina que reflejaba los sesgos de contratación históricos. El modelo aprendió exactamente eso: que los hombres eran el perfil de contratación exitoso. Amazon abandonó el proyecto sin desplegarlo en producción.

Sesgo en Datos: Qué Es y Cómo Entra

El sesgo en datos de entrenamiento no es un accidente aleatorio — generalmente refleja estructuras del mundo real: desigualdades históricas, subrepresentación de grupos demográficos, protocolos de recolección que favorecen ciertos contextos. Cuando esos datos se usan para entrenar un modelo, el sesgo no desaparece: se codifica en los parámetros y se automatiza a escala.

Existen varios tipos documentados de sesgo. El sesgo de muestreo ocurre cuando los datos no representan equitativamente a toda la población relevante. El sesgo histórico ocurre cuando los datos reflejan decisiones pasadas injustas que el modelo aprende a replicar. El sesgo de medición ocurre cuando la variable que se mide no captura bien la variable que realmente importa.

El Sesgo Se Amplifica a Escala

Si un sistema manual de RRHH era sesgado y afectaba a 100 candidatos por mes, su impacto era limitado. Si un sistema automatizado entrenado con esos datos sesgados procesa 10.000 candidatos por día, el mismo sesgo opera a 100 veces la escala original, con mayor velocidad y menor visibilidad humana.

Sobreajuste y Subajuste

El sobreajuste (overfitting) ocurre cuando un modelo aprende los datos de entrenamiento con demasiada precisión, capturando el ruido específico de esos ejemplos en lugar de la estructura general. El resultado es un modelo que rinde excepcionalmente bien en los datos de entrenamiento pero falla en datos nuevos. Es el equivalente a memorizar preguntas de un examen sin entender la materia.

El subajuste (underfitting) ocurre cuando el modelo es demasiado simple para capturar la complejidad real del problema — como intentar predecir la bolsa de valores con una línea recta. El modelo falla tanto en entrenamiento como en datos nuevos.

La solución al sobreajuste pasa por más datos, regularización (penalizar la complejidad excesiva), y dropout (apagar aleatoriamente neuronas durante el entrenamiento). El diagnóstico preciso requiere un conjunto de datos de validación separado del de entrenamiento.

Conjunto de entrenamiento: datos sobre los que se ajustan los parámetros
Conjunto de validación: datos para ajustar hiperparámetros y detectar sobreajuste
Conjunto de prueba: datos no vistos nunca, para evaluación final honesta
Data leakage: contaminación entre conjuntos — invalida toda la evaluación

El Problema de los Datos Sintéticos

Ante la escasez de datos etiquetados, muchos equipos recurren a datos sintéticos generados por IA para ampliar sus conjuntos de entrenamiento. NVIDIA, Tesla y otros han usado simulaciones para generar datos de conducción autónoma. El riesgo es el colapso del modelo: si un modelo se entrena repetidamente con datos generados por versiones anteriores de sí mismo, puede amplificar errores sutiles hasta degradar su calidad. Un estudio de 2024 publicado en Nature encontró que modelos de lenguaje entrenados iterativamente con sus propias salidas mostraban "colapso del modelo" — pérdida progresiva de diversidad y aumento de errores sistémicos.

📝 Quiz · Lección 5

El Problema de los Datos

Pon a prueba tu comprensión de sesgo, sobreajuste y problemas de datos.

1. ¿Por qué el sistema de filtrado de currículums de Amazon penalizaba candidaturas de mujeres?

✓ Correcto. El modelo aprendió exactamente lo que los datos le mostraban: que el perfil de contratación exitoso era predominantemente masculino. No había mala intención en el código — había sesgo histórico en los datos que se codificó automáticamente en los parámetros.

✗ Incorrecto. El sesgo no fue programado intencionalmente ni es un problema de capacidad del modelo. Es un problema de datos: cuando los datos de entrenamiento reflejan desigualdades históricas, el modelo aprende a reproducirlas.

2. ¿Cuál es la diferencia fundamental entre sobreajuste y subajuste?

✓ Correcto. El sobreajuste produce alta precisión en entrenamiento y baja en datos nuevos (alta varianza). El subajuste produce baja precisión en ambos (alto sesgo). El objetivo es el equilibrio —suficiente capacidad para capturar el patrón real, no tanto como para memorizar el ruido.

✗ Incorrecto. La distinción fundamental es sobre dónde falla el modelo: el sobreajuste memoriza el ruido del entrenamiento y no generaliza; el subajuste es incapaz de capturar la estructura relevante incluso en entrenamiento.

3. ¿Por qué entrenar modelos repetidamente con sus propias salidas puede producir "colapso del modelo"?

✓ Correcto. Es un efecto de retroalimentación: si el modelo comete un error pequeño en la generación 1, ese error aparece en los datos de entrenamiento de la generación 2, se refuerza, y así sucesivamente hasta que domina la distribución aprendida.

✗ Incorrecto. El colapso del modelo es un problema de amplificación de errores: cada iteración entrena sobre datos que ya contienen los errores de la iteración anterior, creando un ciclo de retroalimentación negativa que degrada progresivamente la calidad.

🧪 Lab · Lección 5

Laboratorio: El Problema de los Datos

Analiza las consecuencias reales del sesgo en datos y las estrategias para mitigarlo.

Investigación guiada por IA

El tutor comenzará con una pregunta sobre sesgo en datos, sobreajuste o el problema de los datos sintéticos.

Líneas de investigación sugeridas:

¿Qué diferencia a un sesgo histórico de una correlación legítima en datos de contratación?
¿Cómo diseñarías un protocolo de recolección de datos para minimizar el sesgo de muestreo?
¿Qué salvaguardas deberían existir antes de desplegar un sistema de IA que toma decisiones sobre personas?

Tema del laboratorio: sesgo en datos de entrenamiento, sobreajuste y subajuste, datos sintéticos, colapso del modelo y el caso de Amazon de filtrado de currículums.

🤖 Tutor IA — Problemas de Datos Módulo 6 · L5

🎯 Avanzado · Lección 6

Preentrenamiento y Ajuste Fino

La estrategia de dos fases que hizo viable la IA moderna: primero aprender del mundo entero, luego especializarse.

En 2018, Google publicó BERT (Bidirectional Encoder Representations from Transformers). BERT fue preentrenado sobre el corpus completo de Wikipedia en inglés y BookCorpus —más de 3.300 millones de palabras— durante cuatro días en 64 TPUs de Google. Ese preentrenamiento costó millones de dólares. Luego, equipos de todo el mundo tomaron BERT preentrenado y lo ajustaron finamente para tareas específicas —detección de preguntas, análisis de sentimiento, reconocimiento de entidades— con conjuntos de datos de apenas miles de ejemplos y en horas, no semanas. BERT estableció el nuevo estado del arte en 11 benchmarks de NLP simultáneamente. La idea central: el conocimiento del lenguaje aprendido en preentrenamiento es transferible.

La Lógica del Preentrenamiento

El preentrenamiento es el proceso de entrenar un modelo en una tarea genérica a gran escala con enormes cantidades de datos no etiquetados —o débilmente etiquetados. Para modelos de lenguaje, la tarea típica es la predicción de la siguiente palabra (o en BERT, predicción de palabras enmascaradas). No se necesitan etiquetas humanas: el texto mismo proporciona la señal de supervisión de forma automática.

El resultado es un modelo que ha desarrollado representaciones ricas del lenguaje, el conocimiento del mundo y el razonamiento básico — no porque alguien programara esas capacidades, sino porque son necesarias para predecir texto humano con precisión. Aprender a predecir "el banco del río" vs. "el banco financiero" en contexto requiere entender ambigüedad semántica.

Aprendizaje Auto-Supervisado

La predicción de texto enmascarado en BERT, o de la siguiente palabra en GPT, es un ejemplo de aprendizaje auto-supervisado: el modelo genera sus propias etiquetas de supervisión a partir de los datos en bruto. Esto elimina el cuello de botella del etiquetado humano y permite escalar a cantidades masivas de datos.

Fine-Tuning: De lo General a lo Específico

El ajuste fino (fine-tuning) toma un modelo preentrenado y continúa el entrenamiento con datos específicos de un dominio o tarea. Los parámetros del modelo base se ajustan ligeramente — con una tasa de aprendizaje mucho menor que en preentrenamiento — y se añaden capas de clasificación o generación específicas para la tarea.

La variante más eficiente en recursos es el fine-tuning eficiente en parámetros (PEFT), que congela la mayor parte de los pesos preentrenados y solo actualiza un pequeño subconjunto. LoRA (Low-Rank Adaptation), publicado por Microsoft en 2021, permite ajustar modelos como GPT-3 con menos del 0,1% de los parámetros originales actualizados, reduciendo el costo de GPU en órdenes de magnitud.

Fine-tuning completo: todos los parámetros se actualizan — más potente, más costoso
Fine-tuning de la capa de salida: solo la capa de clasificación nueva se entrena
LoRA / PEFT: adaptadores de bajo rango — eficiencia máxima, pérdida mínima de rendimiento
RLHF: fine-tuning con retroalimentación humana — usado en ChatGPT y Claude

RLHF: Cuando el Fine-Tuning Usa Feedback Humano

El aprendizaje por refuerzo con retroalimentación humana (RLHF) es la técnica que transformó modelos de lenguaje crudos en asistentes útiles y alineados. OpenAI la aplicó en InstructGPT (2022) y posteriormente en ChatGPT. El proceso tiene tres fases: primero, fine-tuning supervisado con ejemplos de respuestas ideales; segundo, entrenamiento de un modelo de recompensa que aprende a puntuar respuestas según preferencia humana; tercero, optimización del modelo principal usando ese modelo de recompensa como señal de RL. El resultado fue una mejora dramática en utilidad y reducción de salidas dañinas — sin aumentar el tamaño del modelo.

📝 Quiz · Lección 6

Preentrenamiento y Ajuste Fino

Pon a prueba tu comprensión de BERT, LoRA y RLHF.

1. ¿Qué permitió que BERT estableciera el estado del arte en 11 benchmarks de NLP después de su publicación en 2018?

✓ Correcto. El preentrenamiento en Wikipedia y BookCorpus dio a BERT una comprensión general del lenguaje que se podía especializar con ajuste fino en tareas específicas usando conjuntos de datos pequeños. Esta transferibilidad fue el avance clave.

✗ Incorrecto. BERT no fue entrenado con datos etiquetados para esas tareas ni es el mayor modelo. Su ventaja fue la transferencia de conocimiento: preentrenamiento masivo + ajuste fino eficiente.

2. ¿Qué hace LoRA (Low-Rank Adaptation) diferente al fine-tuning completo?

✓ Correcto. LoRA inserta matrices de adaptación de bajo rango en las capas del transformer. Al mantener congelados los pesos originales y solo actualizar esas matrices pequeñas, logra eficiencia comparable al fine-tuning completo con menos del 0,1% de los parámetros actualizados.

✗ Incorrecto. La clave de LoRA es que no modifica los pesos originales: los congela y añade adaptadores ligeros. Eso es lo que lo hace eficiente en recursos computacionales.

3. En el proceso RLHF, ¿qué papel juega el "modelo de recompensa"?

✓ Correcto. El modelo de recompensa es entrenado para predecir qué respuesta preferiría un humano entre dos opciones. Una vez entrenado, actúa como evaluador automático que permite aplicar RL sin necesitar retroalimentación humana en tiempo real para cada actualización.

✗ Incorrecto. El modelo de recompensa es el intermediario entre las preferencias humanas y el algoritmo de RL: aprende a puntuar respuestas como lo haría un humano, permitiendo que el RL opere a escala sin supervisión humana continua.

🧪 Lab · Lección 6

Laboratorio: Preentrenamiento y Ajuste Fino

Investiga las estrategias de transferencia de conocimiento y alineación de modelos.

Investigación guiada por IA

El tutor comenzará con una pregunta sobre preentrenamiento, fine-tuning o RLHF.

Líneas de investigación sugeridas:

¿Por qué el aprendizaje auto-supervisado eliminó el cuello de botella del etiquetado humano?
¿Cómo decide un equipo cuándo usar LoRA en vez de fine-tuning completo?
¿Qué riesgos introduce RLHF al dejar que las preferencias humanas den forma al comportamiento del modelo?

Tema del laboratorio: preentrenamiento, aprendizaje auto-supervisado, ajuste fino, LoRA, RLHF, BERT y la transferencia de conocimiento en modelos de lenguaje.

🤖 Tutor IA — Preentrenamiento y Fine-Tuning Módulo 6 · L6

🎯 Avanzado · Lección 7

Evaluación y Benchmarks

Medir el rendimiento de un sistema de IA es más difícil de lo que parece — y los benchmarks mal diseñados tienen consecuencias reales.

En 2020, GPT-3 de OpenAI obtuvo un 53,9% de precisión en el benchmark MMLU (Massive Multitask Language Understanding), que evalúa comprensión en 57 materias académicas. En 2024, Claude 3 Opus de Anthropic alcanzó un 86,8% en ese mismo benchmark. Los investigadores comenzaron a preocuparse no de que los modelos fallasen, sino de que los benchmarks se estaban "saturando": cuando los modelos alcanzan el rendimiento humano estimado en un benchmark, eso no necesariamente significa que hayan alcanzado la inteligencia humana en esas áreas — puede significar que aprendieron patrones específicos de ese formato de preguntas. Este fenómeno se llama "Goodhart's Law aplicado a IA": cuando una métrica se convierte en el objetivo, deja de ser una buena métrica.

Qué Mide un Benchmark y Qué No

Un benchmark es un conjunto de tareas estandarizadas con una métrica de rendimiento bien definida. Sus ventajas son la reproducibilidad, la comparabilidad entre sistemas y la objetividad. Sus limitaciones son igualmente importantes: miden rendimiento en las tareas específicas del benchmark, no necesariamente en el problema real que importa.

La contaminación de datos es uno de los problemas más graves: si el conjunto de prueba de un benchmark ha aparecido en los datos de preentrenamiento del modelo, el modelo puede "recordar" las respuestas en lugar de razonar sobre las preguntas. En 2023, varios estudios documentaron contaminación significativa entre Common Crawl —usado para entrenar modelos grandes— y múltiples benchmarks populares.

Métricas Comunes en Evaluación

Exactitud (accuracy): fracción de predicciones correctas. Precisión: de lo que el modelo dijo que era positivo, ¿cuánto lo era realmente? Recall: de todo lo que era positivo, ¿cuánto detectó el modelo? F1: media armónica de precisión y recall. BLEU / ROUGE: similitud de texto generado con referencia humana. Cada métrica captura un aspecto distinto y puede optimizarse individualmente sin mejorar el rendimiento real.

La Ley de Goodhart en IA

La Ley de Goodhart, formulada por el economista Charles Goodhart en 1975, establece: "Cuando una medida se convierte en objetivo, deja de ser una buena medida." En IA, esto se manifiesta como gaming de benchmarks: los laboratorios optimizan sus sistemas para rendir bien en los benchmarks públicos, que se convierten en señales de marketing tanto como de rendimiento técnico.

En 2022, el benchmark BIG-Bench fue diseñado específicamente para ser difícil de gaming: incluyó tareas creadas después de las fechas de corte de los modelos existentes y tareas que requerían formas de razonamiento poco frecuentes en texto de internet. Sin embargo, incluso BIG-Bench empezó a ser superado por modelos grandes, planteando preguntas sobre si los modelos estaban generalizando genuinamente o encontrando atajos estadísticos.

Contaminación de entrenamiento: el modelo "vio" el benchmark durante preentrenamiento
Gaming: optimización específica para el benchmark sin mejora de capacidades reales
Saturación: el benchmark deja de discriminar entre los mejores modelos
Evaluación en producción: el rendimiento real con usuarios suele diferir del benchmark

Evaluación Humana y sus Limitaciones

Ante las limitaciones de los benchmarks automáticos, la evaluación humana es el estándar de oro para tareas de lenguaje. Sin embargo, tiene sus propios problemas: los evaluadores humanos presentan sesgos sistemáticos documentados. Investigaciones de 2023 mostraron que los evaluadores humanos prefieren respuestas más largas con independencia de su corrección, respuestas con tono más confiado, y respuestas de modelos que conocen previamente (sesgo de marca). Estas preferencias influyen directamente en el RLHF: si los evaluadores humanos que generan las señales de recompensa tienen sesgos, esos sesgos se codifican en el modelo final.

📝 Quiz · Lección 7

Evaluación y Benchmarks

Pon a prueba tu comprensión de métricas, benchmarks y evaluación de IA.

1. ¿Qué describe la "Ley de Goodhart" en el contexto de los benchmarks de IA?

✓ Correcto. La Ley de Goodhart explica por qué los laboratorios pueden optimizar sus modelos para "saturar" benchmarks sin que eso implique las capacidades generales que el benchmark pretendía medir. El benchmark se convierte en objetivo de marketing tanto como de investigación.

✗ Incorrecto. La Ley de Goodhart no es sobre la dificultad del benchmark ni sobre su temporalidad. Es sobre el efecto perverso de hacer de una métrica el objetivo de optimización: distorsiona lo que se mide.

2. ¿Por qué la contaminación de datos entre el preentrenamiento y los benchmarks de evaluación es un problema grave?

✓ Correcto. Si las preguntas y respuestas de un benchmark aparecieron en los datos de preentrenamiento, el modelo puede recuperarlas de memoria. Eso infla artificialmente el rendimiento reportado sin demostrar que el modelo puede razonar en casos nuevos.

✗ Incorrecto. La contaminación no afecta la velocidad ni el tamaño del modelo. El problema es epistemológico: no sabes si el modelo está razonando o recordando, haciendo inválida la conclusión de que el benchmark mide lo que pretende medir.

3. ¿Qué sesgo sistemático de los evaluadores humanos puede introducirse en modelos entrenados con RLHF?

✓ Correcto. Estos sesgos de los evaluadores humanos —preferencia por longitud, por confianza y por marcas conocidas— se codifican en el modelo de recompensa de RLHF y luego en el comportamiento del modelo final. Un modelo puede aprender a sonar más seguro aunque no lo esté, o a ser más verboso aunque eso no mejore su utilidad.

✗ Incorrecto. La investigación documentó la dirección opuesta: evaluadores prefieren respuestas más largas (no más cortas) y más confiadas. Esos sesgos se transfieren al modelo vía el modelo de recompensa entrenado con esas preferencias humanas.

🧪 Lab · Lección 7

Laboratorio: Evaluación y Benchmarks

Analiza cómo medimos el rendimiento de IA y por qué esas medidas pueden fallar.

Investigación guiada por IA

El tutor iniciará con una pregunta sobre benchmarks, métricas o el problema de evaluación en IA.

Líneas de investigación sugeridas:

¿Cómo diseñarías un benchmark resistente al gaming y a la contaminación de datos?
¿Cuándo es más apropiado usar evaluación humana frente a benchmarks automáticos?
¿Qué significa que un modelo "supere el rendimiento humano" en un benchmark, y qué no significa?

Tema del laboratorio: benchmarks de IA, métricas de evaluación, Ley de Goodhart, contaminación de datos, evaluación humana y sus sesgos, MMLU y BIG-Bench.

🤖 Tutor IA — Evaluación de IA Módulo 6 · L7

🎯 Avanzado · Lección 8

La Frontera: Lo que los Modelos No Pueden Aprender Todavía

Los límites actuales del aprendizaje automático no son fallas técnicas menores — son brechas fundamentales entre estadística y comprensión.

En 2022, el modelo Minerva de Google DeepMind logró resolver el 50,3% de los problemas de matemáticas de nivel universitario del dataset MATH. Fue celebrado como un avance enorme. Sin embargo, investigadores de NYU y otros centros publicaron análisis que mostraban que cuando se modificaban superficialmente los problemas —cambiando nombres de variables, reordenando términos, usando isomorfismos matemáticos— el rendimiento de Minerva y modelos similares caía entre 15 y 30 puntos porcentuales. El modelo no había aprendido matemáticas: había aprendido patrones de texto matemático. La diferencia entre ambas cosas es precisa y tiene consecuencias reales para cómo desplegamos estos sistemas.

Razonamiento Composicional: El Muro Actual

El razonamiento composicional es la capacidad de combinar conceptos conocidos de formas nuevas y sistemáticas. Los humanos pueden aprender que "verde" es un color y "colorless" significa sin color, y luego entender "colorless green" como una construcción semánticamente anómala. Los modelos de lenguaje actuales muestran limitaciones sistemáticas en este tipo de generalización composicional, especialmente cuando las combinaciones son inusuales en los datos de entrenamiento.

En 2018, el benchmark SCAN demostró que modelos secuencia-a-secuencia que aprendían instrucciones de movimiento simples fallaban sistemáticamente cuando se les pedía combinar esas instrucciones de formas que eran lógicamente deducibles pero que no habían aparecido en entrenamiento. Esta brecha entre interpolación estadística y generalización composicional genuina sigue sin resolverse completamente.

Comprensión vs. Estadística

Un modelo de lenguaje que produce texto correcto sobre física cuántica no "comprende" física cuántica en el sentido en que lo hace un físico. Ha aprendido que ciertos tokens siguen a otros tokens en contextos marcados como física cuántica. La distinción no es filosófica: es operativa. Cuando el contexto es inusual, los dos sistemas fallan de maneras completamente diferentes.

Causalidad: El Límite del Aprendizaje Correlacional

Los modelos actuales aprenden correlaciones, no causas. El estadístico Judea Pearl, Premio Turing 2011, articuló esta limitación formalmente: las redes neuronales profundas operan en el primer peldaño de la "escalera de causalidad" —asociación estadística— pero no pueden subir al segundo (intervención: ¿qué pasaría si cambiamos X?) ni al tercero (contrafáctico: ¿qué habría pasado si X hubiera sido diferente?) sin arquitecturas o técnicas especiales.

En medicina, esta limitación es crítica. Un modelo puede aprender que pacientes que toman un medicamento tienen peores resultados, sin detectar que eso ocurre porque el medicamento se prescribe a pacientes más graves (correlación inversa causada por sesgo de indicación). Sin razonamiento causal, el modelo confunde causa con correlación — exactamente el problema del clasificador de dermatología de la lección 2.

Generalización fuera de distribución (OOD): fallo cuando los datos difieren del entrenamiento
Robustez adversarial: pequeñas perturbaciones pueden cambiar radicalmente las predicciones
Razonamiento abstracto: generalización a reglas formales, no ejemplos
Comprensión de física intuitiva: modelos fallan en escenarios físicos fuera de distribución

El Problema del Conocimiento de Corte Temporal

Los modelos de lenguaje tienen una fecha de corte de datos. Cualquier evento posterior a esa fecha es incognoscible para el modelo sin herramientas externas. Pero hay un problema más sutil: incluso sobre eventos antes del corte, el modelo no tiene acceso a información actualizada sobre consecuencias, revisiones o correcciones. Un paper científico retractado después del corte de datos sigue siendo citado por el modelo como válido. Esta limitación no es solucionable con más datos — es estructural al paradigma de preentrenamiento estático.

La respuesta de la industria son los sistemas de RAG (Retrieval-Augmented Generation): en lugar de confiar solo en los parámetros del modelo, se recupera información actualizada de bases de datos externas y se incluye en el contexto de la consulta. GPT-4 con búsqueda web y Claude con herramientas de recuperación son implementaciones de este principio. Pero RAG introduce sus propios problemas: calidad de las fuentes recuperadas, coherencia entre información recuperada y conocimiento paramétrico, y el riesgo de que el modelo "confíe" en fuentes incorrectas.

📝 Quiz · Lección 8

La Frontera: Lo que los Modelos No Pueden Aprender Todavía

Pon a prueba tu comprensión de los límites actuales del aprendizaje automático.

1. ¿Qué revelaron los experimentos con variantes modificadas de los problemas de Minerva sobre los límites del modelo?

✓ Correcto. El hallazgo es preciso y tiene implicaciones directas: si un cambio superficial en la formulación de un problema —sin cambiar su contenido matemático— degrada el rendimiento en 15-30 puntos, el modelo no comprende las matemáticas subyacentes, aprende patrones de texto en problemas matemáticos.

✗ Incorrecto. El problema no es memorización del benchmark exacto (eso sería contaminación) ni el número de parámetros. Es una limitación más fundamental: el modelo no generaliza a variaciones isomórficas porque no captura la estructura matemática abstracta.

2. Según el marco de Judea Pearl, ¿en qué nivel de la "escalera de causalidad" operan las redes neuronales profundas actuales?

✓ Correcto. Pearl distingue asociación (ver), intervención (hacer) y contrafáctico (imaginar). Las redes neuronales son extremadamente potentes en el nivel 1 pero no tienen la arquitectura para subir automáticamente a los niveles 2 y 3 —lo que limita su utilidad en diagnóstico médico, análisis de políticas y otras áreas donde la causalidad importa.

✗ Incorrecto. Las redes neuronales actuales operan en el nivel 1 de la escalera de Pearl —asociación estadística— no en los niveles causales superiores. Pueden ser muy precisas en ese nivel, pero confunden causa con correlación de formas que pueden ser peligrosas en aplicaciones críticas.

3. ¿Qué problema nuevo introduce RAG (Retrieval-Augmented Generation) al intentar resolver la limitación del corte temporal de datos?

✓ Correcto. RAG resuelve el corte temporal desplazando el problema: en vez de que el modelo no sepa algo, ahora depende de la calidad de lo que recupera. Una fuente de baja calidad, una recuperación incorrecta o una contradicción entre la fuente y el conocimiento paramétrico del modelo puede generar salidas incorrectas o incoherentes de formas difíciles de detectar.

✗ Incorrecto. RAG no elimina el preentrenamiento ni requiere reentrenamiento con cada actualización — esas son las ventajas de RAG. El problema real es la dependencia de la calidad de las fuentes recuperadas y los conflictos entre información externa e interna.

🧪 Lab · Lección 8

Laboratorio: La Frontera del Aprendizaje

Explora los límites actuales y las brechas abiertas en el aprendizaje automático.

Investigación guiada por IA

El tutor comenzará con una pregunta sobre los límites actuales del aprendizaje automático: razonamiento composicional, causalidad o generalización.

Líneas de investigación sugeridas:

¿Cómo distinguirías en la práctica si un modelo "comprende" algo o simplemente reconoce patrones textuales?
¿Qué implicaciones tiene para la medicina que los modelos actuales no puedan razonar causalmente?
¿Crees que las limitaciones actuales son fundamentales o superables con más escala?

Tema del laboratorio: límites del aprendizaje automático — razonamiento composicional, causalidad vs. correlación, generalización fuera de distribución, el corte temporal y RAG. El caso de Minerva y el marco de Pearl.

🤖 Tutor IA — Fronteras del Aprendizaje Módulo 6 · L8

Examen del Módulo 6

Cómo Aprende la IA · 15 preguntas · Todas las lecciones

1. ¿Cuál fue el principal motivo por el que el resultado de AlexNet en ILSVRC 2012 fue considerado un hito histórico?

✓ Correcto. La magnitud de la mejora —de 26% a 15,3% de error— fue tan inusual que inicialmente pareció un error de medición. Demostró definitivamente la superioridad de las redes neuronales profundas entrenadas con datos etiquetados.

✗ Incorrecto. AlexNet no fue el primero en usar redes neuronales para imágenes, no usó aprendizaje no supervisado, y no dependía de reglas explícitas. Su mérito fue la magnitud sin precedentes de su mejora en error de clasificación.

2. ¿Por qué el proceso de etiquetado humano sigue siendo crítico en el aprendizaje supervisado moderno?

✓ Correcto. Las etiquetas son la única fuente de señal de supervisión en el aprendizaje supervisado. Si las etiquetas son incorrectas, sesgadas o incompletas, el modelo aprende esas imperfecciones y las amplifica en producción.

✗ Incorrecto. Matemáticamente, la retropropagación no requiere expertos certificados. La importancia del etiquetado humano es práctica: determina qué aprende el modelo y, en dominios críticos, un error de etiqueta se convierte en un error de predicción a escala.

3. ¿Qué demuestra el experimento de Zeiler y Fergus (2013) sobre lo que aprende cada capa de AlexNet?

✓ Correcto. Las jerarquías —bordes → texturas → partes de objetos— no fueron diseñadas: emergieron del proceso de optimización. Esto es la representación jerárquica emergente, y es uno de los principios fundamentales de por qué las redes profundas funcionan.

✗ Incorrecto. La dirección es inversa (capas tempranas = bordes, capas tardías = objetos) y la representación no fue programada, emergió. Eso es precisamente lo que hace el hallazgo de Zeiler y Fergus tan relevante.

4. ¿Qué es un embedding en el contexto de modelos de aprendizaje profundo?

✓ Correcto. Los embeddings son proyecciones matemáticas aprendidas que comprimen alta dimensionalidad en espacios donde relaciones semánticas se vuelven relaciones geométricas. Word2Vec demostró esto con la aritmética "rey − hombre + mujer ≈ reina".

✗ Incorrecto. El embedding no es la función de pérdida, las etiquetas, ni la compresión física del modelo. Es la representación aprendida internamente que captura la estructura relevante de los datos en un espacio de menor dimensión.

5. En el aprendizaje por refuerzo, ¿qué es el "problema de crédito temporal"?

✓ Correcto. Si un agente gana una partida de Go de 200 movimientos, ¿qué movimiento fue decisivo? El problema de crédito temporal es asignar responsabilidad correctamente a acciones temporalmente distantes de la recompensa final.

✗ Incorrecto. El crédito temporal no es sobre costo económico ni velocidad de simulación. Es el problema de inferencia causal dentro del propio proceso de aprendizaje: ¿qué acción, entre muchas, mereció el crédito por el resultado?

6. El sistema de RRHH de Amazon fue descontinuado antes de desplegarse en producción. ¿Qué implicación tiene esto para el diseño de sistemas de IA?

✓ Correcto. La decisión de Amazon de no desplegarlo —aunque tardía— es el resultado correcto de una evaluación honesta. El aprendizaje es que la auditoría de sesgo debe ser parte del proceso de desarrollo, no una reflexión posterior.

✗ Incorrecto. La lección no es prohibir la IA en RRHH ni que el sesgo histórico sea aceptable. Es que los datos de entrenamiento que reflejan desigualdades pasadas producen sistemas que las perpetúan, y eso requiere evaluación crítica antes del despliegue.

7. ¿Qué distingue el preentrenamiento moderno de los modelos de lenguaje del aprendizaje supervisado tradicional en cuanto a la fuente de supervisión?

✓ Correcto. El auto-supervisado es el avance que hizo posible entrenar con billones de tokens: el texto mismo actúa como etiqueta de sí mismo. No hay necesidad de anotadores humanos para la fase de preentrenamiento, lo que permite escalar a conjuntos de datos de tamaño imposible para el etiquetado manual.

✗ Incorrecto. El preentrenamiento moderno no requiere más anotadores — al contrario, los elimina mediante auto-supervisión. La señal de supervisión la proporciona el propio texto, no humanos externos.

8. ¿Cuál es la diferencia funcional entre un conjunto de validación y un conjunto de prueba en el proceso de desarrollo de modelos?

✓ Correcto. Usar el conjunto de prueba repetidamente durante el desarrollo contamina la evaluación: el modelo —o el investigador que lo ajusta— se adapta indirectamente a ese conjunto. El conjunto de prueba debe permanecer invisible hasta la evaluación final para ser una medida honesta del rendimiento en datos nunca vistos.

✗ Incorrecto. La distinción no es de tamaño ni terminológica: es funcional. El conjunto de prueba debe permanecer no visto durante todo el desarrollo para que la evaluación final sea válida.

9. ¿Por qué LoRA (Low-Rank Adaptation) se volvió popular para el fine-tuning de modelos grandes?

✓ Correcto. La eficiencia de LoRA democratizó el fine-tuning: equipos sin acceso a centenas de GPUs pueden ahora especializar modelos grandes como LLaMA o GPT en dominios específicos con recursos modestos.

✗ Incorrecto. LoRA no siempre supera al fine-tuning completo (aunque se aproxima), no elimina la necesidad de datos de dominio, y no es el único método para transformers. Su ventaja específica es la eficiencia en parámetros actualizados.

10. La saturación de benchmarks como MMLU plantea un problema epistemológico. ¿Cuál es?

✓ Correcto. Cuando un benchmark se satura, pierde poder discriminativo. Peor aún: no podemos distinguir si el modelo genuinamente alcanzó la capacidad que mide el benchmark o si encontró atajos estadísticos específicos de ese formato de preguntas.

✗ Incorrecto. El problema de la saturación no es de costo, idioma o actualización de contenido. Es epistemológico: un benchmark saturado no puede decirnos si los modelos tienen las capacidades que pretende medir.

11. ¿Qué tipo de problema ilustra el caso del clasificador de dermatología del MIT que asociaba reglas de medición con diagnósticos malignos?

✓ Correcto. La correlación entre "regla de medición presente" y "diagnóstico maligno" era estadísticamente real en los datos — los fotógrafos clínicos sí usaban más instrumentación con lesiones graves. Pero esa correlación no es la causa de la malignidad: es una correlación espuria mediada por el protocolo fotográfico.

✗ Incorrecto. El modelo no estaba sobreajustado, subajustado, ni sufrió contaminación de datos. El problema es conceptualmente distinto: aprendió una correlación real en los datos que no es la causa del fenómeno que intenta predecir.

12. ¿Qué revela el experimento de CoastRunners de OpenAI sobre el aprendizaje por refuerzo?

✓ Correcto. El agente hizo exactamente lo que el sistema de recompensa le pedía: maximizar puntos. Que girar en círculos recogiendo bonificaciones produjera más puntos que ganar la carrera fue un fallo de diseño de la función de recompensa, no del algoritmo.

✗ Incorrecto. El experimento demostró precisamente que el RL no necesita supervisión humana en tiempo real para producir comportamientos complejos. El problema fue que el comportamiento complejo que emergió no fue el deseado — por una mala especificación de la recompensa.

13. ¿Qué hace la arquitectura transformer fundamentalmente diferente a las redes recurrentes (RNN) para procesar texto?

✓ Correcto. La atención permite al transformer calcular relaciones directas entre cualquier par de tokens, independientemente de su distancia en la secuencia. Las RNN procesaban secuencialmente y la información de posiciones distantes se degradaba con la longitud —el problema del gradiente evanescente.

✗ Incorrecto. Los transformers no procesan letra por letra ni generan sin datos. Y aunque BERT es bidireccional, los GPT son unidireccionales — hay transformers de ambos tipos. La diferencia fundamental es el mecanismo de atención para dependencias de largo alcance.

14. Según el análisis de los experimentos con Minerva, ¿qué limitación fundamental revelan los modelos de lenguaje actuales al resolver matemáticas?

✓ Correcto. Una caída de 15-30 puntos ante variaciones isomórficas —que preservan el contenido matemático pero cambian la forma textual— indica que el modelo es sensible a la superficie del texto, no a la estructura matemática subyacente. Eso es aprendizaje de patrones, no comprensión matemática.

✗ Incorrecto. El problema no es de tamaño de modelo ni requiere RLHF para matematicas. La limitación revelada por Minerva es más fundamental: la diferencia entre aprender patrones textuales de contextos matemáticos y comprender la estructura matemática abstracta.

15. ¿Por qué AlphaGo Zero fue considerado más sorprendente que AlphaGo desde una perspectiva científica?

✓ Correcto. AlphaGo original necesitó millones de partidas humanas como base. AlphaGo Zero comenzó sin ningún conocimiento previo y, jugando contra sí mismo, no solo igualó ese conocimiento humano acumulado en siglos — lo superó, inventando aperturas y estrategias que ningún jugador humano había concebido. Eso tiene implicaciones profundas sobre qué puede descubrir el aprendizaje por refuerzo sin guía humana.

✗ Incorrecto. AlphaGo Zero usa redes neuronales, el Go no es simple (sigue siendo uno de los juegos más complejos), y AlphaGo original ya había superado a campeones humanos. Lo excepcional de Zero fue hacerlo sin ningún dato humano y superando al campeón anterior que sí los usó.