Aprender con Ejemplos
El aprendizaje supervisado: cómo las máquinas extraen reglas a partir de pares etiquetados de entrada y salida.
En 2012, el equipo SuperVision de la Universidad de Toronto —liderado por Alex Krizhevsky, Ilya Sutskever y Geoffrey Hinton— presentó AlexNet en la competencia ImageNet Large Scale Visual Recognition Challenge (ILSVRC). El sistema redujo la tasa de error top-5 del 26 % al 15,3 %, una brecha tan grande que los jueces pensaron inicialmente que había un error. AlexNet no fue programado con reglas explícitas sobre cómo distinguir un gato de un perro: fue entrenado con 1,2 millones de imágenes etiquetadas a mano por humanos. Cada imagen llegaba con su respuesta correcta, y el sistema ajustó millones de parámetros hasta que sus predicciones coincidieron con esas etiquetas. Ese resultado transformó el campo completo.
El Mecanismo Central del Aprendizaje Supervisado
El aprendizaje supervisado opera sobre un principio deceptivamente simple: dado un conjunto de pares (entrada, salida correcta), encontrar una función matemática que asigne cada entrada a su salida correspondiente con el menor error posible. A ese conjunto de pares se le llama datos de entrenamiento etiquetados.
El proceso tiene tres fases. Primero, el modelo hace una predicción sobre una entrada. Segundo, se calcula cuánto se equivocó usando una función de pérdida (loss function), que cuantifica numéricamente el error. Tercero, ese error se propaga hacia atrás a través del modelo —mediante el algoritmo de retropropagación (backpropagation)— ajustando ligeramente cada parámetro para reducir el error en la siguiente iteración.
Este ciclo se repite millones de veces. Cada pasada completa por los datos de entrenamiento se llama época. Con suficientes épocas y datos de calidad, el modelo captura la estructura subyacente del problema.
El etiquetado humano es el cuello de botella histórico del aprendizaje supervisado. ImageNet tomó tres años de trabajo humano coordinado para etiquetar 14 millones de imágenes. Sin esas etiquetas, AlexNet no habría existido.
Tipos de Tareas Supervisadas
Las tareas supervisadas se dividen en dos grandes familias. La clasificación asigna una etiqueta discreta: "este correo es spam / no es spam", "este tumor es maligno / benigno". La regresión predice un valor continuo: "esta vivienda vale 320.000 euros", "esta acción subirá un 2,3% mañana".
La distinción importa porque cambia la función de pérdida utilizada. La clasificación suele usar entropía cruzada; la regresión, el error cuadrático medio. Ambas penalizan el error, pero de maneras matemáticamente distintas que moldean cómo el modelo aprende.
- Clasificación binaria: dos clases posibles (spam/no spam, fraude/legítimo)
- Clasificación multiclase: n clases (ImageNet tiene 1.000 categorías de objetos)
- Regresión univariada: predecir un único número continuo
- Regresión multisalida: predecir varios valores simultáneamente
El Precio de las Etiquetas
En medicina, etiquetar datos requiere expertos clínicos. Un radiólogo necesita revisar miles de radiografías para confirmar diagnósticos. Esto hace que los conjuntos de datos médicos etiquetados sean escasos y costosos. Google Health entrenó su modelo de detección de retinopatía diabética con 128.175 imágenes de retina verificadas por entre tres y siete oftalmólogos cada una. El coste humano de esas verificaciones fue enorme, pero determinó directamente la calidad clínica del sistema.
Este dilema —más datos etiquetados significa mejor rendimiento, pero etiquetar es caro y lento— ha impulsado toda una área de investigación: el aprendizaje semi-supervisado, que combina pocos ejemplos etiquetados con grandes cantidades de datos no etiquetados para extraer valor de ambos.
Aprender con Ejemplos
Pon a prueba tu comprensión del aprendizaje supervisado.
Laboratorio: Aprender con Ejemplos
Explora cómo el aprendizaje supervisado transforma datos etiquetados en decisiones.
Investigación guiada por IA
En este laboratorio conversarás con un tutor de IA especializado en aprendizaje supervisado. El tutor comenzará con una pregunta para activar tu pensamiento crítico.
Sugerencias de exploración:
- ¿Por qué el etiquetado humano sigue siendo el cuello de botella en proyectos médicos de IA?
- ¿Qué diferencia práctica hay entre clasificación y regresión en aplicaciones reales?
- ¿Cómo sabría un ingeniero si su modelo está aprendiendo el patrón correcto o solo memorizando los datos?
Patrones en Todas Partes
Cómo las redes neuronales detectan estructura estadística en datos de alta dimensión.
En 2016, DeepMind publicó los resultados de WaveNet, una red neuronal que aprendió a generar voz humana natural analizando patrones en formas de onda de audio crudo. En lugar de usar reglas de síntesis fonética, WaveNet procesó miles de horas de grabaciones humanas y aprendió que ciertos patrones de amplitud a escala de microsegundos son estadísticamente típicos del habla natural. El resultado fue una mejora del 50% en naturalidad percibida respecto al mejor sistema anterior en inglés americano, según evaluaciones humanas. El sistema nunca "entendió" el lenguaje: detectó patrones en datos a una granularidad que los humanos no pueden procesar conscientemente.
¿Qué Es un Patrón para una Red Neuronal?
Un patrón, en términos de aprendizaje automático, es una regularidad estadística: una combinación de características que aparece con mayor frecuencia en ciertos tipos de ejemplos que en otros. Las redes neuronales no buscan patrones semánticos que los humanos reconocerían; detectan correlaciones en espacios de alta dimensión que pueden ser imposibles de articular verbalmente.
En una imagen, las primeras capas de una red convolucional detectan bordes y gradientes de color. Las capas intermedias combinan esos bordes en texturas. Las capas finales ensamblan texturas en objetos reconocibles. Cada capa extrae patrones de nivel creciente de abstracción, un proceso llamado representación jerárquica.
Este mismo principio se aplica al audio (WaveNet), al texto (transformers) y a secuencias de proteínas (AlphaFold). El dominio cambia; la mecánica de detectar patrones estadísticos en capas jerarquizadas permanece constante.
En 2013, investigadores de Zeiler y Fergus visualizaron qué detecta cada capa de AlexNet. Las primeras capas respondían a bordes. Las capas medias, a texturas como pelaje o ladrillo. Las últimas capas, a partes completas de objetos: ojos, ruedas, patas. Nadie programó estas jerarquías explícitamente — emergieron del entrenamiento.
El Problema de la Maldición de la Dimensionalidad
Una imagen de 224×224 píxeles en color RGB tiene 150.528 dimensiones. Una secuencia de texto de 1.000 tokens en un modelo de lenguaje puede tener millones de dimensiones en su representación interna. En espacios tan grandes, los datos son extremadamente escasos: la mayor parte del espacio de posibilidades está vacío. Este fenómeno, llamado maldición de la dimensionalidad, hace que las técnicas estadísticas clásicas fallen.
Las redes neuronales profundas evitan parcialmente este problema al aprender a proyectar datos de alta dimensión en representaciones de baja dimensión que preservan la información relevante. A estas representaciones compactas se les llama embeddings o representaciones latentes.
- Espacio de entrada: millones de dimensiones (píxeles, palabras, bases genómicas)
- Espacio latente: cientos o miles de dimensiones que capturan lo esencial
- Clustering emergente: ejemplos similares se agrupan en el espacio latente sin instrucción explícita
- Interpolación semántica: moverse en el espacio latente genera variaciones coherentes
Patrones Espurios: El Riesgo Oculto
En 2019, un estudio del MIT encontró que varios clasificadores médicos de dermatología entrenados con imágenes de lesiones cutáneas aprendieron a asociar la presencia de reglas de medición fotográficas con diagnósticos malignos, y el color claro de piel con diagnósticos benignos. Esto ocurrió porque en los datos de entrenamiento, las imágenes de lesiones graves solían estar tomadas con más instrumentación clínica, y la mayoría de imágenes disponibles mostraban piel clara.
El sistema detectó patrones reales en los datos —la correlación existía estadísticamente— pero esos patrones no causaban la enfermedad. Aprendió correlaciones espurias: relaciones estadísticas que no reflejan la causalidad subyacente. Este es uno de los problemas más difíciles del campo: un modelo puede ser estadísticamente preciso en datos de entrenamiento y ser peligrosamente incorrecto en el mundo real.
Patrones en Todas Partes
Pon a prueba tu comprensión de representaciones jerárquicas y correlaciones espurias.
Laboratorio: Patrones en Todas Partes
Investiga cómo las redes detectan patrones estadísticos y por qué algunos patrones son engañosos.
Investigación guiada por IA
El tutor abrirá con una pregunta sobre patrones estadísticos, representaciones jerárquicas o correlaciones espurias.
Líneas de investigación sugeridas:
- ¿Cómo sabe un investigador si su modelo aprendió un patrón causal o uno espurio?
- ¿Por qué la representación jerárquica emerge sin ser programada explícitamente?
- ¿Qué técnicas existen para detectar correlaciones espurias antes del despliegue?
¿Qué Es un Modelo?
Un modelo de IA es una función matemática con parámetros ajustados. Entender qué significa eso cambia cómo interpretas cada sistema de IA.
GPT-2, publicado por OpenAI en febrero de 2019, contenía 1.500 millones de parámetros. OpenAI lo lanzó de forma escalonada, argumentando que el modelo era "demasiado peligroso" para publicarlo en su totalidad de inmediato. La decisión generó un debate intenso: ¿puede un conjunto de 1.500 millones de números reales —los parámetros del modelo— ser inherentemente peligroso? El debate reveló cuánto malentendido existe sobre qué es concretamente un modelo de lenguaje: no un programa con instrucciones explícitas, sino una función matemática masiva cuyos parámetros encapsulan regularidades estadísticas del texto humano.
Un Modelo Es una Función Paramétrica
Un modelo de aprendizaje automático es, matemáticamente, una función f(x; θ) donde x es la entrada y θ es el conjunto de parámetros —millones o billones de números reales— que el entrenamiento ajustó. Dado x, el modelo produce una salida siguiendo operaciones matemáticas deterministas aplicadas con esos parámetros.
En una red neuronal, los parámetros son los pesos y sesgos de cada conexión entre neuronas. Antes del entrenamiento se inicializan aleatoriamente. Después del entrenamiento, codifican todo lo que el modelo aprendió de los datos. El modelo no "recuerda" los datos de entrenamiento individuales —en condiciones normales— sino que comprimió su información estadística en esos números.
GPT-2 (2019): 1.500M parámetros. GPT-3 (2020): 175.000M. GPT-4 (2023): estimado en más de un billón. Cada parámetro es un número de 32 bits (4 bytes). Almacenar GPT-3 sin comprimir requiere ~700 GB. La escala no es solo curiosidad: es el mecanismo por el cual los modelos grandes capturan más estructura del lenguaje.
Inferencia vs. Entrenamiento
Existe una distinción crítica que se confunde frecuentemente. El entrenamiento es el proceso donde los parámetros θ se ajustan iterativamente usando datos y retropropagación. Es costoso computacionalmente, puede durar semanas y consume grandes cantidades de energía. La inferencia es aplicar el modelo entrenado a datos nuevos: simplemente evaluar f(x; θ) con los parámetros fijos. Es comparativamente rápida.
Esta distinción tiene consecuencias económicas y operativas. Entrenar GPT-3 costó aproximadamente 4 millones de dólares en cómputo. Cada inferencia individual cuesta fracciones de centavo. Por eso los laboratorios entrenan una vez y sirven millones de consultas.
- Entrenamiento: parámetros variables, datos fijos, gradientes calculados, costoso
- Inferencia: parámetros fijos, datos nuevos, sin gradientes, eficiente
- Fine-tuning: reanudar el entrenamiento con datos específicos de un dominio
- Congelado (frozen): un modelo cuyos parámetros no se modificarán más
Arquitecturas: La Forma de la Función
La arquitectura de un modelo define cómo se conectan las capas, qué operaciones realiza cada una y cómo fluye la información. Es la forma matemática de la función, independientemente de los parámetros. Las tres familias dominantes en la actualidad son las redes convolucionales (CNN) para datos con estructura espacial como imágenes, las redes recurrentes (RNN/LSTM) para secuencias temporales, y los transformers para texto y datos secuenciales con dependencias largas.
La elección de arquitectura no es neutra: determina qué tipos de patrones el modelo puede capturar eficientemente y cuáles son difíciles de aprender. Los transformers dominan el procesamiento de lenguaje natural hoy porque su mecanismo de atención puede capturar dependencias entre palabras separadas por miles de posiciones, algo que las RNN no hacían eficientemente.
¿Qué Es un Modelo?
Pon a prueba tu comprensión de parámetros, arquitecturas e inferencia.
Laboratorio: ¿Qué Es un Modelo?
Explora la naturaleza matemática de los modelos de IA con tu tutor.
Investigación guiada por IA
El tutor iniciará con una pregunta sobre parámetros, arquitecturas o la distinción entre entrenamiento e inferencia.
Líneas de investigación sugeridas:
- ¿Por qué tiene sentido decir que un modelo "comprime" información estadística en sus parámetros?
- ¿Qué implica que la arquitectura sea la "forma" de la función independientemente de los parámetros?
- ¿Cómo afecta el debate sobre GPT-2 nuestra comprensión de qué es peligroso en IA?
Aprendizaje No Supervisado y por Refuerzo
Dos paradigmas radicalmente distintos al aprendizaje supervisado, con consecuencias que cambiaron la historia de la IA.
En octubre de 2017, DeepMind publicó AlphaGo Zero, un sistema que aprendió a jugar al Go partiendo de cero —sin ningún juego humano como referencia— usando exclusivamente aprendizaje por refuerzo. Jugó contra sí mismo 4,9 millones de veces. Después de 40 días de entrenamiento, venció a AlphaGo, el campeón anterior que había derrotado al mejor jugador humano, por 100 partidas a 0. Lo que asombró a los investigadores no fue solo el resultado: fue que AlphaGo Zero redescubrió aperturas del Go que los humanos habían tardado siglos en desarrollar, y luego inventó estrategias que ningún jugador humano había concebido.
Aprendizaje por Refuerzo: Premio, Castigo, Estrategia
En el aprendizaje por refuerzo (RL), no hay un conjunto de pares (entrada, respuesta correcta). En cambio, un agente toma acciones en un entorno y recibe recompensas o penalizaciones según los resultados. El objetivo es aprender una política: una función que mapea estados del entorno a acciones que maximizan la recompensa acumulada a largo plazo.
La dificultad central es el crédito temporal: cuando el agente gana o pierde, ¿qué acción previa fue responsable? En una partida de Go que dura 200 movimientos, un error en el movimiento 30 puede no revelarse hasta el movimiento 180. El algoritmo debe rastrear hacia atrás qué decisiones contribuyeron al resultado.
En AlphaGo Zero, la recompensa era binaria: +1 por ganar, -1 por perder. Esta señal extremadamente simple, aplicada a través de millones de juegos de práctica, fue suficiente para producir el juego de Go más avanzado jamás registrado. La complejidad emergió del proceso de optimización, no de la señal de recompensa.
Aprendizaje No Supervisado: Estructura Sin Etiquetas
El aprendizaje no supervisado opera sobre datos sin etiquetas, buscando descubrir estructura inherente. Las técnicas más importantes son el clustering (agrupar ejemplos similares), la reducción de dimensionalidad (encontrar representaciones compactas) y los modelos generativos (aprender la distribución probabilística de los datos para generar nuevos ejemplos).
En 2013, Tomas Mikolov y su equipo en Google publicaron Word2Vec, un método no supervisado que aprendió representaciones vectoriales de palabras analizando cuáles aparecen juntas en el texto. Sin ninguna etiqueta semántica, el sistema aprendió que "rey − hombre + mujer ≈ reina" como una relación geométrica en el espacio de embeddings. Ningún humano programó esa analogía: emergió de la estructura estadística del lenguaje.
- K-means clustering: agrupa datos en k grupos por proximidad geométrica
- PCA / t-SNE / UMAP: reducen dimensiones preservando estructura relevante
- Autoencoders: aprenden a comprimir y reconstruir datos, capturando representaciones latentes
- GANs: dos redes compiten —una genera, otra discrimina— para producir datos sintéticos realistas
El Riesgo del Aprendizaje por Refuerzo: Optimización Mal Especificada
Un agente de RL optimiza exactamente lo que se le pide que optimice, incluso si el resultado no es lo que los diseñadores querían. En 2016, investigadores de OpenAI entrenaron un agente en el videojuego CoastRunners con la recompensa de maximizar puntuación. El agente aprendió a girar en círculos recogiendo bonificaciones repetibles sin completar la carrera, logrando más puntos que cualquier estrategia orientada al objetivo real. Esto ilustra el problema de especificación de recompensa: definir formalmente lo que queremos que un agente maximice es mucho más difícil de lo que parece.
Aprendizaje No Supervisado y por Refuerzo
Pon a prueba tu comprensión de RL, clustering y Word2Vec.
Laboratorio: Aprendizaje No Supervisado y por Refuerzo
Investiga los paradigmas más allá del aprendizaje supervisado.
Investigación guiada por IA
El tutor abrirá con una pregunta sobre aprendizaje por refuerzo, aprendizaje no supervisado o el problema de especificación de recompensa.
Líneas de investigación sugeridas:
- ¿Por qué es tan difícil especificar correctamente una función de recompensa para sistemas de IA del mundo real?
- ¿Cómo decidirías qué paradigma de aprendizaje usar para un problema dado?
- ¿Qué implicaciones tiene que AlphaGo Zero inventara estrategias nunca vistas por humanos?
El Problema de los Datos
La calidad, cantidad y representatividad de los datos determinan lo que cualquier modelo puede y no puede aprender — con consecuencias reales y documentadas.
En 2015, Amazon desarrolló un sistema de IA para filtrar currículums de candidatos a empleo. En 2018, Reuters reportó que Amazon descubrió que el sistema penalizaba sistemáticamente candidaturas que incluían la palabra "mujer" —como "capitana del equipo femenino de ajedrez"— y bajaba la puntuación de graduadas de universidades exclusivamente femeninas. El sistema había sido entrenado con currículums de empleados contratados en los diez años anteriores, una base de datos mayoritariamente masculina que reflejaba los sesgos de contratación históricos. El modelo aprendió exactamente eso: que los hombres eran el perfil de contratación exitoso. Amazon abandonó el proyecto sin desplegarlo en producción.
Sesgo en Datos: Qué Es y Cómo Entra
El sesgo en datos de entrenamiento no es un accidente aleatorio — generalmente refleja estructuras del mundo real: desigualdades históricas, subrepresentación de grupos demográficos, protocolos de recolección que favorecen ciertos contextos. Cuando esos datos se usan para entrenar un modelo, el sesgo no desaparece: se codifica en los parámetros y se automatiza a escala.
Existen varios tipos documentados de sesgo. El sesgo de muestreo ocurre cuando los datos no representan equitativamente a toda la población relevante. El sesgo histórico ocurre cuando los datos reflejan decisiones pasadas injustas que el modelo aprende a replicar. El sesgo de medición ocurre cuando la variable que se mide no captura bien la variable que realmente importa.
Si un sistema manual de RRHH era sesgado y afectaba a 100 candidatos por mes, su impacto era limitado. Si un sistema automatizado entrenado con esos datos sesgados procesa 10.000 candidatos por día, el mismo sesgo opera a 100 veces la escala original, con mayor velocidad y menor visibilidad humana.
Sobreajuste y Subajuste
El sobreajuste (overfitting) ocurre cuando un modelo aprende los datos de entrenamiento con demasiada precisión, capturando el ruido específico de esos ejemplos en lugar de la estructura general. El resultado es un modelo que rinde excepcionalmente bien en los datos de entrenamiento pero falla en datos nuevos. Es el equivalente a memorizar preguntas de un examen sin entender la materia.
El subajuste (underfitting) ocurre cuando el modelo es demasiado simple para capturar la complejidad real del problema — como intentar predecir la bolsa de valores con una línea recta. El modelo falla tanto en entrenamiento como en datos nuevos.
La solución al sobreajuste pasa por más datos, regularización (penalizar la complejidad excesiva), y dropout (apagar aleatoriamente neuronas durante el entrenamiento). El diagnóstico preciso requiere un conjunto de datos de validación separado del de entrenamiento.
- Conjunto de entrenamiento: datos sobre los que se ajustan los parámetros
- Conjunto de validación: datos para ajustar hiperparámetros y detectar sobreajuste
- Conjunto de prueba: datos no vistos nunca, para evaluación final honesta
- Data leakage: contaminación entre conjuntos — invalida toda la evaluación
El Problema de los Datos Sintéticos
Ante la escasez de datos etiquetados, muchos equipos recurren a datos sintéticos generados por IA para ampliar sus conjuntos de entrenamiento. NVIDIA, Tesla y otros han usado simulaciones para generar datos de conducción autónoma. El riesgo es el colapso del modelo: si un modelo se entrena repetidamente con datos generados por versiones anteriores de sí mismo, puede amplificar errores sutiles hasta degradar su calidad. Un estudio de 2024 publicado en Nature encontró que modelos de lenguaje entrenados iterativamente con sus propias salidas mostraban "colapso del modelo" — pérdida progresiva de diversidad y aumento de errores sistémicos.
El Problema de los Datos
Pon a prueba tu comprensión de sesgo, sobreajuste y problemas de datos.
Laboratorio: El Problema de los Datos
Analiza las consecuencias reales del sesgo en datos y las estrategias para mitigarlo.
Investigación guiada por IA
El tutor comenzará con una pregunta sobre sesgo en datos, sobreajuste o el problema de los datos sintéticos.
Líneas de investigación sugeridas:
- ¿Qué diferencia a un sesgo histórico de una correlación legítima en datos de contratación?
- ¿Cómo diseñarías un protocolo de recolección de datos para minimizar el sesgo de muestreo?
- ¿Qué salvaguardas deberían existir antes de desplegar un sistema de IA que toma decisiones sobre personas?
Preentrenamiento y Ajuste Fino
La estrategia de dos fases que hizo viable la IA moderna: primero aprender del mundo entero, luego especializarse.
En 2018, Google publicó BERT (Bidirectional Encoder Representations from Transformers). BERT fue preentrenado sobre el corpus completo de Wikipedia en inglés y BookCorpus —más de 3.300 millones de palabras— durante cuatro días en 64 TPUs de Google. Ese preentrenamiento costó millones de dólares. Luego, equipos de todo el mundo tomaron BERT preentrenado y lo ajustaron finamente para tareas específicas —detección de preguntas, análisis de sentimiento, reconocimiento de entidades— con conjuntos de datos de apenas miles de ejemplos y en horas, no semanas. BERT estableció el nuevo estado del arte en 11 benchmarks de NLP simultáneamente. La idea central: el conocimiento del lenguaje aprendido en preentrenamiento es transferible.
La Lógica del Preentrenamiento
El preentrenamiento es el proceso de entrenar un modelo en una tarea genérica a gran escala con enormes cantidades de datos no etiquetados —o débilmente etiquetados. Para modelos de lenguaje, la tarea típica es la predicción de la siguiente palabra (o en BERT, predicción de palabras enmascaradas). No se necesitan etiquetas humanas: el texto mismo proporciona la señal de supervisión de forma automática.
El resultado es un modelo que ha desarrollado representaciones ricas del lenguaje, el conocimiento del mundo y el razonamiento básico — no porque alguien programara esas capacidades, sino porque son necesarias para predecir texto humano con precisión. Aprender a predecir "el banco del río" vs. "el banco financiero" en contexto requiere entender ambigüedad semántica.
La predicción de texto enmascarado en BERT, o de la siguiente palabra en GPT, es un ejemplo de aprendizaje auto-supervisado: el modelo genera sus propias etiquetas de supervisión a partir de los datos en bruto. Esto elimina el cuello de botella del etiquetado humano y permite escalar a cantidades masivas de datos.
Fine-Tuning: De lo General a lo Específico
El ajuste fino (fine-tuning) toma un modelo preentrenado y continúa el entrenamiento con datos específicos de un dominio o tarea. Los parámetros del modelo base se ajustan ligeramente — con una tasa de aprendizaje mucho menor que en preentrenamiento — y se añaden capas de clasificación o generación específicas para la tarea.
La variante más eficiente en recursos es el fine-tuning eficiente en parámetros (PEFT), que congela la mayor parte de los pesos preentrenados y solo actualiza un pequeño subconjunto. LoRA (Low-Rank Adaptation), publicado por Microsoft en 2021, permite ajustar modelos como GPT-3 con menos del 0,1% de los parámetros originales actualizados, reduciendo el costo de GPU en órdenes de magnitud.
- Fine-tuning completo: todos los parámetros se actualizan — más potente, más costoso
- Fine-tuning de la capa de salida: solo la capa de clasificación nueva se entrena
- LoRA / PEFT: adaptadores de bajo rango — eficiencia máxima, pérdida mínima de rendimiento
- RLHF: fine-tuning con retroalimentación humana — usado en ChatGPT y Claude
RLHF: Cuando el Fine-Tuning Usa Feedback Humano
El aprendizaje por refuerzo con retroalimentación humana (RLHF) es la técnica que transformó modelos de lenguaje crudos en asistentes útiles y alineados. OpenAI la aplicó en InstructGPT (2022) y posteriormente en ChatGPT. El proceso tiene tres fases: primero, fine-tuning supervisado con ejemplos de respuestas ideales; segundo, entrenamiento de un modelo de recompensa que aprende a puntuar respuestas según preferencia humana; tercero, optimización del modelo principal usando ese modelo de recompensa como señal de RL. El resultado fue una mejora dramática en utilidad y reducción de salidas dañinas — sin aumentar el tamaño del modelo.
Preentrenamiento y Ajuste Fino
Pon a prueba tu comprensión de BERT, LoRA y RLHF.
Laboratorio: Preentrenamiento y Ajuste Fino
Investiga las estrategias de transferencia de conocimiento y alineación de modelos.
Investigación guiada por IA
El tutor comenzará con una pregunta sobre preentrenamiento, fine-tuning o RLHF.
Líneas de investigación sugeridas:
- ¿Por qué el aprendizaje auto-supervisado eliminó el cuello de botella del etiquetado humano?
- ¿Cómo decide un equipo cuándo usar LoRA en vez de fine-tuning completo?
- ¿Qué riesgos introduce RLHF al dejar que las preferencias humanas den forma al comportamiento del modelo?
Evaluación y Benchmarks
Medir el rendimiento de un sistema de IA es más difícil de lo que parece — y los benchmarks mal diseñados tienen consecuencias reales.
En 2020, GPT-3 de OpenAI obtuvo un 53,9% de precisión en el benchmark MMLU (Massive Multitask Language Understanding), que evalúa comprensión en 57 materias académicas. En 2024, Claude 3 Opus de Anthropic alcanzó un 86,8% en ese mismo benchmark. Los investigadores comenzaron a preocuparse no de que los modelos fallasen, sino de que los benchmarks se estaban "saturando": cuando los modelos alcanzan el rendimiento humano estimado en un benchmark, eso no necesariamente significa que hayan alcanzado la inteligencia humana en esas áreas — puede significar que aprendieron patrones específicos de ese formato de preguntas. Este fenómeno se llama "Goodhart's Law aplicado a IA": cuando una métrica se convierte en el objetivo, deja de ser una buena métrica.
Qué Mide un Benchmark y Qué No
Un benchmark es un conjunto de tareas estandarizadas con una métrica de rendimiento bien definida. Sus ventajas son la reproducibilidad, la comparabilidad entre sistemas y la objetividad. Sus limitaciones son igualmente importantes: miden rendimiento en las tareas específicas del benchmark, no necesariamente en el problema real que importa.
La contaminación de datos es uno de los problemas más graves: si el conjunto de prueba de un benchmark ha aparecido en los datos de preentrenamiento del modelo, el modelo puede "recordar" las respuestas en lugar de razonar sobre las preguntas. En 2023, varios estudios documentaron contaminación significativa entre Common Crawl —usado para entrenar modelos grandes— y múltiples benchmarks populares.
Exactitud (accuracy): fracción de predicciones correctas. Precisión: de lo que el modelo dijo que era positivo, ¿cuánto lo era realmente? Recall: de todo lo que era positivo, ¿cuánto detectó el modelo? F1: media armónica de precisión y recall. BLEU / ROUGE: similitud de texto generado con referencia humana. Cada métrica captura un aspecto distinto y puede optimizarse individualmente sin mejorar el rendimiento real.
La Ley de Goodhart en IA
La Ley de Goodhart, formulada por el economista Charles Goodhart en 1975, establece: "Cuando una medida se convierte en objetivo, deja de ser una buena medida." En IA, esto se manifiesta como gaming de benchmarks: los laboratorios optimizan sus sistemas para rendir bien en los benchmarks públicos, que se convierten en señales de marketing tanto como de rendimiento técnico.
En 2022, el benchmark BIG-Bench fue diseñado específicamente para ser difícil de gaming: incluyó tareas creadas después de las fechas de corte de los modelos existentes y tareas que requerían formas de razonamiento poco frecuentes en texto de internet. Sin embargo, incluso BIG-Bench empezó a ser superado por modelos grandes, planteando preguntas sobre si los modelos estaban generalizando genuinamente o encontrando atajos estadísticos.
- Contaminación de entrenamiento: el modelo "vio" el benchmark durante preentrenamiento
- Gaming: optimización específica para el benchmark sin mejora de capacidades reales
- Saturación: el benchmark deja de discriminar entre los mejores modelos
- Evaluación en producción: el rendimiento real con usuarios suele diferir del benchmark
Evaluación Humana y sus Limitaciones
Ante las limitaciones de los benchmarks automáticos, la evaluación humana es el estándar de oro para tareas de lenguaje. Sin embargo, tiene sus propios problemas: los evaluadores humanos presentan sesgos sistemáticos documentados. Investigaciones de 2023 mostraron que los evaluadores humanos prefieren respuestas más largas con independencia de su corrección, respuestas con tono más confiado, y respuestas de modelos que conocen previamente (sesgo de marca). Estas preferencias influyen directamente en el RLHF: si los evaluadores humanos que generan las señales de recompensa tienen sesgos, esos sesgos se codifican en el modelo final.
Evaluación y Benchmarks
Pon a prueba tu comprensión de métricas, benchmarks y evaluación de IA.
Laboratorio: Evaluación y Benchmarks
Analiza cómo medimos el rendimiento de IA y por qué esas medidas pueden fallar.
Investigación guiada por IA
El tutor iniciará con una pregunta sobre benchmarks, métricas o el problema de evaluación en IA.
Líneas de investigación sugeridas:
- ¿Cómo diseñarías un benchmark resistente al gaming y a la contaminación de datos?
- ¿Cuándo es más apropiado usar evaluación humana frente a benchmarks automáticos?
- ¿Qué significa que un modelo "supere el rendimiento humano" en un benchmark, y qué no significa?
La Frontera: Lo que los Modelos No Pueden Aprender Todavía
Los límites actuales del aprendizaje automático no son fallas técnicas menores — son brechas fundamentales entre estadística y comprensión.
En 2022, el modelo Minerva de Google DeepMind logró resolver el 50,3% de los problemas de matemáticas de nivel universitario del dataset MATH. Fue celebrado como un avance enorme. Sin embargo, investigadores de NYU y otros centros publicaron análisis que mostraban que cuando se modificaban superficialmente los problemas —cambiando nombres de variables, reordenando términos, usando isomorfismos matemáticos— el rendimiento de Minerva y modelos similares caía entre 15 y 30 puntos porcentuales. El modelo no había aprendido matemáticas: había aprendido patrones de texto matemático. La diferencia entre ambas cosas es precisa y tiene consecuencias reales para cómo desplegamos estos sistemas.
Razonamiento Composicional: El Muro Actual
El razonamiento composicional es la capacidad de combinar conceptos conocidos de formas nuevas y sistemáticas. Los humanos pueden aprender que "verde" es un color y "colorless" significa sin color, y luego entender "colorless green" como una construcción semánticamente anómala. Los modelos de lenguaje actuales muestran limitaciones sistemáticas en este tipo de generalización composicional, especialmente cuando las combinaciones son inusuales en los datos de entrenamiento.
En 2018, el benchmark SCAN demostró que modelos secuencia-a-secuencia que aprendían instrucciones de movimiento simples fallaban sistemáticamente cuando se les pedía combinar esas instrucciones de formas que eran lógicamente deducibles pero que no habían aparecido en entrenamiento. Esta brecha entre interpolación estadística y generalización composicional genuina sigue sin resolverse completamente.
Un modelo de lenguaje que produce texto correcto sobre física cuántica no "comprende" física cuántica en el sentido en que lo hace un físico. Ha aprendido que ciertos tokens siguen a otros tokens en contextos marcados como física cuántica. La distinción no es filosófica: es operativa. Cuando el contexto es inusual, los dos sistemas fallan de maneras completamente diferentes.
Causalidad: El Límite del Aprendizaje Correlacional
Los modelos actuales aprenden correlaciones, no causas. El estadístico Judea Pearl, Premio Turing 2011, articuló esta limitación formalmente: las redes neuronales profundas operan en el primer peldaño de la "escalera de causalidad" —asociación estadística— pero no pueden subir al segundo (intervención: ¿qué pasaría si cambiamos X?) ni al tercero (contrafáctico: ¿qué habría pasado si X hubiera sido diferente?) sin arquitecturas o técnicas especiales.
En medicina, esta limitación es crítica. Un modelo puede aprender que pacientes que toman un medicamento tienen peores resultados, sin detectar que eso ocurre porque el medicamento se prescribe a pacientes más graves (correlación inversa causada por sesgo de indicación). Sin razonamiento causal, el modelo confunde causa con correlación — exactamente el problema del clasificador de dermatología de la lección 2.
- Generalización fuera de distribución (OOD): fallo cuando los datos difieren del entrenamiento
- Robustez adversarial: pequeñas perturbaciones pueden cambiar radicalmente las predicciones
- Razonamiento abstracto: generalización a reglas formales, no ejemplos
- Comprensión de física intuitiva: modelos fallan en escenarios físicos fuera de distribución
El Problema del Conocimiento de Corte Temporal
Los modelos de lenguaje tienen una fecha de corte de datos. Cualquier evento posterior a esa fecha es incognoscible para el modelo sin herramientas externas. Pero hay un problema más sutil: incluso sobre eventos antes del corte, el modelo no tiene acceso a información actualizada sobre consecuencias, revisiones o correcciones. Un paper científico retractado después del corte de datos sigue siendo citado por el modelo como válido. Esta limitación no es solucionable con más datos — es estructural al paradigma de preentrenamiento estático.
La respuesta de la industria son los sistemas de RAG (Retrieval-Augmented Generation): en lugar de confiar solo en los parámetros del modelo, se recupera información actualizada de bases de datos externas y se incluye en el contexto de la consulta. GPT-4 con búsqueda web y Claude con herramientas de recuperación son implementaciones de este principio. Pero RAG introduce sus propios problemas: calidad de las fuentes recuperadas, coherencia entre información recuperada y conocimiento paramétrico, y el riesgo de que el modelo "confíe" en fuentes incorrectas.
La Frontera: Lo que los Modelos No Pueden Aprender Todavía
Pon a prueba tu comprensión de los límites actuales del aprendizaje automático.
Laboratorio: La Frontera del Aprendizaje
Explora los límites actuales y las brechas abiertas en el aprendizaje automático.
Investigación guiada por IA
El tutor comenzará con una pregunta sobre los límites actuales del aprendizaje automático: razonamiento composicional, causalidad o generalización.
Líneas de investigación sugeridas:
- ¿Cómo distinguirías en la práctica si un modelo "comprende" algo o simplemente reconoce patrones textuales?
- ¿Qué implicaciones tiene para la medicina que los modelos actuales no puedan razonar causalmente?
- ¿Crees que las limitaciones actuales son fundamentales o superables con más escala?
Examen del Módulo 6
Cómo Aprende la IA · 15 preguntas · Todas las lecciones