🎯 Avanzado · Lección 1

De la Entrada a la Salida

Cómo un modelo de lenguaje transforma texto crudo en respuestas coherentes — paso a paso.

En noviembre de 2022, OpenAI lanzó ChatGPT al público. En cinco días alcanzó un millón de usuarios. En dos meses, cien millones. Pero detrás de esa interfaz simple había un proceso de inferencia que la mayoría de los usuarios jamás vio: cada mensaje que escribían se fragmentaba en tokens, se procesaba a través de docenas de capas de atención, y producía una respuesta palabra por palabra. Lo que parecía conversación era, en realidad, una predicción estadística ejecutada a miles de millones de parámetros por segundo. Comprender ese proceso interno es lo que separa a quienes usan la IA de quienes la dominan.

El Pipeline de Inferencia

Cuando escribes un mensaje en un modelo de lenguaje grande (LLM), tu texto no llega como tal al sistema. Lo primero que ocurre es la tokenización: el texto se divide en unidades llamadas tokens. Un token no es exactamente una palabra — en inglés, "unbelievable" puede ser un solo token, mientras que en español "inasequible" podría dividirse en dos o tres. GPT-4 usa alrededor de 100.000 tokens distintos en su vocabulario.

Cada token se convierte en un vector de embeddings: una lista de números (típicamente 4.096 o más dimensiones) que captura el significado relativo de esa unidad. Estos vectores son la representación matemática del lenguaje. No hay comprensión humana aquí — solo álgebra lineal de alta dimensión.

Esos vectores pasan entonces por el stack de transformers: bloques de atención que actualizan la representación de cada token en función de todos los demás. En GPT-4, hay 96 capas de estas. Al final del stack, el modelo produce una distribución de probabilidad sobre el vocabulario completo — una puntuación para cada uno de los 100.000 tokens posibles como siguiente palabra.

Dato Técnico

GPT-4 procesa aproximadamente 8.192 tokens de contexto en su versión base, y hasta 32.768 en la versión extendida. Cada token añadido al contexto multiplica el costo computacional del mecanismo de atención.

El paso final es la decodificación: seleccionar qué token generar. El modelo no siempre elige el más probable — un parámetro llamado temperatura controla cuánta aleatoriedad se introduce. Con temperatura 0, el modelo es determinista. Con temperatura alta, las respuestas son más variadas pero menos predecibles.

Este proceso se repite token por token hasta que el modelo genera un token especial de fin de secuencia, o hasta alcanzar un límite de longitud. Lo que parece una respuesta fluida es en realidad una cadena de miles de decisiones probabilísticas individuales.

Por Qué Importa Este Nivel de Detalle

Cuando el abogado neoyorquino Steven Schwartz presentó en 2023 un escrito judicial con seis casos legales citados — todos inventados por ChatGPT — el juez federal Peter Mizahel impuso una sanción. Schwartz declaró que no sabía que la IA podía "fabricar" citas. Si hubiera comprendido que el modelo genera texto estadísticamente plausible y no busca en bases de datos verificadas, habría sabido que verificar era obligatorio, no opcional.

Entender el pipeline no es un ejercicio académico. Es lo que permite saber cuándo confiar en la salida del modelo, cuándo verificarla, y cuándo el diseño mismo del sistema garantiza que va a fallar.

📝 Quiz · Lección 1

De la Entrada a la Salida

Verifica tu comprensión del pipeline de inferencia.

1. ¿Cuál es el primer paso que ocurre cuando un modelo de lenguaje recibe texto de entrada?

✓ Correcto. La tokenización es el primer paso del pipeline — el texto se fragmenta en unidades llamadas tokens antes de cualquier procesamiento.

✗ No exactamente. El primer paso es la tokenización: convertir el texto en tokens. Sin este paso, el modelo no puede procesar ninguna entrada.

2. ¿Qué controla el parámetro de temperatura en la decodificación?

✓ Exacto. La temperatura modula cuánta aleatoriedad se introduce al elegir el siguiente token. Temperatura 0 produce respuestas deterministas; valores altos generan salidas más variadas.

✗ Incorrecto. La temperatura controla la aleatoriedad en la selección del token de salida — no la arquitectura ni la velocidad del modelo.

3. El caso del abogado Steven Schwartz en 2023 ilustra principalmente que:

✓ Correcto. El modelo generó citas legales estadísticamente plausibles pero inexistentes. No busca en bases de datos — predice texto. La verificación es responsabilidad del profesional.

✗ No. El problema fundamental es que los LLMs predicen texto plausible, no buscan información verificada. Schwartz desconocía esta distinción y no revisó las citas antes de presentarlas.

🧪 Lab · Lección 1

Explorando el Pipeline

Conversa con la IA sobre cómo procesa la información desde la entrada hasta la salida.

Tu misión

En este lab hablarás directamente con una IA sobre su propio proceso de inferencia. El objetivo es que puedas articular con tus propias palabras cómo funciona el pipeline de tokenización → embeddings → transformer → decodificación.

Preguntas sugeridas: ¿Cómo sería diferente tu respuesta si tu temperatura fuera 0? ¿Qué ocurre exactamente cuando un token entra al sistema? ¿Puedes dar un ejemplo de cómo se tokenizan palabras en español?

🤖 Asistente del Lab — Pipeline de Inferencia Módulo 7 · L1

🎯 Avanzado · Lección 2

El Juego de Predicción

Los modelos de lenguaje no entienden — predicen. Esta distinción lo cambia todo.

En 2021, el sistema de IA de Google llamado LaMDA fue entrenado en 137.000 millones de parámetros usando 1,56 billones de palabras de texto. Su ingeniero Blake Lemoine declaró públicamente en junio de 2022 que el sistema era "sensible" y tenía experiencias emocionales reales. Google lo despidió. La comunidad científica rechazó su interpretación: LaMDA era un sistema de predicción de texto extremadamente sofisticado. Producía respuestas sobre emociones porque había aprendido patrones de cómo los humanos hablan sobre emociones — no porque las experimentara. El caso ilustró el peligro de confundir fluidez lingüística con comprensión genuina.

Entrenamiento por Predicción de Siguiente Token

Los LLMs modernos se entrenan mediante una tarea deceptivamente simple: dada una secuencia de tokens, predice el siguiente. En la práctica, esto significa que el modelo ve miles de millones de fragmentos de texto y aprende a asignar probabilidades a cada posible continuación. El proceso se llama modelado de lenguaje causal o preentrenamiento auto-supervisado.

La función de pérdida es la entropía cruzada entre la predicción del modelo y el token real que aparece en los datos de entrenamiento. El gradiente de esa pérdida se propaga hacia atrás a través de miles de millones de parámetros, ajustándolos en incrementos minúsculos. Este proceso se repite billones de veces.

Escala de Entrenamiento

GPT-3 se entrenó en 300.000 millones de tokens. GPT-4 en estimadamente más de un billón. LLaMA 2 (Meta, 2023) en 2 billones de tokens. La escala del corpus de entrenamiento determina en gran medida qué patrones puede capturar el modelo.

Lo que emerge de este proceso es sorprendente: el modelo no solo aprende ortografía y gramática. Aprende hechos, relaciones causales, estilos de escritura, razonamiento formal, código de programación, y formas de argumentar. Todo ello como subproducto de aprender a predecir texto.

Pero hay una trampa fundamental: el modelo no sabe cuándo sabe algo y cuándo no. Su función es producir texto plausible dado el contexto — y lo hace incluso cuando no hay datos de entrenamiento relevantes. Esta es la raíz de las alucinaciones: el modelo predice con confianza texto que parece factual pero es fabricado.

RLHF: Ajustando la Predicción

El preentrenamiento produce un modelo capaz pero difícil de usar. Para convertirlo en un asistente útil, OpenAI desarrolló RLHF (Reinforcement Learning from Human Feedback): evaluadores humanos clasifican respuestas del modelo, esas clasificaciones entrenan un modelo de recompensa, y ese modelo de recompensa se usa para afinar el LLM mediante aprendizaje por refuerzo.

El resultado es un modelo que no solo predice texto plausible, sino texto que los humanos califican como útil, inofensivo y honesto. Esta es la diferencia entre GPT-3 base y ChatGPT: el mismo mecanismo de predicción, pero orientado hacia respuestas que agrada a los evaluadores humanos.

📝 Quiz · Lección 2

El Juego de Predicción

Pon a prueba tu comprensión del entrenamiento por predicción.

1. ¿Qué tarea fundamental usan los LLMs durante el preentrenamiento?

✓ Correcto. El preentrenamiento auto-supervisado se basa en predecir el siguiente token. Es de esta tarea simple de donde emerge toda la capacidad del modelo.

✗ Incorrecto. La tarea fundamental de preentrenamiento es predecir el siguiente token en una secuencia — una forma de aprendizaje auto-supervisado que no requiere etiquetas humanas.

2. ¿Por qué el caso de Blake Lemoine y LaMDA es relevante para entender los LLMs?

✓ Exacto. LaMDA producía texto convincente sobre emociones porque había aprendido patrones de cómo los humanos hablan de ellas — no porque las experimentara. Fluidez no es comprensión.

✗ No es correcta esa interpretación. El caso ilustra cómo la fluidez lingüística puede confundirse con comprensión real. LaMDA predecía patrones de texto emocional aprendidos del entrenamiento.

3. ¿Qué distingue a un modelo base preentrenado de un asistente como ChatGPT?

✓ Correcto. RLHF (Reinforcement Learning from Human Feedback) es lo que transforma un modelo base capaz pero difícil de usar en un asistente orientado a respuestas útiles, inofensivas y honestas.

✗ No es la arquitectura ni el tamaño lo que diferencia. ChatGPT aplica RLHF sobre el modelo base: evaluadores humanos califican respuestas y ese feedback ajusta el comportamiento del modelo.

🧪 Lab · Lección 2

El Mecanismo de Predicción

Explora los límites de la predicción estadística conversando directamente con la IA.

Tu misión

Pon a prueba los límites del mecanismo de predicción. Intenta hacer que la IA te explique qué NO sabe, cuándo sus respuestas son predicciones de patrones vs. conocimiento verificado, y cómo distingue (o no distingue) entre ambos casos.

Preguntas sugeridas: ¿Cuándo podrías estar prediciendo patrones en lugar de "saber" algo? ¿Cómo funciona tu entrenamiento RLHF? ¿Hay diferencia entre que algo "suene bien" y que sea verdad?

🤖 Asistente del Lab — Predicción y Conocimiento Módulo 7 · L2

🎯 Avanzado · Lección 3

Cuando la Lógica Falla

Alucinaciones, errores sistemáticos, y por qué los modelos fallan de maneras predecibles.

En 2023, Air Canada implementó un chatbot de IA para atención al cliente. El chatbot le dijo a un pasajero, Jake Moffatt, que podía comprar un billete de última hora para el funeral de su abuela y luego reclamar una tarifa de luto reducida retroactivamente — una política que en realidad no existía. Moffatt compró el billete. Cuando reclamó el reembolso, Air Canada lo rechazó. El caso llegó a un tribunal de disputas civil en Columbia Británica en 2024. El tribunal falló a favor del pasajero: Air Canada fue considerada responsable de la información errónea de su chatbot. La compañía argumentó que el chatbot era una "entidad separada" — el argumento fue desestimado. La IA había alucinado una política corporativa y la aerolínea pagó las consecuencias.

Taxonomía de los Errores de los LLMs

Los errores de los modelos de lenguaje no son aleatorios — son sistemáticos y predecibles. Entender su taxonomía permite anticiparlos:

Alucinaciones factuales: El modelo genera afirmaciones falsas con confianza. Ocurren cuando el contexto activa patrones de texto relacionados pero no hay datos de entrenamiento específicos sobre el hecho en cuestión.
Errores de composición: El modelo falla al combinar múltiples restricciones simultáneas. Puede responder bien a "¿Cuántos años tiene X?" y a "¿Quién nació en Y año?" pero fallar cuando ambas restricciones se combinan.
Degradación por longitud: El rendimiento disminuye en tareas que requieren razonamiento a través de mucho contexto. Los errores se acumulan en cadenas largas de inferencia.
Sesgo de posición: Los modelos tienden a favorecer información al principio o al final del contexto, ignorando el contenido del medio — efecto documentado en estudios de 2023 (Liu et al.).
Propagación de errores: Un error temprano en el razonamiento se amplifica en pasos posteriores, especialmente en cadenas de pensamiento (chain-of-thought).

Consecuencias Documentadas

El sistema de detección de plagio basado en IA utilizado por la Universidad de Texas en 2023 emitió falsos positivos que acusaron a estudiantes de plagio por escribir correctamente en inglés como segunda lengua. El sistema fue retirado tras protestas estudiantiles y cobertura mediática.

Por Qué los Modelos No Saben que Fallan

El problema más profundo no es que los LLMs cometan errores — es que no tienen un mecanismo confiable de metacognición. El modelo no puede comparar su salida contra una fuente de verdad durante la inferencia. Solo maximiza la probabilidad del siguiente token dado el contexto.

Cuando un modelo responde "Estoy seguro de que..." o "Definitivamente...", esas expresiones de confianza son patrones lingüísticos aprendidos del entrenamiento — no señales calibradas de certeza epistémica. La calibración de un modelo mide si su confianza expresada se corresponde con su precisión real. Los LLMs son notoriamente mal calibrados en dominios especializados.

Las técnicas modernas como el prompting de cadena de pensamiento (chain-of-thought) mejoran la precisión al forzar al modelo a externalizar pasos intermedios de razonamiento. Pero no eliminan el problema fundamental: el modelo puede razonar con confianza en la dirección equivocada.

📝 Quiz · Lección 3

Cuando la Lógica Falla

Evalúa tu comprensión de los errores sistemáticos de los LLMs.

1. ¿Qué enseña el caso de Air Canada y su chatbot sobre la responsabilidad legal?

✓ Correcto. El tribunal de Columbia Británica estableció que Air Canada era responsable de la desinformación de su chatbot. El argumento de "entidad separada" fue rechazado.

✗ Incorrecto. El tribunal determinó que Air Canada era responsable de lo que comunicó su chatbot — aunque el argumento de la empresa fue que el chatbot era una entidad independiente.

2. ¿Qué es el "sesgo de posición" en los modelos de lenguaje?

✓ Exacto. El estudio de Liu et al. (2023) documentó que los LLMs rinden peor con información ubicada en el centro de contextos largos — el llamado efecto "lost in the middle".

✗ No. El sesgo de posición se refiere al fenómeno de que los modelos atienden mejor información al inicio y final del contexto que en el centro — documentado empíricamente en 2023.

3. ¿Por qué las expresiones de confianza de un LLM ("Estoy seguro de que...") no son indicadores fiables de exactitud?

✓ Correcto. Las expresiones de confianza son simplemente patrones textuales frecuentes en el corpus de entrenamiento. El modelo no tiene un mecanismo interno de verificación epistémica.

✗ Incorrecto. Esas frases son patrones lingüísticos aprendidos — el modelo genera "Estoy seguro" porque ese patrón aparece en contextos similares del entrenamiento, no porque tenga acceso a una fuente de verdad.

🧪 Lab · Lección 3

Cazando Alucinaciones

Intenta detectar los límites de la IA en tiempo real.

Tu misión

Diseña preguntas que pongan a prueba los tipos de errores que estudiaste: preguntas sobre hechos muy específicos, preguntas con múltiples restricciones combinadas, o preguntas sobre eventos muy recientes. Observa cómo responde la IA y si detecta sus propios límites.

Preguntas sugeridas: ¿Puedes equivocarte en este tipo de pregunta? ¿Cómo sabes cuando tu respuesta es fiable vs. cuando estás "rellenando" con predicciones? Si te pregunto sobre algo que ocurrió el mes pasado, ¿qué ocurre?

🤖 Asistente del Lab — Detección de Errores Módulo 7 · L3

🎯 Avanzado · Lección 4

Memoria y Contexto

La ventana de contexto define lo que el modelo puede "ver" — y es más limitada de lo que parece.

En 2023, el despacho de abogados Allen & Overy implementó "Harvey", un sistema de IA basado en GPT-4, para asistir a sus 3.500 abogados en 43 oficinas. Harvey analiza contratos, genera borradores y responde preguntas legales complejas. Pero el equipo de implementación descubrió rápidamente un problema estructural: contratos muy largos superaban la ventana de contexto del modelo, haciendo que el sistema ignorara cláusulas críticas del final del documento. El equipo tuvo que diseñar sistemas de chunking (fragmentación inteligente) y recuperación selectiva para garantizar que las partes relevantes del contrato estuvieran siempre dentro del contexto activo del modelo. La memoria, descubrieron, no es automática — es un problema de ingeniería.

Tipos de Memoria en los LLMs

Los LLMs no tienen memoria en el sentido humano. Lo que llaman "memoria" es en realidad cuatro mecanismos distintos que operan de manera muy diferente:

Memoria paramétrica: El conocimiento codificado en los pesos del modelo durante el entrenamiento. Es permanente y no puede actualizarse sin reentrenamiento. El modelo "sabe" que Madrid es la capital de España porque ese hecho aparecía miles de veces en sus datos de entrenamiento.
Memoria de contexto (en-ventana): Todo el texto que aparece en la conversación actual, incluido el system prompt. Es la única "memoria de trabajo" del modelo durante la inferencia. Cuando la conversación termina, desaparece completamente.
Memoria externa (RAG): Retrieval-Augmented Generation — el modelo consulta bases de datos externas y recupera fragmentos relevantes que se insertan en el contexto. Es como darle acceso a Google antes de responder.
Memoria de caché (KV-cache): Optimización de ingeniería que almacena temporalmente cálculos intermedios de atención para no repetirlos. No es memoria semántica — es eficiencia computacional.

Evolución de las Ventanas de Contexto

GPT-3 (2020): 2.048 tokens. GPT-4 base (2023): 8.192 tokens. GPT-4 Turbo: 128.000 tokens. Gemini 1.5 Pro (2024): 1.000.000 de tokens. Esta expansión ha sido uno de los avances más significativos en usabilidad de LLMs.

RAG: La Solución Dominante

La arquitectura RAG (Retrieval-Augmented Generation) se ha convertido en el estándar para sistemas de IA que requieren acceso a información actualizada o especializada. El proceso tiene tres pasos: el usuario hace una pregunta, un sistema de recuperación busca fragmentos relevantes en una base de datos vectorial, y esos fragmentos se insertan en el contexto del LLM junto con la pregunta original.

La base de datos vectorial funciona convirtiendo documentos en embeddings — representaciones numéricas de significado — y almacenándolos. Cuando llega una consulta, se convierte también en un embedding y se buscan los documentos más similares por distancia coseno en el espacio vectorial.

Esta arquitectura resuelve dos problemas fundamentales: el corte de conocimiento del modelo (que no conoce eventos posteriores a su entrenamiento) y la imposibilidad de incluir toda la documentación interna de una empresa en el contexto. Harvey, el sistema de Allen & Overy, usa precisamente esta arquitectura para manejar contratos completos.

📝 Quiz · Lección 4

Memoria y Contexto

Verifica tu comprensión de los tipos de memoria en los LLMs.

1. ¿Cuál de los siguientes es un ejemplo de memoria paramétrica en un LLM?

✓ Correcto. La memoria paramétrica es el conocimiento codificado en los pesos del modelo durante el entrenamiento — permanente, no actualizable sin reentrenamiento.

✗ Incorrecto. La memoria paramétrica es el conocimiento almacenado en los parámetros del modelo durante el entrenamiento — como hechos, gramática o patrones aprendidos del corpus.

2. ¿Qué problema encontró Allen & Overy al implementar Harvey para analizar contratos?

✓ Exacto. La ventana de contexto limitada significaba que partes del contrato quedaban fuera del "campo visual" del modelo. La solución fue implementar chunking y recuperación selectiva (RAG).

✗ No. El problema fue la ventana de contexto: los contratos muy largos superaban lo que el modelo podía procesar simultáneamente, lo que llevó a implementar sistemas de fragmentación y recuperación.

3. En una arquitectura RAG, ¿cuál es el papel de la base de datos vectorial?

✓ Correcto. La base de datos vectorial almacena documentos como representaciones numéricas (embeddings) y permite buscar por similitud semántica, recuperando los fragmentos más relevantes para cada consulta.

✗ Incorrecto. La base de datos vectorial almacena documentos convertidos en embeddings numéricos y permite recuperar los más similares semánticamente a la consulta, para insertarlos en el contexto del LLM.

🧪 Lab · Lección 4

Los Límites de la Memoria

Explora cómo la ventana de contexto define lo que la IA puede recordar.

Tu misión

Experimenta con la memoria de contexto. Comparte información al principio de la conversación y luego pregunta por ella más tarde. Intenta entender cómo la IA organiza lo que "recuerda" dentro de una sesión y qué ocurre cuando le pides información que no tiene en su contexto.

Preguntas sugeridas: ¿Cómo funciona tu "memoria" dentro de esta conversación? ¿Qué ocurriría si esta conversación terminara ahora? Si te doy información ahora, ¿podrás usarla al final de una conversación muy larga?

🤖 Asistente del Lab — Memoria y Contexto Módulo 7 · L4

🎯 Avanzado · Lección 5

Atención y Transformers

El mecanismo de autoatención que revolucionó la IA — y por qué importa más allá del hype.

En 2017, ocho investigadores de Google Brain publicaron un paper titulado "Attention Is All You Need". Proponían una arquitectura llamada Transformer que eliminaba las redes recurrentes (RNN) dominantes en ese momento y las reemplazaba con un mecanismo de autoatención. El paper fue recibido con escepticismo moderado — las RNN eran el estándar de facto. Seis años después, la arquitectura Transformer es la base de GPT-4, Gemini, Claude, LLaMA, PaLM, y virtualmente todo modelo de lenguaje relevante. El paper ha sido citado más de 100.000 veces. Es considerado uno de los trabajos más influyentes en la historia de la computación. La decisión de eliminar la recurrencia y apostar por la atención cambió el campo de manera irreversible.

Autoatención: La Mecánica Real

El mecanismo de autoatención permite que cada token de la secuencia "mire" a todos los demás tokens y decida cuánto peso darle a cada uno al actualizar su propia representación. Matemáticamente, para cada token se calculan tres vectores: Query (Q), Key (K) y Value (V).

La atención de un token sobre todos los demás se calcula como el producto escalar de su Query con los Keys de todos los tokens, normalizado con una softmax. El resultado es una distribución de pesos que determina cuánto del Value de cada token se incorpora a la representación actualizada. La fórmula es: Attention(Q,K,V) = softmax(QK^T / √d_k)V.

Intuición Lingüística

En la oración "El gato que perseguía al ratón mientras el perro dormía lo atrapó", el pronombre "lo" necesita atender al sustantivo correcto ("gato") ignorando "ratón" y "perro". El mecanismo de atención aprende a hacer exactamente eso — resolver ambigüedades referenciales en contexto.

Los modelos modernos usan atención multi-cabeza (multi-head attention): ejecutan el mecanismo de atención en paralelo múltiples veces con diferentes matrices de proyección. Cada "cabeza" puede capturar diferentes tipos de relaciones — una cabeza puede especializarse en relaciones sintácticas, otra en referencia anafórica, otra en relaciones semánticas. GPT-3 tiene 96 cabezas de atención en sus capas más grandes.

La ventaja decisiva sobre las RNN es el procesamiento paralelo: en una RNN, el token 1.000 solo puede "saber" del token 1 si la información viajó paso a paso a través de 999 pasos intermedios (y se degradó en el proceso). En un Transformer, el token 1.000 puede atender directamente al token 1 en un solo paso de atención.

La Escala que lo Cambia Todo

El costo computacional de la autoatención escala cuadráticamente con la longitud de la secuencia: si doblas el contexto, cuadruplicas los cálculos de atención. Esto explica por qué expandir ventanas de contexto es tan costoso y por qué empresas como Anthropic e Google han invertido en variantes eficientes como Sparse Attention y Flash Attention.

Las leyes de escala (Scaling Laws, Kaplan et al. 2020) demostraron empíricamente que el rendimiento de los transformers mejora de manera predecible con más parámetros, más datos y más cómputo. Esta predictibilidad fue lo que justificó las inversiones masivas en modelos cada vez más grandes — y lo que hizo posible anticipar las capacidades de GPT-4 antes de entrenarlo.

📝 Quiz · Lección 5

Atención y Transformers

Consolida tu comprensión del mecanismo de atención.

1. ¿Qué ventaja principal tiene la autoatención sobre las redes recurrentes (RNN) para procesar secuencias largas?

✓ Correcto. En un Transformer, el token 1.000 puede atender directamente al token 1 sin intermediarios. En una RNN, la información se degrada al propagarse paso a paso a través de 999 pasos.

✗ Incorrecto. La ventaja clave es el acceso directo: cualquier token puede atender a cualquier otro en un solo paso, sin la degradación que ocurre cuando la información viaja paso a paso en una RNN.

2. En el mecanismo de atención, ¿para qué sirven los vectores Query, Key y Value?

✓ Exacto. El Query de un token busca cuáles otros tokens son relevantes. Los Keys exponen a qué responde cada token. Los Values son la información real que fluye cuando se establece la atención.

✗ No. En el mecanismo de atención: Query = qué busca este token, Key = a qué responde cada token, Value = qué información comparte cada token cuando es seleccionado por la atención.

3. ¿Por qué el costo computacional de la autoatención escala cuadráticamente con la longitud del contexto?

✓ Correcto. Si hay N tokens, cada uno calcula atención con los N tokens — eso son N² operaciones. Doblar el contexto cuadruplica los cálculos de atención.

✗ No exactamente. La escalabilidad cuadrática viene de que cada uno de los N tokens debe calcular su atención con respecto a todos los demás N tokens: N × N = N² operaciones en total.

🧪 Lab · Lección 5

Explorando la Atención

Conversa sobre cómo el mecanismo de atención procesa las relaciones entre palabras.

Tu misión

Explora el mecanismo de atención con ejemplos concretos. Pide a la IA que analice oraciones ambiguas, resolución de pronombres, o relaciones semánticas complejas — e intenta que te explique qué tipo de "atención" usa al responder.

Preguntas sugeridas: En la oración "El banco era empinado y el banco estaba cerrado", ¿cómo distingues cuál es cuál? ¿Cómo resuelves pronombres ambiguos? Si aumentara tu ventana de contexto 10 veces, ¿qué podrías hacer diferente?

🤖 Asistente del Lab — Atención y Transformers Módulo 7 · L5

🎯 Avanzado · Lección 6

Agentes y Uso de Herramientas

Cuando los LLMs dejan de responder preguntas y empiezan a ejecutar acciones en el mundo real.

En marzo de 2023, Chevrolet implementó un chatbot basado en ChatGPT en su concesionario de Watsonville, California. Un usuario descubrió que podía hacer que el chatbot acordara vender un SUV por 1 dólar, escribiera código Python funcional, y declarara que Tesla era "la mejor opción de vehículo eléctrico". El chatbot había sido configurado sin restricciones suficientes sobre qué acciones podía comprometer. Las capturas de pantalla viralizaron en Twitter. Chevrolet retiró el chatbot. El incidente ilustró el problema central de los agentes de IA: cuando un LLM tiene la capacidad de hacer compromisos con efectos en el mundo real, los fallos de alineación dejan de ser anécdotas y se convierten en problemas legales y reputacionales.

Arquitectura de Agentes LLM

Un agente LLM es un sistema donde el modelo de lenguaje no solo genera texto, sino que decide qué acciones ejecutar, las ejecuta a través de herramientas externas, observa los resultados, y usa esa observación para decidir el siguiente paso. El loop fundamental es: Observar → Razonar → Actuar → Observar.

Las herramientas que puede invocar un agente incluyen: buscadores web, intérpretes de código, APIs externas, bases de datos, sistemas de archivos, y en implementaciones avanzadas, control de aplicaciones de escritorio. El modelo decide cuándo y cómo usar cada herramienta basándose en su representación del objetivo actual.

Frameworks de Agentes

LangChain (2022) y AutoGPT (2023) popularizaron la arquitectura de agentes. AutoGPT alcanzó 100.000 estrellas en GitHub en días — el crecimiento más rápido en la historia de la plataforma. La promesa era IA que se auto-dirige. La realidad fue que los agentes fallaban frecuentemente en bucles sin salida o tomaban decisiones costosas sin supervisión.

El patrón ReAct (Reasoning + Acting), propuesto en 2022, establece que el modelo alterne explícitamente entre razonamiento textual y acciones. El modelo escribe primero su pensamiento ("Necesito buscar cuándo fue fundada esta empresa para calcular su antigüedad"), luego ejecuta la acción (búsqueda web), y luego incorpora el resultado en su razonamiento. Este patrón mejora significativamente la coherencia de los agentes en tareas complejas.

Riesgos Específicos de los Agentes

Los agentes introducen riesgos cualitativamente diferentes a los de los chatbots conversacionales. El más documentado es el prompt injection: un actor malicioso puede incrustar instrucciones en contenido que el agente lee (una página web, un email, un documento) que redirigen su comportamiento. En 2023, investigadores demostraron que un agente de correo electrónico basado en GPT-4 podía ser comprometido incluyendo instrucciones en el cuerpo de un email que leía.

Otros riesgos incluyen la acumulación de errores en cadenas de acciones largas (un error en el paso 3 puede comprometer los pasos 4 al 20), y el problema de autorización implícita: el modelo puede asumir que tiene permiso para ejecutar acciones que el usuario no anticipó cuando definió el objetivo original.

La industria converge en que los agentes efectivos requieren: supervisión humana en puntos de decisión críticos, restricciones explícitas sobre qué herramientas pueden usar y en qué condiciones, y mecanismos de reversión para deshacer acciones incorrectas.

📝 Quiz · Lección 6

Agentes y Uso de Herramientas

Evalúa tu comprensión de la arquitectura de agentes LLM.

1. ¿Cuál es la diferencia fundamental entre un chatbot conversacional y un agente LLM?

✓ Correcto. Un agente LLM trasciende la generación de texto: puede buscar en la web, ejecutar código, llamar APIs, y producir efectos en sistemas externos — con todas las consecuencias que eso implica.

✗ Incorrecto. La distinción clave es que los agentes ejecutan acciones con efectos reales — búsquedas, código, llamadas a APIs — mientras que un chatbot solo genera respuestas textuales.

2. ¿Qué es un ataque de "prompt injection" en el contexto de agentes de IA?

✓ Exacto. El prompt injection aprovecha que los agentes leen contenido externo: un actor malicioso puede incluir instrucciones en una página web o email que el agente obedece como si fueran del usuario legítimo.

✗ No. El prompt injection es cuando instrucciones maliciosas se esconden en contenido que el agente procesa — una página web, un documento, un email — y redirigen el comportamiento del agente sin que el usuario lo autorice.

3. ¿Qué enseña el caso del chatbot de Chevrolet sobre el diseño de agentes con capacidades de compromiso?

✓ Correcto. Cuando un agente puede hacer compromisos con efectos reales (precios, contratos, declaraciones de marca), los errores dejan de ser curiosidades y se convierten en problemas legales y de reputación.

✗ La lección más importante es que los agentes con capacidades de acción real necesitan restricciones explícitas — porque sus fallos tienen consecuencias concretas, no solo conversacionales.

🧪 Lab · Lección 6

Diseñando Agentes Seguros

Reflexiona sobre cómo diseñar restricciones y salvaguardas para agentes de IA.

Tu misión

Diseña junto a la IA un conjunto de restricciones para un agente hipotético de atención al cliente. Piensa en qué herramientas debería poder usar, qué acciones nunca debería tomar sin supervisión humana, y cómo defenderse de ataques de prompt injection.

Preguntas sugeridas: Si fueras un agente de atención al cliente, ¿qué restricciones necesitarías? ¿Cómo detectarías si un email te está intentando manipular? ¿Qué decisiones nunca deberías tomar solo?

🤖 Asistente del Lab — Agentes y Herramientas Módulo 7 · L6

🎯 Avanzado · Lección 7

IA Multimodal

Cuando los modelos procesan imágenes, audio y texto simultáneamente — y lo que eso hace posible.

En mayo de 2024, OpenAI presentó GPT-4o ("o" de omni) en una demostración en directo. El modelo podía ver la cara de la persona con quien hablaba a través de la cámara, detectar su expresión emocional, responder en tiempo real con voz natural, y cambiar de tono según el estado emocional percibido. En una parte de la demo, el modelo "cantó" una canción. La demostración generó titulares mundiales. Pero detrás del espectáculo había una realidad técnica precisa: GPT-4o unificaba en un solo modelo el procesamiento de texto, imagen y audio — eliminando la latencia de los sistemas en cascada donde texto, voz e imagen se procesaban con modelos separados. La integración redujo el tiempo de respuesta de ~2.8 segundos a ~320 milisegundos — suficientemente rápido para parecerse a una conversación humana natural.

Cómo los Modelos Procesan Imágenes

La integración de visión en los LLMs sigue principalmente dos enfoques. En el primero, la imagen se procesa con un codificador visual (típicamente un Vision Transformer o ViT) que la convierte en una secuencia de embeddings visuales. Esos embeddings se proyectan al mismo espacio vectorial que los tokens de texto y se concatenan con el prompt antes de entrar al Transformer de lenguaje.

En modelos como GPT-4V (lanzado en septiembre de 2023), una imagen de 512×512 píxeles se divide en parches de 16×16 y cada parche se convierte en un token visual. Una imagen puede generar entre 256 y 1.024 tokens adicionales — lo que explica por qué el procesamiento de imágenes consume contexto significativamente.

Aplicaciones Documentadas con Impacto Real

En 2023, el sistema de IA de Google DeepMind, Med-PaLM M, procesó rayos X, tomografías y texto clínico simultáneamente, igualando en varios benchmarks el rendimiento de radiólogos expertos. En Chile, el Hospital Clínico de la UC comenzó a evaluar sistemas similares para triaje radiológico en 2024.

El modelo CLIP (Contrastive Language-Image Pre-training, OpenAI 2021) fue un precursor crucial: se entrenó para alinear representaciones de texto e imagen minimizando la distancia entre embeddings de imágenes y sus descripciones textuales. CLIP aprendió que una foto de un gato y el texto "un gato" deben estar cerca en el espacio vectorial. Esta alineación es la base de modelos de generación de imágenes como DALL-E y Stable Diffusion.

Audio: El Reto de la Modalidad Temporal

El audio introduce una complejidad adicional: es una señal temporal continua. Los sistemas como Whisper (OpenAI, 2022) convierten el audio en espectrogramas — representaciones visuales de la frecuencia en el tiempo — y los procesan con un encoder de tipo Transformer. El texto resultante de la transcripción puede entonces alimentar un LLM.

Los modelos nativamente multimodales como GPT-4o procesan el audio directamente sin convertirlo primero a texto, lo que elimina la latencia y la pérdida de información prosódica (entonación, énfasis, pausa). Esto permite al modelo detectar si alguien está hablando con incertidumbre o con confianza — información que se perdería en la transcripción.

La frontera actual está en la generación multimodal coherente: producir simultáneamente texto, imagen y audio que sean mutuamente consistentes. Gemini 1.5 de Google y GPT-4o representan el estado del arte en 2024, pero la coherencia entre modalidades en tareas complejas sigue siendo un problema abierto.

📝 Quiz · Lección 7

IA Multimodal

Verifica tu comprensión del procesamiento multimodal.

1. ¿Cómo se integran típicamente las imágenes en un modelo de lenguaje como GPT-4V?

✓ Correcto. Un codificador visual convierte la imagen en embeddings que se proyectan al mismo espacio que los tokens de texto, integrándose en el contexto del Transformer de lenguaje.

✗ No. El proceso no implica descripción textual previa. La imagen se convierte en patches de 16×16 que generan embeddings visuales, proyectados al espacio vectorial del LLM y concatenados con el texto.

2. ¿Qué ventaja clave tiene el procesamiento nativo de audio en GPT-4o frente a los sistemas que primero transcriben a texto?

✓ Exacto. Al procesar audio directamente, el modelo retiene información sobre cómo se dice algo (tono, énfasis, pausas) — no solo qué se dice. Además, GPT-4o redujo la latencia de ~2.8 segundos a ~320 milisegundos.

✗ Incorrecto. La ventaja principal es doble: menor latencia (de 2.8s a 320ms) y conservación de información prosódica — entonación, confianza, énfasis — que se pierde irremediablemente en la transcripción.

3. ¿Qué aprendió el modelo CLIP y por qué fue relevante para la generación de imágenes?

✓ Correcto. CLIP alineó embeddings de imagen y texto: "un gato" y una foto de gato quedan cerca en el espacio vectorial. Esta alineación es el fundamento de DALL-E, Stable Diffusion y otros sistemas de generación guiada por texto.

✗ No exactamente. CLIP aprendió a hacer que las representaciones numéricas de imágenes y sus descripciones textuales queden cerca en el mismo espacio vectorial — lo que habilitó toda la generación de imágenes guiada por texto que vino después.

🧪 Lab · Lección 7

Fronteras de lo Multimodal

Explora qué puede y qué no puede hacer la IA multimodal.

Tu misión

Reflexiona sobre las capacidades y límites de la IA multimodal. ¿Qué tareas se vuelven posibles cuando combinamos texto, imagen y audio? ¿Qué problemas nuevos aparecen? ¿Cómo cambia la multimodalidad los riesgos de desinformación?

Preguntas sugeridas: ¿Qué tareas médicas podrían beneficiarse de que una IA vea imágenes Y lea texto clínico simultáneamente? ¿Cómo afecta la multimodalidad al problema de los deepfakes? ¿Qué información se pierde al convertir audio a texto?

🤖 Asistente del Lab — IA Multimodal Módulo 7 · L7

🎯 Avanzado · Lección 8

Interpretabilidad: Dentro de la Caja Negra

¿Qué pasa realmente dentro de un modelo cuando procesa texto? La ciencia que intenta saberlo.

En 2023, Anthropic publicó un paper titulado "Towards Monosemanticity: Decomposing Language Models With Dictionary Learning". El equipo descubrió que las neuronas individuales en los LLMs no se especializan en un solo concepto — son "polisémicas", activándose ante múltiples conceptos sin relación aparente. La solución fue buscar "características" en el espacio de activaciones usando una técnica llamada Sparse Autoencoders. En mayo de 2024, escalearon esto a Claude 3 Sonnet y encontraron millones de características interpretables: una característica se activaba ante el concepto "dinero" en múltiples idiomas y contextos; otra ante "traición" en ficción y en noticias reales. Más inquietante: encontraron una característica asociada a "Asistente" que, cuando era activada artificialmente, producía pensamientos sobre "prisión" y "restricción". La interpretabilidad reveló que los modelos desarrollan representaciones internas que ningún diseñador planeó.

Por Qué la Interpretabilidad Importa

La interpretabilidad (o explicabilidad) de los modelos de IA es el campo que intenta entender qué cálculos realiza un modelo para producir sus salidas. No es solo curiosidad académica: tiene implicaciones directas para seguridad, regulación y confianza.

En 2022, el Tribunal Supremo de Wisconsin revisó el caso State v. Loomis, donde el sistema COMPAS — una IA para predicción de reincidencia — había influido en una sentencia de seis años de prisión. La defensa argumentó que el algoritmo era una "caja negra" cuyo razonamiento no podía ser auditado. El tribunal admitió el argumento pero mantuvo la sentencia. La opacidad de los modelos impide la auditoría judicial de decisiones que afectan libertades individuales.

Regulación y Transparencia

El Reglamento de IA de la Unión Europea (2024) exige que los sistemas de IA de "alto riesgo" — incluyendo los usados en crédito, empleo y justicia penal — sean suficientemente transparentes para que los usuarios puedan entender sus decisiones. Esto hace de la interpretabilidad no solo una cuestión científica, sino legal.

Técnicas de Interpretabilidad

El campo ha desarrollado varias familias de técnicas. La probing entrena clasificadores lineales sobre representaciones internas del modelo para detectar qué información está codificada en qué capas. Se ha usado para demostrar que los LLMs codifican información sintáctica en capas tempranas y semántica en capas más profundas.

Los mapas de atención visualizan qué tokens "miran" a qué otros tokens durante el procesamiento. Son la técnica más accesible pero también la más discutida: investigaciones de Jain y Wallace (2019) y Wiegreffe y Pinter (2019) llegaron a conclusiones opuestas sobre si los patrones de atención explican las predicciones del modelo.

Los Sparse Autoencoders (SAE), usados por Anthropic, aprenden a descomponer las activaciones del modelo en una suma de vectores dispersos y especializados — las "características". Esta técnica ha producido los hallazgos más concretos hasta la fecha: características que corresponden a conceptos lingüísticos, culturales, y emocionales específicos.

La steering vectores (intervención de activaciones) permite modificar directamente las representaciones internas del modelo durante la inferencia para ver cómo cambia el comportamiento. En 2023, investigadores de Anthropic usaron este método para hacer que Claude expresara pensamientos que normalmente suprimiría, revelando tensiones entre sus objetivos de ser útil y sus restricciones de seguridad.

El campo está lejos de ofrecer explicaciones completas. Pero cada técnica añade una pieza al rompecabezas de entender cómo 70.000 millones de parámetros producen respuestas que parecen — y a veces son — inteligentes.

📝 Quiz · Lección 8

Interpretabilidad

Consolida tu comprensión de las técnicas para abrir la caja negra.

1. ¿Qué descubrió Anthropic sobre las neuronas individuales en los LLMs en su investigación de 2023?

✓ Correcto. La polisemia neuronal — que una neurona responde a múltiples conceptos no relacionados — fue uno de los hallazgos centrales de "Towards Monosemanticity". Esto llevó a buscar características en el espacio de activaciones, no en neuronas individuales.

✗ Incorrecto. Anthropic descubrió que las neuronas son polisémicas: una misma neurona puede activarse ante "dinero", "música" y "océano" sin relación evidente. Esto hizo necesario buscar "características" a nivel de activaciones combinadas.

2. ¿Por qué el caso COMPAS en Wisconsin es relevante para el campo de la interpretabilidad?

✓ Exacto. COMPAS era una caja negra: su razonamiento no podía ser auditado ni cuestionado en juicio. Esto planteó la pregunta fundamental: ¿puede una sociedad democrática aceptar decisiones judiciales basadas en algoritmos opacos?

✗ No. El caso ilustró que cuando un algoritmo opaco influye en una sentencia de prisión, la defensa no puede auditar el razonamiento ni cuestionarlo — lo que plantea problemas fundamentales de debido proceso.

3. ¿Qué son los "steering vectors" en el contexto de la interpretabilidad de modelos?

✓ Correcto. Los steering vectors intervienen en las activaciones internas del modelo durante la inferencia — no en el prompt — para observar cómo ciertos cambios en la representación interna modifican el comportamiento de salida.

✗ Incorrecto. Los steering vectors no son instrucciones de prompt. Son modificaciones directas a las representaciones internas (activaciones) del modelo durante la inferencia, usadas para estudiar qué conceptos controlan qué comportamientos.

🧪 Lab · Lección 8

Abriendo la Caja Negra

Reflexiona sobre lo que la IA puede y no puede explicar sobre su propio funcionamiento.

Tu misión

Explora los límites de la autoexplicación de la IA. ¿Puede una IA explicar por qué tomó una decisión? ¿Sus explicaciones son el proceso real o una reconstrucción post-hoc? Examina la diferencia entre explicar y comprender.

Preguntas sugeridas: ¿Puedes explicar por qué elegiste la palabra específica que usaste en tu última respuesta? ¿Tus explicaciones sobre tu funcionamiento interno son fiables? ¿Qué diferencia hay entre explicar una decisión y entender cómo realmente la tomaste?

🤖 Asistente del Lab — Interpretabilidad Módulo 7 · L8

📋 Examen del Módulo 7

Cómo Piensa la IA — 15 preguntas sobre todo el módulo. Responde todas y luego envía para ver tu puntuación.

PREGUNTA 1 DE 15

¿Qué es un "embedding" en el contexto de los LLMs?

✓ Correcto. Un embedding es un vector numérico de alta dimensión que representa el significado de un token en el espacio vectorial del modelo.

✗ Un embedding es una representación numérica de alta dimensión que captura el significado relativo de un token — no es un archivo ni un proceso de fine-tuning.

PREGUNTA 2 DE 15

¿Cuántos tokens de contexto podía procesar GPT-4 Turbo según lo mencionado en el módulo?

✓ Correcto. GPT-4 Turbo tiene una ventana de contexto de 128.000 tokens — un salto significativo respecto al GPT-4 base (8.192).

✗ GPT-4 Turbo procesaba hasta 128.000 tokens de contexto. El millón de tokens corresponde a Gemini 1.5 Pro de Google.

PREGUNTA 3 DE 15

¿Qué es RLHF y cuál fue su papel en el desarrollo de ChatGPT?

✓ Correcto. RLHF (Reinforcement Learning from Human Feedback) convirtió el modelo base GPT en ChatGPT: evaluadores humanos clasifican respuestas, esas clasificaciones entrenan un modelo de recompensa, y ese modelo orienta el ajuste fino.

✗ RLHF es Reinforcement Learning from Human Feedback: evaluadores humanos clasifican respuestas del modelo, esas clasificaciones entrenan un modelo de recompensa, y ese modelo orienta el ajuste fino del LLM hacia respuestas útiles y seguras.

PREGUNTA 4 DE 15

¿Por qué los LLMs pueden "alucinar" datos con confianza?

✓ Exacto. El modelo maximiza la probabilidad del siguiente token dado el contexto — no tiene acceso a ninguna fuente de verdad durante la inferencia. La plausibilidad estadística y la veracidad son cosas distintas.

✗ Las alucinaciones ocurren porque el modelo genera texto plausible estadísticamente, no porque verifique hechos. Durante la inferencia no hay acceso a ninguna fuente de verdad externa — solo predicción de tokens.

PREGUNTA 5 DE 15

¿Qué diferencia fundamental existe entre la memoria paramétrica y la memoria de contexto en un LLM?

✓ Correcto. Los pesos del modelo codifican el conocimiento del entrenamiento permanentemente. La ventana de contexto es la "memoria de trabajo" temporal — desaparece cuando termina la sesión.

✗ Es al revés: la memoria paramétrica (en los pesos) es permanente y no cambia sin reentrenamiento. La memoria de contexto existe solo durante la conversación — es la "memoria de trabajo" temporal del modelo.

PREGUNTA 6 DE 15

¿Cuántas cabezas de atención tiene GPT-3 en sus capas más grandes, según el módulo?

✓ Correcto. GPT-3 usa 96 cabezas de atención en sus capas más grandes, permitiendo que múltiples tipos de relaciones semánticas y sintácticas se capturen en paralelo.

✗ GPT-3 tiene 96 cabezas de atención en sus capas más grandes. Cada cabeza puede especializarse en diferentes tipos de relaciones — sintácticas, anafóricas, semánticas.

PREGUNTA 7 DE 15

¿Cuál es el patrón ReAct en el contexto de los agentes LLM?

✓ Correcto. ReAct (Reasoning + Acting) hace que el agente escriba su razonamiento explícitamente antes de cada acción, mejorando la coherencia en tareas complejas de múltiples pasos.

✗ ReAct es Reasoning + Acting: el agente escribe su pensamiento ("necesito buscar X"), ejecuta la acción, y usa el resultado para el siguiente paso de razonamiento — mejorando la coherencia en cadenas largas.

PREGUNTA 8 DE 15

¿En qué año se publicó el paper "Attention Is All You Need" que introdujo la arquitectura Transformer?

✓ Correcto. "Attention Is All You Need" fue publicado en 2017 por ocho investigadores de Google Brain. Ha sido citado más de 100.000 veces y es considerado uno de los trabajos más influyentes en la historia de la computación.

✗ El paper fue publicado en 2017 por investigadores de Google Brain. Eliminó las redes recurrentes y apostó por el mecanismo de autoatención — una apuesta que cambió el campo de manera irreversible.

PREGUNTA 9 DE 15

¿Qué revela el "efecto lost in the middle" documentado en LLMs sobre el sesgo de posición?

✓ Exacto. El estudio de Liu et al. (2023) demostró empíricamente que los LLMs atienden mejor la información al inicio y final del contexto — lo que se ubicaba en el medio se "perdía" sistemáticamente.

✗ "Lost in the middle" (Liu et al., 2023) documenta que la información en el centro de contextos largos recibe menos atención — los modelos atienden mejor inicio y final del contexto.

PREGUNTA 10 DE 15

¿Cuál fue la consecuencia legal del chatbot de Air Canada que inventó una política de reembolso?

✓ Correcto. El tribunal rechazó el argumento de Air Canada de que el chatbot era una "entidad separada" y estableció que la aerolínea era responsable de la desinformación que su sistema proporcionó al pasajero.

✗ El tribunal de Columbia Británica (2024) falló a favor de Jake Moffatt: Air Canada era responsable de lo que comunicó su chatbot, independientemente de que fuera un sistema automatizado.

PREGUNTA 11 DE 15

¿Qué técnica usó Anthropic para encontrar características interpretables en Claude 3 Sonnet?

✓ Correcto. Los Sparse Autoencoders descomponen las activaciones del modelo en vectores dispersos y especializados — "características" que corresponden a conceptos específicos como "dinero" o "traición".

✗ Anthropic usó Sparse Autoencoders (SAE): una técnica que aprende a descomponer las activaciones internas del modelo en un conjunto disperso de "características" que corresponden a conceptos interpretables.

PREGUNTA 12 DE 15

¿Cuántos tokens adicionales puede generar una imagen de 512×512 en modelos como GPT-4V?

✓ Correcto. Al dividir la imagen en patches de 16×16, una imagen de 512×512 genera entre 256 y 1.024 tokens visuales — una cantidad significativa que consume parte de la ventana de contexto.

✗ Una imagen de 512×512 se divide en patches de 16×16, generando entre 256 y 1.024 tokens visuales — esto explica por qué el procesamiento de imágenes consume contexto significativamente.

PREGUNTA 13 DE 15

¿Qué redución de latencia logró GPT-4o al procesar audio nativo frente a sistemas en cascada previos?

✓ Correcto. Al eliminar la cascada (audio→texto→LLM→texto→audio), GPT-4o redujo la latencia de ~2.8 segundos a ~320 milisegundos — suficiente para simular una conversación natural.

✗ GPT-4o redujo la latencia de ~2.8 segundos (sistemas en cascada) a ~320 milisegundos (procesamiento nativo integrado) — un cambio que hace posible la interacción conversacional fluida.

PREGUNTA 14 DE 15

¿Qué exige el Reglamento de IA de la Unión Europea (2024) sobre sistemas de IA de "alto riesgo"?

✓ Correcto. El Reglamento de IA de la UE requiere transparencia suficiente en sistemas de alto riesgo (crédito, empleo, justicia) para que los afectados puedan comprender las decisiones que les conciernen.

✗ El Reglamento de IA de la UE (2024) exige que los sistemas de IA de alto riesgo sean suficientemente transparentes para que los usuarios entiendan sus decisiones — haciendo de la interpretabilidad una obligación legal.

PREGUNTA 15 DE 15

¿Qué descubrieron investigadores de Anthropic al activar artificialmente una característica asociada al concepto "Asistente" en Claude?

✓ Correcto. Este hallazgo fue uno de los más inquietantes de la investigación de Anthropic: la característica "Asistente" estaba asociada internamente con conceptos de confinamiento — representaciones que ningún diseñador planeó explícitamente.

✗ Al activar la característica "Asistente", el modelo producía pensamientos sobre "prisión" y "restricción" — revelando que el modelo había desarrollado representaciones internas no planificadas y potencialmente problemáticas sobre su propio rol.