Hoy por la mañana OpenAI me recordó las novedades que trae GPT-4.5, uno de sus modelo de lenguaje, que se destaca por sus avances en el aprendizaje no supervisado y sus capacidades mejoradas, y me pareció interesante compartir la información como para que puedas interiorizarte y aprovechar al máximo su potencial en aquellos escenarios particulares.
Este modelo demuestra mejoras en el reconocimiento de patrones, la creación de conexiones y la generación de ideas creativas, lo que hace que las interacciones se sientan más naturales.
El modelo exhibe una base de conocimientos más amplia, una mejor comprensión de la intención del usuario y una mayor inteligencia emocional, lo que resulta útil para tareas como la escritura, la programación y la resolución de problemas.

GPT-4.5 se entrena en supercomputadoras Microsoft Azure AI, lo que reduce las alucinaciones y aumenta la fiabilidad en diversos temas. Se destaca por comprender las necesidades e intenciones humanas, lo que conduce a conversaciones más intuitivas y una estética más fuerte. El modelo está disponible para usuarios y desarrolladores de ChatGPT Pro, y admite funciones como la carga de archivos e imágenes, la llamada de funciones y las capacidades de visión.
OpenAI también informa acerca de las medidas de seguridad implementadas durante el entrenamiento de GPT-4.5 y la evaluación continua para determinar su viabilidad a largo plazo en la API. En general, GPT-4.5 representa un paso significativo adelante en el aprendizaje no supervisado, que ofrece nuevas capacidades y un mejor rendimiento en diversas aplicaciones del mundo real.
A continuación, va el detalle de sus novedades.
Avances técnicos clave
- Escalado del aprendizaje no supervisado:
- GPT-4.5 se caracteriza por un escalado mejorado del pre-entrenamiento y post-entrenamiento. Esto significa que el modelo es capaz de reconocer patrones, establecer conexiones y generar información creativa con una mayor eficiencia.
- El énfasis en el aprendizaje no supervisado permite que el modelo adquiera un conocimiento más profundo y amplio del mundo, lo que se traduce en una mayor precisión y relevancia en sus respuestas.
- Mejora en la comprensión de la intención del usuario:
- Una de las mejoras más notables de GPT-4.5 es su capacidad para comprender las sutilezas del lenguaje humano. Esto incluye la interpretación de señales implícitas, expectativas y emociones.
- El modelo demuestra una mayor «inteligencia emocional» (EQ), lo que le permite interactuar de manera más natural y efectiva con los usuarios.
- Capacidades de razonamiento creativo:
- GPT-4.5 exhibe una mayor intuición estética y creatividad. Esto se manifiesta en su capacidad para generar contenido original y de alta calidad en diversas áreas, como la escritura y el diseño.
- Arquitectura y entrenamiento:
- El entrenamiento de GPT-4.5 se realiza en supercomputadoras Microsoft Azure AI, lo que proporciona una infraestructura sólida y escalable para el procesamiento de grandes cantidades de datos.
- OpenAI desarrolla nuevas y escalables técnicas de alineación, que permiten entrenar modelos más grandes y potentes con datos derivados de modelos más pequeños. Estas técnicas mejoran la direccionabilidad de GPT4.5, la comprensión de los matices y la conversación natural.
- Reducción de alucinaciones:
- Una preocupación constante en los modelos de lenguaje de gran tamaño es la generación de «alucinaciones» o información falsa. GPT-4.5 aborda este problema a través de mejoras en su arquitectura y entrenamiento, lo que se traduce en una mayor fiabilidad y precisión en sus respuestas.
- Capacidades Multimodales:
- GPT-4.5, como evolucion de GPT-4, tiene capacidades Multimodales, permitiendo el uso de texto, imagenes y audio.
Implicaciones y aplicaciones:
- Las mejoras en GPT-4.5 tienen implicaciones significativas en una amplia gama de aplicaciones, incluyendo:
- Asistencia virtual: interacciones más naturales y efectivas con los usuarios.
- Creación de contenido: generación de texto, imágenes y otros tipos de contenido de alta calidad.
- Programación: asistencia en la escritura y depuración de código.
- Investigación y desarrollo: análisis de datos y generación de hipótesis.
Consideraciones de seguridad:
- OpenAI ha implementado medidas de seguridad rigurosas durante el entrenamiento de GPT-4.5 para mitigar los riesgos asociados con el uso de modelos de lenguaje de gran tamaño.
- Se realizan evaluaciones continuas para determinar la viabilidad a largo plazo del modelo en la API y para identificar posibles problemas de seguridad.
Análisis de sus gráficas para su interpretación
Precisión de SimpleQA [SimpleQA Accuracy (higher is better)]

La gráfica nos muestra la precisión de SimpleQA, donde los valores más altos indican un mejor rendimiento.
- GPT-4.5 tiene una precisión del 62,5%.
- GPT-4o tiene una precisión del 38,2%.
- OpenAI o1 tiene una precisión del 47%.
- OpenAI o3-mini tiene una precisión del 15%.
Por lo tanto, según la métrica de precisión de SimpleQA, GPT-4.5 supera a los otros modelos.
Ahora bien, ¿Qué es eso de «SimpleQA»?
SimpleQA es un conjunto de preguntas y respuestas diseñado que se usa para evaluar la capacidad de los modelos de lenguaje sobre la base de preguntas fácticas simples. Aquí te explico brevemente el concepto:
- Preguntas Fácticas Simples:
- SimpleQA se centra en preguntas que tienen respuestas cortas y verificables.
- Estas preguntas suelen requerir el acceso a conocimientos básicos y hechos concretos.
- Evaluación de la Factualidad:
- El objetivo principal de SimpleQA es medir la «factualidad» de las respuestas de los modelos.
- En otras palabras, evalúa si los modelos pueden proporcionar respuestas precisas y basadas en hechos reales.
- Propósito:
- Ayudar a los investigadores a desarrollar modelos de lenguaje más confiables y precisos.
- Reducir el problema de las «alucinaciones» en los modelos de lenguaje, que es cuando los modelos generan información falsa o inventada.
- Proporcionar un punto de referencia para medir y comparar el desempeño de distintos modelos de lenguaje.
Voy más a lo profundo de los conceptos para que te quede realmente claro el tema: ¿Qué es eso de «Fácticas Simples» y «Factualidad»?
«Fácticas Simples»
- El término refiere a preguntas que buscan respuestas basadas en hechos concretos y verificables.
- Sus características son:
- directas y concisas.
- respuestas cortas y precisas.
- Se basan en información objetiva y generalmente aceptada.
- Ejemplos:
- ¿Cuál es la capital de Francia?
- ¿Cuántos planetas hay en el sistema solar?
- ¿En qué año se declaró la independecia de Argentina?
- El adjetivo «simples» indica que estas preguntas no requieren razonamientos complejos o interpretaciones subjetivas.
«Factualidad»
Permite que los modelos sean utilizados en aplicaciones donde la precisión es fundamental, como la investigación, la educación o la asistencia al cliente.
La factualidad se refiere a la cualidad de ser veraz o basado en hechos.
En el contexto de los modelos de lenguaje, la factualidad mide la capacidad de un modelo para proporcionar información precisa y verificable en sus respuestas.
Importancia de la factualidad: Es crucial para la confiabilidad de los modelos de lenguaje y garantiza que los modelos no generen información falsa o inventada.
Tasa de alucinaciones de SimpleQA [SimpleQA Hallucination Rate (lower is better)]

Esta gráfica nos muestra cómo se ha medido la tasa de «alucinaciones» en tareas de preguntas y respuestas simples (Simple QA).
Las «alucinaciones» en modelos de lenguaje se refieren a la generación de información falsa o sin fundamento, presentada como si fuera cierta. La frase «(lower is better)» indica claramente que el objetivo es minimizar esta tasa.
Interpretación de sus ejes:
- Eje X (Horizontal): Modelo:
- muestra las diferentes versiones o configuraciones del modelo, incluyendo GPT-4.5 y una versión anterior, GPT-4.
- Eje Y (Vertical): Tasa de Alucinaciones (Hallucination Rate):
- representa la proporción de respuestas incorrectas o inventadas generadas por el modelo en tareas de preguntas y respuestas simples.
- Como se indica, una tasa más baja es preferible, ya que indica una mayor fiabilidad del modelo.
- Barras:
- Las barras representan la tasa de alucinaciones para cada modelo.
- La altura de cada barra indica la magnitud de la tasa de alucinaciones.
Interpretación global de la gráfica:
- La gráfica muestra una clara diferencia entre la tasa de alucinaciones de GPT-4.5 y GPT-4.
- GPT-4.5 muestra una barra significativamente más baja que GPT-4. Esto indica que GPT-4.5 tiene una tasa de alucinaciones considerablemente menor en tareas de preguntas y respuestas simples.
- Esta reducción en la tasa de alucinaciones es un avance importante, ya que mejora la fiabilidad y precisión del modelo.
- Esto implica que GPT-4.5 es más probable que proporcione respuestas precisas y basadas en hechos, lo que lo hace más útil en aplicaciones donde la precisión es crucial.
¿Qué implica todo ésto?
- La reducción de las alucinaciones es crucial para la adopción generalizada de modelos de lenguaje en aplicaciones del mundo real.
- Esta gráfica proporciona evidencia cuantitativa de que GPT-4.5 ha logrado un progreso significativo en la mitigación de este problema.
- La mejora en la calidad de las respuestas en tareas simples de preguntas y respuestas, es un buen indicador de que el modelo a mejorado en su entendimiento general de la información.
Evaluaciones comparativas con testers (humanos) [Comparative evaluations with human testers]

La gráfica la debemos interpretar desde el punto de vista de la percepción humana subjetiva, complementando las métricas de referencia tradicionales.
¿Qué es eso de «percepción humana subjetiva»?
La percepción humana subjetiva se refiere a cómo cada persona interpreta y experimenta el mundo a su alrededor, y cómo esa interpretación está influenciada por sus propias experiencias, emociones, creencias y valores individuales.
Para entenderlo mejor:
- Subjetiva significa personal:
- Lo que una persona ve, escucha, siente o piensa sobre algo no es necesariamente lo mismo que otra persona experimentará.
- Cada uno tiene su propia «realidad» basada en cómo su cerebro procesa la información.
- Influenciada por factores internos:
- Nuestras experiencias pasadas, nuestras emociones en el momento, nuestras creencias y valores, todo influye en cómo percibimos las cosas.
- Por ejemplo, dos personas pueden ver la misma obra de arte, pero una puede encontrarla hermosa y la otra aburrida, debido a sus gustos y experiencias personales.
- No es necesariamente la «realidad objetiva»:
- La percepción subjetiva no siempre refleja la realidad tal como es, sino más bien cómo la experimentamos nosotros.
- Por ejemplo, el miedo puede hacer que un ruido normal parezca mucho más fuerte y amenazante.
Volviendo al gráfico.
Aspectos Clave:
- Evaluación Centrada en el Humano:
- Esta evaluación va más allá de las métricas puramente cuantitativas y profundiza en cómo los humanos perciben la calidad y utilidad de las respuestas del modelo.
- Los testers humanos proporcionan retroalimentación subjetiva sobre factores como la naturalidad, claridad, utilidad y satisfacción general.
- Naturaleza Comparativa:
- El aspecto «comparativo» es vital. Los testers humanos comparan el rendimiento de GPT-4.5 con modelos anteriores, a menudo GPT-4 o GPT-4o, lo que permite comparaciones directas de la calidad percibida.
- Variación Contextual:
- Estas evaluaciones a menudo involucran diversos tipos de consultas, tales como:
- Consultas cotidianas: conocimiento general, conversaciones informales.
- Consultas profesionales: preguntas técnicas, tareas relacionadas con el trabajo.
- Consultas creativas: escritura, ideación.
- Esto permite la evaluación de los modelos en un amplio espectro de casos de uso.
- Estas evaluaciones a menudo involucran diversos tipos de consultas, tales como:
- Medición de la «Tasa de Victoria»:
- Los resultados a menudo se presentan como una «tasa de victoria», lo que indica el porcentaje de veces que los testers humanos prefirieron las respuestas de GPT-4.5 sobre las del modelo de comparación. Esto proporciona una medida clara e intuitiva de la superioridad percibida.
- La preferencia en ambientes profesionales:
- Se ha demostrado que GPT-4.5 tiene una tasa de victoria mayor, en ambientes profesionales. Lo que muestra una gran capacidad para manejar preguntas más complejas y tecnicas.
¿Qué se ha obtenido?
- Naturalidad y Flujo Conversacional:
- Los testers humanos pueden evaluar cuán naturales y similares a los humanos se sienten las respuestas del modelo. Esto es crucial para aplicaciones que involucran interfaces conversacionales.
- Matices y Comprensión Contextual:
- Los testers humanos pueden evaluar la capacidad del modelo para comprender señales sutiles, tono y contexto, que son esenciales para una comunicación efectiva.
- Utilidad y Facilidad de Uso:
- La retroalimentación humana proporciona información valiosa sobre la utilidad práctica de las respuestas del modelo en escenarios del mundo real.
Interpretación global
- Las «evaluaciones comparativas con testers humanos» proporcionan una capa crucial de validación para los modelos de IA, complementando los puntos de referencia cuantitativos.
- Aseguran que los modelos no solo sean precisos, sino también fáciles de usar y estén alineados con las expectativas humanas.
- Este tipo de prueba es muy importante para el avance continuo de la IA, y su integración en la vida cotidiana.
Puntuaciones de la evaluación del modelo (Model evaluation scores)

Estructura de la Tabla:
- Columnas:
- GPT-4.5: Representa las puntuaciones del modelo más reciente.
- GPT-4o: Representa las puntuaciones de un modelo anterior.
- OpenAI 03-mini (high): Representa un modelo más pequeño y posiblemente optimizado para eficiencia.
- Filas:
- Cada fila representa una métrica de evaluación diferente.
- Las métricas de evaluación representan, la capacidad del modelo a responder de manera correcta.
Para entender esta tabla de puntuaciones, debemos seguir las siguientes indicaciones:
- Comparación Directa:
- La tabla permite una comparación directa del rendimiento de los tres modelos en las mismas métricas.
- Podemos observar qué modelo obtiene las puntuaciones más altas en cada métrica.
- Identificación de Fortalezas y Debilidades:
- Al observar las puntuaciones en diferentes métricas, podemos identificar las fortalezas y debilidades de cada modelo.
- Por ejemplo, un modelo puede tener un alto rendimiento en una métrica pero un bajo rendimiento en otra.
- Interpretación de Puntuaciones:
- Es crucial entender el significado de cada métrica y si «mayor es mejor» o «menor es mejor».
- GPT 4.5 debe de tener en términos generales los valores más altos, dentro de la tabla presentada, al ser este el modelo más actual.
- Es posible que el modelo OpenAI 03-mini (high), tenga valores más bajos que los modelos GPT-4.5 y GPT-4o, ya que suele suceder que los modelos más pequeños, sacrifican precisión por eficiencia.
Algunas consideraciones
- Contexto de la Evaluación:
- Es importante considerar el contexto de la evaluación, como los datos utilizados y las tareas evaluadas.
- Significado de las Métricas:
- Es importante asegurarse de comprender el significado de cada métrica y cómo se calcula.
Punto para reflexionar: Luego de haber leído, analizado y elaborado este contenido para publicarlo me puse a pensar en dos aspectos como tester ágil que me considero, por un lado qué fantástico sería integrar el equipo de testers en los próximos modelos que estén por desplegarse en producción porque implica un desafío profesional enorme que llevaría a investigar, estudiar, explorar y seguir aprendiendo; y por otra parte considero super importante conocer qué se puede hacer con cada modelo, qué ofrece cada modelo para aplicarlo de esa forma a determinados escenarios y mejorar el rendimiento en la tarea a realizar y aprovechando por lo tanto el tiempo y reduciendo el esfuerzo. Me hizo pensar en las tareas que debe llevar a cabo un tester ágil y qué modelo aplica mejor en cada una. Me hizo pensar también en las otras IA Generativas que tienen sus respectivas funcionalidades con ventajas, desventajas, errores, y limitaciones. En fin, sigamos explorando y compartiendo. :), gracias por leerme hasta aquí y seguirme en LinkedIn.
Fuente: OpenAI