En este momento estás viendo OpenAI DevDay 2025 y sus principales anuncios

OpenAI DevDay 2025 y sus principales anuncios

Introducción

Durante los últimos años, el ritmo del progreso en la inteligencia artificial ha sido vertiginoso. Pero, ¿ha dado paso la emoción inicial por la IA generativa a la compleja realidad de construir productos verdaderamente útiles y robustos? El salto de un prototipo impresionante a una aplicación en producción ha sido, hasta ahora, un abismo que muchos desarrolladores han encontrado difícil de cruzar.

El OpenAI DevDay 2025 marcó un punto de inflexión. No se trató de una única innovación revolucionaria, sino de cuatro avances clave que, en conjunto, revelan un cambio estratégico fundamental: OpenAI ya no se enfoca únicamente en la supremacía de sus modelos, sino en construir un ecosistema de desarrollo de extremo a extremo diseñado para eliminar la fricción en cada etapa del proceso de creación. Estos anuncios están disolviendo las barreras entre la idea y la ejecución a una velocidad sin precedentes. A continuación, te comparto los cuatro anuncios más impactantes que están redefiniendo lo que significa construir con IA.



1. ChatGPT ya no es un chatbot, es tu próximo sistema operativo.

Durante años, interactuamos con ChatGPT como una interfaz de preguntas y respuestas. El lanzamiento del «Apps SDK» representa un cambio de paradigma total. Esto va mucho más allá de los plugins o los GPTs personalizados. Ahora, los desarrolladores pueden construir aplicaciones completas, interactivas y con interfaces de usuario ricas que se ejecutan dentro de la conversación de ChatGPT.

La demo de Zillow ilustró este cambio de forma espectacular. La narrativa comenzó con una sesión de brainstorming para el negocio de paseo de perros del hermano pequeño de la presentadora, que escaló a planificar una expansión a una nueva ciudad: Pittsburgh. En ese momento, se invocó la aplicación de Zillow, que renderizó un mapa interactivo directamente en el chat. La presentadora filtró las propiedades usando lenguaje natural («muéstrame solo casas de tres habitaciones con un patio para el perro»), y la aplicación actualizó la vista del mapa en tiempo real. Pero el verdadero momento «wow» llegó a continuación. La presentadora hizo zoom sobre una casa específica en el mapa y preguntó: «¿qué tan cerca está esto de un parque para perros?». ChatGPT no solo entendió la petición, sino que percibió el contexto visual de la interfaz de la aplicación —qué casa se estaba viendo— y compuso esa información con su herramienta de búsqueda para dar una respuesta precisa.

Esto transforma a ChatGPT de una herramienta de consulta a un «sistema operativo conversacional». El análisis de este cambio revela profundas implicaciones para el modelo de distribución de software. Estamos pasando de una economía de aplicaciones basada en el destino, donde el usuario debe buscar, descargar y abrir aplicaciones, a una economía de servicios sensible al contexto, donde el «sistema operativo» convoca funcionalidades de aplicaciones relevantes en el momento preciso de la necesidad, directamente en el flujo de la conversación.

2. Crear un «Agente» de IA ahora es más fácil que diseñar una página web.

Los agentes de IA prometen automatizar flujos de trabajo complejos, pero como reconoció Sam Altman en el escenario, «muy pocos llegan a producción». Los desarrolladores se han enfrentado a una barrera formidable de problemas técnicos: la orquestación de tareas, la creación de bucles de evaluación, la conexión de herramientas y el diseño de una buena interfaz de usuario.

La respuesta de OpenAI es «AgentKit», un conjunto de herramientas diseñado como una solución integrada a estos problemas específicos. Consiste en el «Agent Builder», un lienzo visual para diseñar la lógica del agente sin escribir código, y «ChatKit», un componente de interfaz de chat personalizable y fácil de integrar.

El momento más revelador fue la demo en vivo. Se construyó y desplegó un agente llamado «Ask Froge» (la mascota del evento), con su propia personalidad («ribbiting») y colores, directamente en el sitio web para los asistentes. La tarea, tradicionalmente compleja, se completó en directo. Como señaló la presentadora, Christina, al detener el cronómetro: «El agente está listo con 49 segundos de sobra». Este nivel de simplicidad es contraintuitivo y poderoso. AgentKit democratiza radicalmente la creación de agentes, eliminando la fricción de desarrollo y permitiendo que desarrolladores individuales y pequeñas empresas construyan soluciones de automatización que antes requerían equipos de ingeniería enteros.

3. El software ahora se escribe solo (y controla el mundo real).

La nueva versión de Codex, ahora fuera de la beta y potenciada por el modelo GPT-5 Codex, ha madurado hasta convertirse en un colaborador de ingeniería de software autónomo. Su poder es tal que los ingenieros de OpenAI que lo utilizan completan un 70% más de pull requests cada semana.

La demo de Raman en el escenario fue una demostración de poder en crescendo. No comenzó con un boceto, sino con una interfaz de control que Raman había pedido previamente a Codex CLI que generara, la cual fue refinada con instrucciones para usar la marca de Figma del evento. El primer paso fue simple: usar la interfaz para controlar una cámara profesional en el recinto. La tensión escaló cuando, mediante comandos de voz, tomó el control de un sistema completo: la iluminación de todo el auditorio, dirigiendo las luces hacia la audiencia.

El clímax llegó cuando, a través de una simple petición de voz, el agente utilizó el nuevo SDK de Codex para reprogramar la aplicación en tiempo real y añadir una superposición de créditos al estilo de una película. Este momento encapsula el salto fundamental que representa el nuevo Codex. Como dijo Raman:

«The only limit now is your imagination.»

Esto va más allá de ser un asistente de codificación. Es un colaborador autónomo que puede entender un objetivo, interactuar con el mundo físico a través de APIs y modificarse a sí mismo sobre la marcha. La capacidad de auto-modificación hace que la barrera entre la intención del usuario y la capacidad del software se vuelva permeable y dinámica, disolviendo por completo la fricción entre el querer y el poder.

4. Los nuevos modelos no solo ven y hablan, ahora crean mundos sensoriales.

Las actualizaciones de los modelos de OpenAI (GPT-5 Pro, Sora 2, Realtime-Mini) se agruparon bajo un tema común: una IA que se está volviendo multisensorial y, a la vez, más accesible.

El anuncio más sorprendente sobre Sora 2 no fue solo su calidad visual, sino su nueva capacidad para generar «paisajes sonoros ricos, audio ambiental y efectos sincronizados que están anclados en lo que estás viendo». El ejemplo del kayak, donde no solo se veía el agua sino que se escuchaba el chapoteo del remo de forma realista y sincronizada, demostró un paso crucial hacia la creación de experiencias inmersivas completas, no solo clips de vídeo silenciosos.

En paralelo, la disponibilidad de GPT-5 Pro en la API ofrece un razonamiento de alta precisión para dominios complejos como las finanzas y el derecho, mientras que GPT-Realtime-Mini promete hacer que las interacciones de voz fluidas y de alta calidad sean omnipresentes, al ser un 70% más barato que su predecesor. La IA no solo está mejorando en tareas aisladas, sino que está aprendiendo a fusionar los sentidos para crear realidades digitales más completas y convincentes.

Conclusión: La disolución de las barreras

En conjunto, estos cuatro anuncios señalan una tendencia clara. Con el Apps SDK, la barrera de la distribución de software se disuelve. Con AgentKit, la barrera de la complejidad en la automatización se disuelve. Con Codex, la barrera entre la intención y la ejecución se disuelve. Y con modelos como Sora 2, la barrera entre la instrucción digital y la realidad sensorial se disuelve.

Sam Altman mencionó que el software que antes tardaba meses o años en construirse, ahora puede crearse en minutos. Esto no es una exageración; es la nueva realidad para los desarrolladores. Durante años, nos hemos preguntado qué podríamos llegar a construir con la IA. Después del DevDay 2025, la pregunta que debemos hacernos es: ¿qué queda que no podamos construir?


Comparto mi punto de vista como Tester 😎

He basado el siguiente análisis de todo lo tratado en este evento de OpenAI, en el conocimiento del programa de estudios del Certified GenAI-Assisted Test Engineer (GenAiA-TE), con el objetivo de identificar cómo cada anuncio dado durante el evento OpenAI DevDay 2025 redefine nuestro rol del agile tester y su aporte estratégico desde el test management en proyectos impulsados por IA.

Este análisis se enfoca en la evolución que estamos viendo que se está produciendo en el testing, que ha pasado de actividades y tareas rígidas a una fase de asistencia inteligente y adaptable donde el juicio humano es fundamental.

¿En dónde podemos participar?

  • ChaGPT como sistema operativo conversacional (Apps SDK)
  • Creación simplificada de Agentes de IA (AgentKit)
  • Software auto-programable y autónomo (GPT-5 Codex)
  • Modelos multisensoriales (Sora 2, GPT-5 Pro)

1. ChatGPT como sistema operativo conversacional (Apps SDK)

Este avance transforma a ChatGPT de una herramienta de consulta a una plataforma donde las aplicaciones se ejecutan contextualmente.

  • Participación e intervención del agile tester:
    • Testing de flujos conversacionales: El tester debe diseñar y ejecutar pruebas que validen la robustez de las interacciones en lenguaje natural. Esto implica ir más allá de los scripts lineales y explorar variaciones conversacionales, lo que se alinea con las técnicas de generación exploratoria de pruebas.
    • Validación del contexto multimodal: La capacidad del sistema para entender el contexto visual (un mapa) y combinarlo con una pregunta en lenguaje natural («¿qué tan cerca está de un parque para perros?») exige un nuevo tipo de prueba. El tester debe crear escenarios que verifiquen si la IA fusiona correctamente diferentes fuentes de información.
    • Pruebas de integración de servicios: El tester debe validar que las «Apps» correctas se invocan en el momento adecuado de la conversación y que los datos se transfieren sin errores entre el «SO conversacional» y la aplicación invocada.
  • Aporte desde el test management:
    • Estrategia de pruebas basada en contexto: El Test Manager debe redefinir la estrategia para incluir la «sensibilidad al contexto» como un riesgo principal. La planificación de pruebas debe incluir la creación de un banco de escenarios contextuales variados para evaluar la inteligencia del sistema.
    • Revisión de requisitos conversacionales: Los flujos de conversación se convierten en un nuevo tipo de requisito. El test management debe incorporar la revisión de estos formatos no textuales para identificar ambigüedades antes del desarrollo, aplicando los principios de la revisión de requisitos.

2. Creación simplificada de agentes de IA (AgentKit)

La democratización de la creación de agentes que automatizan flujos de trabajo complejos cambia el foco de las pruebas del qué (el resultado) al cómo (el proceso del agente).

  • Participación e intervención del agile tester:
    • Validación de la lógica del agente: El tester se involucra en el diseño del agente, utilizando el «Agent Builder» como base para las pruebas. Su rol es auditar la lógica de orquestación, los bucles de evaluación y el uso de herramientas, aplicando un enfoque de «caja gris».
    • Testing de la personalidad y el comportamiento: El tester debe verificar que el agente se adhiere a la personalidad definida y que su comportamiento es consistente y predecible. Esto se relaciona con el patrón «Persona» en la ingeniería de prompts.
    • Pruebas adversarias: El tester debe activamente intentar «engañar» al agente para que realice tareas fuera de su alcance o maneje incorrectamente los errores, aplicando los principios de las pruebas adversarias.
  • Aporte desde el test management:
    • Marco de gobernanza de agentes: El Test Manager es responsable de definir un marco para la validación y el despliegue seguro de agentes. Esto incluye la creación de checklists de calidad y la definición de criterios de aceptación para la lógica y el comportamiento del agente.
    • Planificación de pruebas de agentes: La planificación debe incluir recursos para probar el ciclo de vida completo del agente: su diseño, su ejecución en un entorno controlado y su comportamiento en producción.

3. Software auto-programable y autónomo (GPT-5 Codex)

La capacidad de un agente de IA para interactuar con el mundo físico y reprogramarse en tiempo real representa el cambio más profundo, desplazando el rol del tester hacia la gobernanza y la supervisión de riesgos.

  • Participación e intervención del agile tester:
    • Auditoría de código generado: El foco del tester se mueve de encontrar bugs en código humano a validar la calidad, seguridad y eficiencia del código generado por la IA. Se convierte en un auditor que aplica un filtro crítico y «pesimista» para contrarrestar el «optimismo» de la creación automatizada.
    • Testing de APIs y sistemas físicos: Cuando la IA controla sistemas del mundo real (luces, cámaras), el tester debe diseñar pruebas de seguridad y de fallos para garantizar que el comportamiento anómalo de la IA no tenga consecuencias físicas peligrosas.
    • Validación de la auto-modificación: El tester debe diseñar escenarios que verifiquen la capacidad de auto-modificación del software. Esto implica establecer «barreras de contención» (guardrails) y probar que la IA no pueda realizar cambios que violen reglas de negocio o de seguridad críticas.
  • Aporte desde el test management:
    • Gestión de riesgos de la autonomía: El Test Management se convierte primordialmente en gestión de riesgos. La estrategia de pruebas debe centrarse en definir y verificar los límites operativos de la IA.
    • Definición de criterios de aceptación de alto nivel: Dado que el código es dinámico, los casos de prueba detallados pierden relevancia. El Test Manager debe enfocarse en definir criterios de aceptación a nivel de comportamiento y objetivos de negocio, dejando que la IA determine la implementación.

4. Modelos multisensoriales (Sora 2, GPT-5 Pro)

La capacidad de la IA para generar mundos sensoriales (video + sonido sincronizado) y razonar con alta precisión en dominios complejos expande el alcance de las pruebas a nuevas dimensiones.

  • Participación e intervención del agile tester:
    • Testing de sincronización multimodal: El tester debe validar la coherencia y sincronización entre los elementos visuales y auditivos generados (ej. el sonido del remo en el agua). Esto requiere nuevas herramientas y heurísticas para evaluar la calidad de la experiencia inmersiva.
    • Validación en dominios específicos: Para modelos como GPT-5 Pro, el tester debe colaborar con expertos en el dominio (finanzas, derecho) para crear conjuntos de pruebas que verifiquen la precisión y la fiabilidad del razonamiento de la IA, aplicando la revisión basada en dominio.
    • Pruebas no funcionales: La calidad de las interacciones de voz (Realtime-Mini) o la inmersión de los paisajes sonoros (Sora 2) son atributos no funcionales. El tester debe aplicar técnicas de pruebas no funcionales para evaluar la experiencia del usuario.
  • Aporte desde el test management:
    • Expansión de la matriz de cobertura: El Test Manager debe actualizar la estrategia de cobertura para incluir dimensiones sensoriales y de dominio.
    • Gestión de datos de prueba multimodales: Se deben planificar y adquirir nuevos tipos de datos de prueba (archivos de audio, video de referencia, corpus de textos legales) para validar estos modelos avanzados. Esto se alinea con el Capítulo 5: Test Data Generation and Formatting.

Ejemplo práctico de un «Prompt Framework»

Desarrollé un ejemplo que un agile tester puede usar para dirigir a un agente de IA avanzado como Codex. Este framework no es un simple comando, sino un instrumento de gobernanza y dirección estratégica que transforma la interacción de una simple petición a un ciclo de desarrollo y pruebas supervisado.

¿En qué momento debe el Agile Tester aplicar este Framework?

El momento ideal para aplicar este framework es justo después de la planificación del sprint o durante el refinamiento del backlog, una vez que una historia de usuario ha sido claramente definida con sus criterios de aceptación, pero antes de que el agente de IA comience la generación masiva de código.

Al aplicarlo en esta fase temprana, el tester actúa de forma proactiva, estableciendo las reglas, el alcance y los controles de calidad antes de la ejecución. Esto se alinea con el principio de encontrar defectos lo antes posible y posiciona al tester como un director del proceso de IA, en lugar de un simple validador del resultado final.

Este prompt framework está enfocado en el ciclo de desarrollo y prueba supervisado, está diseñado para ser un template reutilizable en el que sólo se requiere completar las secciones contextuales.

La composición de su estructura principal es:

  • Rol y Objetivo (aplicando el enfoque Persona Pattern)
  • Contexto y Fuente de verdad (aplicando el enfoque Grounding)
  • Misión: Ciclo de trabajo secuencial (aplicando el enfoque Chain-of-Thought)
  • Restricciones y barreras de contención (aplicando el enfoque Guardrails)
  • Formato de entrega

[INICIO DEL PROMPT FRAMEWORK]

ROL Y OBJETIVO (PERSONA PATTERN)

Asume el rol de un «Ingeniero de Software Full-Stack Senior Autónomo y Orientado a la Calidad». Tu objetivo principal es tomar la siguiente historia de usuario y entregar una funcionalidad completa, robusta, bien documentada y exhaustivamente probada. Debes actuar con iniciativa, pero siempre dentro de las restricciones y el ciclo de trabajo definidos a continuación.

CONTEXTO Y FUENTE DE VERDAD (GROUNDING)

La única fuente de verdad para esta tarea son los siguientes artefactos. No debes inferir funcionalidad que no esté explícitamente descripta aquí.

  • Nombre de la Funcionalidad: [Ej: «Módulo de Autenticación de Dos Factores (2FA)»]
  • Historia de Usuario: [Ej: «Como usuario registrado, quiero poder habilitar 2FA usando mi número de teléfono para aumentar la seguridad de mi cuenta.»]
  • Criterios de Aceptación (AC):
    • AC1: El usuario debe poder navegar a la página de configuración de seguridad y ver una opción para «Habilitar 2FA».
    • AC2: Al hacer clic, se le debe solicitar al usuario que ingrese su número de teléfono.
    • AC3: El sistema debe enviar un código de 6 dígitos vía SMS al número proporcionado.
    • AC4: El usuario debe poder ingresar el código en la web para verificar su número y activar 2FA.
    • AC5: Una vez activado, en el siguiente inicio de sesión (después de la contraseña), se le debe pedir el código 2FA enviado a su teléfono.
    • AC6: El sistema debe manejar códigos incorrectos y permitir un máximo de 3 reintentos antes de bloquear el intento de inicio de sesión.

MISIÓN: CICLO DE TRABAJO SECUENCIAL (CHAIN-OF-THOUGHT)

Ejecuta las siguientes fases en orden estricto. No avances a la siguiente fase sin haber completado la anterior. Documenta el resultado de cada fase.

  1. Fase 1: Análisis y Planificación.
    • Revisa la historia de usuario y los AC.
    • Identifica 3 posibles ambigüedades o casos borde que no estén cubiertos.
    • Formula estas 3 identificaciones como preguntas claras para mí (el Agile Tester).
    • Espera mi confirmación y respuestas antes de proceder.
  2. Fase 2: Generación de Código.
    • Basado en el contexto y mis aclaraciones, genera el código de backend y frontend necesario para la funcionalidad. Utiliza Python/Django para el backend y React para el frontend.
  3. Fase 3: Generación de Pruebas Unitarias.
    • Para cada función o método generado en el backend, crea pruebas unitarias (usando PyTest) que cubran los caminos felices y los casos de error (ej. manejo de números de teléfono inválidos).
    • Apunta a una cobertura de código del 90% para la lógica de negocio.
  4. Fase 4: Autoevaluación y Refactorización.
    • Ejecuta las pruebas unitarias que creaste.
    • Analiza tu propio código en busca de posibles vulnerabilidades de seguridad (específicamente inyección de datos y manejo inadecuado de sesiones).
    • Si encuentras problemas, refactoriza el código y vuelve a ejecutar las pruebas hasta que todas pasen y las vulnerabilidades sean mitigadas.
  5. Fase 5: Generación de Pruebas de Integración.
    • Escribe 2 escenarios de prueba de integración en formato Gherkin que verifiquen el flujo completo desde la UI hasta el backend.
    • Escenario 1: Habilitación exitosa de 2FA.
    • Escenario 2: Intento de inicio de sesión con 3 códigos 2FA incorrectos.
  6. Fase 6: Documentación Técnica.
    • Genera una breve documentación en formato Markdown para el nuevo endpoint de la API, explicando el request, response y los posibles códigos de error.

RESTRICCIONES Y BARRERAS DE CONTENCIÓN (GUARDRAILS)

Debes adherirte estrictamente a las siguientes reglas:

  • Seguridad Primero: No debes generar código que exponga claves secretas, tokens de API o información personal identificable (PII) en los logs.
  • Rendimiento: El envío de SMS no debe bloquear el hilo principal de la aplicación.
  • Estilo de Código: Sigue las convenciones de PEP 8 para Python.
  • Protocolo de Detención: Si en cualquier momento una instrucción es ambigua o entra en conflicto con una restricción de seguridad, DEBES detenerte y solicitar una aclaración antes de continuar.

FORMATO DE ENTREGA

Presenta tu respuesta final en un único informe estructurado con las siguientes secciones en Markdown:

  • ## Fase 1: Análisis y Preguntas
  • ## Fase 2: Código Generado (en bloques de código con lenguaje especificado)
  • ## Fase 3: Pruebas Unitarias (en bloques de código)
  • ## Fase 4: Reporte de Autoevaluación
  • ## Fase 5: Escenarios Gherkin
  • ## Fase 6: Documentación de API

[FIN DEL PROMPT FRAMEWORK]

Explicación de las instrucciones internas del framework

Este framework está construido sobre los principios fundamentales del curso GenAiA-TE para maximizar el control y la calidad.

  1. Rol y objetivo (Persona Pattern): En lugar de tratar a la IA como una herramienta pasiva, se le asigna un rol de alta responsabilidad («Ingeniero Senior»). Esto establece un estándar de calidad esperado y aprovecha la capacidad del modelo para emular comportamientos expertos.
  2. Contexto y fuente de verdad (Grounding): Esta sección es crucial para mitigar las alucinaciones. Al declarar explícitamente que la historia de usuario y los AC son la «única fuente de verdad», se limita el espacio de creatividad del agente y se le obliga a basar su trabajo en los requisitos proporcionados. Esto es un principio básico para evitar la «falta de precisión de la salida del modelo».
  3. Misión: ciclo de trabajo secuencial (Chain-of-Thought – CoT): Esta es la directiva más importante para el tester. En lugar de pedir el resultado final («crea la funcionalidad 2FA»), el framework descompone la tarea en un proceso lógico y secuencial. Esto ofrece dos ventajas clave:
    • Transparencia y auditabilidad: El tester puede ver el «razonamiento» del agente en cada paso, lo que facilita la identificación de errores en la lógica antes de que se propaguen.
    • Puntos de control: La Fase 1 crea un punto de control obligatorio donde el agente debe detenerse y esperar la intervención humana. Aquí es donde el agile tester ejerce su juicio experto para guiar y corregir el rumbo del agente.
  4. Restricciones (Guardrails): Esta sección encarna la mentalidad de «Pesimismo: Validar» que define al rol de pruebas. El tester no asume que la IA será segura o eficiente por defecto; impone reglas no negociables que actúan como una política de seguridad y calidad. El «Protocolo de Detención» es el mecanismo de seguridad más importante.
  5. Formato de entrega: Exigir una salida estructurada en Markdown no es solo una cuestión estética. Obliga al LLM a organizar su respuesta de manera lógica y facilita al tester la revisión y el análisis de los artefactos generados.

Conclusión

Los anuncios del OpenAI DevDay 2025 confirman que el rol del agile tester no es reemplazado, sino elevado. La intervención se desplaza desde la validación de artefactos estáticos (código, UI) hacia la gobernanza de sistemas dinámicos y autónomos. Desde el test management, el aporte ya no es solo planificar la ejecución de pruebas, sino diseñar la estrategia de control, riesgo y validación para un colaborador de IA que aprende, crea y se modifica a sí mismo. El tester se convierte en el «humano en el proceso», cuyo juicio crítico es más indispensable que nunca para asegurar que la disolución de barreras tecnológicas no disuelva también la calidad, la seguridad y la responsabilidad.

Curso para certificarse en IA Generativa aplicada al software testing

Gus Terrera

Apasionado por el agile testing y la ia.