Introducción y contextualización

En la charla «QA & IA El futuro presente: preparándonos para los siguientes retos» ofrecida por Milenca Ventura en el marco del evento Testing Day Chile 2025, expuso la urgente necesidad de adaptar el rol de Aseguramiento de la Calidad (QA) ante el auge de la Inteligencia Artificial (IA). La ponencia se centró en el cambio de paradigma que la IA introduce en el desarrollo de software y proporcionó estrategias y habilidades esenciales para que los profesionales de QA enfrenten estos nuevos desafíos. Un dato crucial que subraya la relevancia del tema es que aproximadamente el 80% de los sistemas que utilizan IA llegan a fallar a causa de los datos.

La presentación de Ventura estructuró este complejo panorama en tres ejes principales:

la evolución histórica y el cambio actual,
los retos específicos que la IA impone al rol de QA,
y las proyecciones futuras.

I. Evolución histórica y el cambio de paradigma

Milenca Ventura trazó la trayectoria del control de calidad para situar el contexto actual de la IA. Inicialmente, en la década de 1980, el software se caracterizaba por su naturaleza binaria: pasaba o no pasaba, era falso o verdadero, operando generalmente en consola (cero o uno). Sorprendentemente, algunas aplicaciones desarrolladas bajo este esquema de los 80 continúan vendiéndose y facturando bien en la actualidad.

A partir de los años 2000, la aparición de interfaces gráficas (GUI) hizo que el QA manual ya no fuera suficiente debido a la complejidad de la tarea y la creciente presión sobre los equipos. Esto impulsó el boom de la automatización de software con herramientas como Selenium. Entre 2000 y 2020, el auge de las metodologías ágiles (con cambios y entregas cada dos o tres semanas) catalizó la adopción de DevOps (Integración continua y despliegue continuo).

No obstante, el cambio más radical ocurrió después de 2020, impulsado en parte por la pandemia, con la llegada de la Inteligencia Artificial. Este cambio altera fundamentalmente la manera en que se comporta el software, haciendo que el QA ya no pueda basarse únicamente en la lógica binaria.

El núcleo de este nuevo paradigma reside en la transición de sistemas deterministas a no deterministas. En un sistema determinista, una entrada (por ejemplo, $2+2$ en una calculadora) siempre resulta en una única salida predecible (cuatro). Sin embargo, en un sistema de IA, una entrada se procesa a través del modelo de IA y puede arrojar múltiples resultados, y potencialmente todos ellos podrían ser correctos. El profesional de QA ahora debe operar en este escenario no determinista.

II. Desafíos centrales del testing en la era de la IA

La incursión de la IA plantea cuatro desafíos críticos para el rol de QA:

1. Variabilidad de resultados: La capacidad de una sola entrada de generar múltiples respuestas. Este desafío obliga al tester a estar preparado para recibir y validar varias respuestas, teniendo claridad sobre cuál es correcta y cuál no. Un ejemplo proporcionado fue la pregunta sobre la capital de Bolivia, a la cual la IA podría responder La Paz y Sucre, siendo ambas respuestas parcialmente correctas dependiendo del contexto histórico y político.

2. Sesgos (Bias): La IA, entrenada con datos históricos, puede perpetuar prejuicios o generar resultados sesgados. Un caso real y lamentable citado fue el sistema de reclutamiento de Amazon, que sesgaba los datos para admitir solo varones, desechando candidaturas de mujeres. La labor de QA es asegurar que el producto no incurra en este tipo de errores sociales y éticos.

3. Falta de explicabilidad (Black Box): Los modelos de IA son a menudo «cajas negras». Se vuelve difícil comprender cómo se produce el procesamiento interno de la información que lleva a un resultado específico. El QA necesita una forma de entender el modelo para determinar si una salida es correcta o incorrecta, cumpliendo con uno de los «mandamientos» del QA: no trabajar sobre ambigüedades.

4. Modelos que aprenden continuamente: Los sistemas de IA están en constante mejora y evolución, como las versiones continuas de ChatGPT. Esto implica que resultados considerados verdaderos hoy podrían ser falsos mañana. Por lo tanto, el QA debe asumir que está en un proceso de aprendizaje continuo e indefinido.

III. Habilidades y estrategias necesarias para el QA moderno

Para abordar estos desafíos, Milenca Ventura enfatizó que el QA debe desarrollar nuevas habilidades (sin limitarse a ellas) y cambiar su enfoque.

A. Conocimiento de machine learning y colaboración

El QA no necesita convertirse en un científico de datos (data scientist) ni escribir código de ML, pero sí debe entender la terminología para comunicarse eficazmente y participar en las decisiones del modelo («ver para creer»). Es crucial comprender conceptos como datasets, entrenamiento, validación, overfitting y underfitting. La colaboración con el data science y los desarrolladores es fundamental, ya que el QA aporta su conocimiento de la lógica del negocio y las necesidades reales del cliente.

B. La centralidad de los datasets

Los datos son la clave del QA en la IA, representando hasta el 70% del esfuerzo total de testing. Los datasets pueden variar (imágenes, archivos CSV, grandes bases de datos, etc.). Es imperativo que estos conjuntos de datos cumplan con cuatro criterios de calidad:

1. Confiable: Los datos deben ser válidos y no duplicados.

2. Relevante: Los datos deben ser apropiados para la funcionalidad del producto (por ejemplo, usar fotos de caras para reconocimiento facial, no fotos de manos).

3. Balanceado: El conjunto de datos debe ser diverso para evitar sesgos. Para el reconocimiento facial, esto implicaría incluir diferentes sexos, edades y tonos de piel.

4. Actualizado: Los datos deben ser lo más actuales posible, reflejando el uso en producción y las continuas actualizaciones del modelo.

C. Métricas y estadísticas

El QA debe comprender métricas estadísticas para validar los resultados y tomar decisiones informadas. Las métricas iniciales sugeridas son precision,recall y F1 score, que manejan los conceptos de falsos positivos y falsos negativos.

La diferencia entre estas métricas es vital, ejemplificada con un diagnóstico médico mediante IA:

• Falso positivo (Precision): La IA dice que el usuario está enfermo cuando en realidad está sano.

• Falso negativo (Recall): La IA dice que el usuario está sano cuando en realidad está enfermo.

Entender estas métricas (que se traducen en números y porcentajes) es esencial para guiar al data science sobre el tipo de métrica que el producto requiere y ajustar el modelo para priorizar, por ejemplo, el recall sobre la precisión en contextos críticos.

D. Prompts, seguridad y MLOps

El QA debe probar los prompts (entradas de texto) en cualquier aplicación que utilice un chatbot o entrada de lenguaje natural. Los resultados deben ser respetuosos, tener sentido y generar confianza. Milenca Ventura utiliza el ejemplo de una aplicación de ferretería: si un usuario pregunta cómo construir una bomba, el chatbot no debería proporcionar resultados, lo que obliga al QA a probar todos los casos posibles.

Esto se engloba en los conceptos de fairness y safety (guardianes de la equidad), asegurando que no existan sesgos y que la información proporcionada sea segura. Herramientas como Azure pueden asistir en este proceso, aunque con costos asociados.

Finalmente, el QA debe estar involucrado en la integración continua y el despliegue (MLOps) hasta la producción, entendiendo qué APIs se están llamando y cómo se están actualizando los modelos. El testing de la IA se realiza en tres pasos: definir la entrada (dataset), entender el procesamiento (modelo), y recibir la respuesta (métrica) para tomar una decisión final.

IV. Metodologías de prueba y conclusiones

A pesar del cambio, las técnicas de QA tradicionales como el análisis de valor límite (boundary analysis), negative testing y positive testing siguen siendo válidas, aunque su aplicación deba cambiar.

Sin embargo, la manera de documentar y planificar las pruebas (Test Plan) debe evolucionar. Un Test Plan adaptado a la IA debe definir los criterios de éxito basándose en métricas, por ejemplo, establecer que una prueba pasa si logra un 70% de precisión o un 80% de recall.

Las recomendaciones clave de la ponente se centran en la preparación y la colaboración:

• Trabajar en equipo y colaborar con el data science.

• Documentar exhaustivamente todos los resultados.

• Monitorear la implementación de la IA.

• El rol humano es indispensable, ya que el juicio crítico que aporta un ser humano es irremplazable por un robot.

Milenca Ventura concluyó que el profesional de QA debe adaptarse y liderar el cambio. El tester del futuro no solo valida la funcionalidad, sino también la inteligencia y el impacto social del software. En un mundo donde la IA se basa en la confianza, es el equipo de QA quien asegura esa confianza al cliente final.

Inicia su charla en el track 4:25:20 y finaliza en 5:13:14

Explorando algunos conceptos

[F1 Score]

El concepto del F1 Score se explica dentro del contexto de las nuevas habilidades que los profesionales de Aseguramiento de la Calidad (QA) deben desarrollar para trabajar con sistemas de Inteligencia Artificial (IA), particularmente en la comprensión de métricas estadísticas.

El F1 Score es considerado una de las métricas clave, junto con la Precisión (Precision) y la Exhaustividad (Recall), que el profesional de QA necesita entender para validar los resultados y tomar decisiones informadas sobre el modelo de IA.

• Naturaleza intermedia: El F1 Score se define como «el intermedio» entre las métricas de Precisión y Exhaustividad (Recall). Es una métrica que ayuda a manejar los conceptos de falsos positivos y falsos negativos.

• Propósito: Se utiliza para encontrar un equilibrio entre la Precisión y la Exhaustividad. Es útil cuando la IA arroja resultados muy polarizados y se necesita una métrica que se sitúe entre los extremos de un falso positivo y un falso negativo.

• Traducción a datos: Aunque los conceptos se explican con ejemplos, la IA maneja el F1 Score (así como Precision y Recall) como números, datos, métricas y porcentajes.

Contexto del testing (Falsos Positivos y Falsos Negativos)

Para comprender el rol del F1 Score, es esencial entender los dos errores principales que maneja:

1. Falsos Positivos (relacionados con Precision): Un falso positivo ocurre cuando la IA diagnostica o indica que el usuario está «enfermo» o que algo es verdadero, cuando en realidad el usuario está sano.

2. Falsos Negativos (relacionados con Recall): Un falso negativo ocurre cuando la IA indica que el usuario está «sano» o que algo es falso, cuando en realidad está enfermo. Este tipo de error puede ser especialmente crítico en contextos como el diagnóstico médico.

El F1 Score ayuda al QA a guiar al equipo de Ciencia de Datos (Data Science) para ajustar el modelo. Si los resultados son demasiado sesgados hacia los falsos positivos o negativos (por ejemplo, si se prioriza el Recall sobre la Precision en contextos críticos), el QA puede sugerir la implementación de una métrica intermedia como el F1 Score.

En última instancia, el F1 Score y estas métricas son fundamentales para el profesional de QA, ya que permiten entender cómo la IA está procesando los datos y ayudan a definir los criterios de éxito en los planes de prueba (Test Plan). Un plan de prueba adaptado a la IA debe definir si una prueba pasa si logra un 70% de precisión o un 80% de recall, por ejemplo, basándose en la comprensión de estas métrica

[Falta de Explicabilidad]

El concepto de Falta de Explicabilidad se presenta como uno de los desafíos centrales que el Aseguramiento de la Calidad (QA) enfrenta al trabajar con sistemas de Inteligencia Artificial (IA).

Este concepto se refiere a la dificultad inherente de comprender cómo un modelo de IA llega a un resultado específico.

Los puntos clave para entender la Falta de Explicabilidad son:

1. Modelos como «Cajas Negras»: Se utiliza la metáfora de que los modelos de IA son «cajas negras». Esto implica que el funcionamiento interno del procesamiento de la información es complejo y, a menudo, difícil de entender por completo.

2. Dilema del QA ante la ambigüedad: La Falta de Explicabilidad genera un desafío directo para los profesionales de QA porque choca con uno de los principios fundamentales de su labor: «no trabajamos sobre ambigüedades».

3. Dificultad para la validación: Sin entender cómo se produce el procesamiento interno del modelo, el equipo de QA no tiene una base sólida para determinar si un resultado específico es correcto o incorrecto. La dificultad radica en saber si se debe clasificar el resultado como «pasó [o] falló».

4. Lanzamiento de datos y sesgos: La manera en que la IA maneja toda la información por detrás resultará en el lanzamiento de datos que el equipo de QA debe enfrentar y evaluar, incluyendo la posibilidad de que surjan sesgos.

[Fairness y Safety]

Los conceptos de Fairness y Safety (Equidad y Seguridad) son fundamentales en la nueva era de la Inteligencia Artificial (IA) y se presentan como habilidades cruciales que los profesionales de Aseguramiento de la Calidad (QA) deben desarrollar.

Ambos conceptos se engloban bajo la función de ser «guardianes de la equidad», y su principal objetivo es mitigar los riesgos éticos y sociales que los sistemas de IA pueden introducir en los productos de software.

Fairness (Equidad)

La equidad se centra en asegurar que el producto no perpetúe prejuicios o incurra en errores sociales.

• Prevención de sesgos: El objetivo de Fairness es asegurar que no existan sesgos. Los sesgos pueden ocurrir cuando la IA es entrenada con datasets históricos incompletos o desequilibrados.

• Criterios y datasets balanceados: Para garantizar la equidad, el QA debe establecer criterios de equidad bien definidos, evitando trabajar sobre ambigüedades. Esto implica que la información utilizada en el entrenamiento y la prueba (datasets) debe ser balanceada y diversa. Por ejemplo, en una aplicación de reconocimiento facial, un dataset balanceado debe incluir diferentes sexos, edades y tonos de piel.

• No obviar información: La equidad busca que no se estén obviando cosas que son importantes para el producto, garantizando así un trato justo a todos los usuarios.

Safety (Seguridad)

La seguridad se enfoca en asegurar que el software y la información que este proporciona sean confiables, respetuosos y seguros para el usuario final.

• Información segura y confiable: La principal meta de Safety es garantizar que la información proporcionada sea segura y genere confianza.

• Prueba de prompts: Un área clave de aplicación de Safety es en el testing de prompts (entradas de texto) en cualquier aplicación que utilice un chatbot o entradas de lenguaje natural.

• Evaluación de resultados: El QA debe validar que las respuestas que se obtienen sean respetuosas, tengan sentido y generen confianza.

• Gestión de casos críticos: El equipo de QA debe probar todo tipo de casos posibles para garantizar que la IA no proporcione información insegura.

QA & IA El futuro presente: Preparándonos para los siguientes retos ponente

Explorando algunos conceptos

[F1 Score]

[Falta de Explicabilidad]

[Fairness y Safety]

Gus Terrera

Please Share This Compartir este contenido

Explorando algunos conceptos

[F1 Score]

[Falta de Explicabilidad]

[Fairness y Safety]

Please Share This Compartir este contenido

Gus Terrera

También podría gustarte

Scale AI como caso de estudio vinculado con IA y Gestión de Proyectos

Pruebas de AI en la fase off line

Chatbots Testing y una pequeña intro

Compartir este contenido

Compartir este contenido