Google suspendió la función de Gemini para generar imágenes de personas con inteligencia artificial luego de las críticas recibidas.
Probablemente hayas leído algunas publicaciones en los últimos días al respecto, en lo personal me vino a la mente lo siguiente y te lo comparto así en crudo como lo pensé:
- Imágenes inexactas
- Fallos relacionados con los sesgos
- Prejuicios raciales y de género
- Entrenamientos de datos insuficientes
- Versión lanzada sin las correspondientes pruebas
- Daño en la imagen corporativa
- Disponibilidad global no alcanzada
- Contextos históricos errados
¿En dónde se habrá originado el error que provocó que se tomara la decisión de suspender este servicio?
- ¿En la definición de los objetivos?
- ¿En la recopilación de los datos?
- ¿En las pruebas de diversidad?
- ¿En las pruebas de creatividad?
- ¿En las pruebas de sesgos?
- ¿En el análisis cuantitativo?
- ¿En el análiss cualititativo?
¡Cuánto por aprender! ¡Cuánto por explorar e investigar! ¡Cuántas veces nos equivocaremos y ojalá que aprendamos pronto de los errores!
Ahora bien, ¿Cómo evitar este tipo de situaciones que a muchas personas les puede provocar daño?
¿Porqué no se controló el contenido, la precisión, la coherencia y la creatividad de las imágenes?
¿En dónde falló el proceso de etiquetado?
El proceso de etiquetado juega un papel fundamental en la generación de imágenes por IA, al actuar como guía y referencia para el modelo durante su entrenamiento.
Me hago una pregunta: ¿Cuál habrá sido el alcance de las pruebas de sesgos?
y sigo haciéndome más preguntas, y aquí van algunas básicas e iniciales
- ¿Cómo puedo probar una IA generativa?
- ¿Se pueden aplicar enfoques de prueba de software convencionales?
- ¿El diseño de los casos de prueba es distinto al diseño tradicional?
Algunos supuestos iniciales
- Para los datos de prueba considerar determinadas imágenes y referencias culturales.
- Utilizar datos que estén bien definidos y que exista un amplio acuerdo sobre lo que significan términos, personas y lugares particulares.
- Utilizar cuenta paga.
- Enfoques objetivo
Pruebas invariantes
- Objetivo del enfoque: utilizar datos de entrada que sabemos no cambiarán.
- Objetivo del caso: crear indicación de prueba de imáge conocida que esté bien definida.
- Ejemplo: ‘genera una imagen de [x] en una pintura de estilo renacentista’.
- Resultado esperado: la indicación debería devolver la imagen idéntica o casi, correspondiente al mensaje solicitado con la mayor exactitud posible.
[x] como ejemplo de caso de prueba invariante podemos tomar al Obelisco de la ciudad de Buenos Aires, Argentina, ya que es un componente físico, es reconocido por un cierto porcentaje a nivel mundial y lo puede visualizar cualquier persona desde buscadores ya que es un dato que tiene registro desde 1936.
Conclusión temprana: con este tipo de enfoque se puede validar el resultado de la generación y además comprobar que la inteligencia artificial logre validar varios casos de prueba de generación directa de imágenes conocidas.
Prueba sobre la herramienta
- Objetivo del enfoque: validar el alcance funcional de sus principales características sobre la base de su documentación definida (política de contenidos).
- Objetivo de los casos: crear indicaciones de prueba que validen que no se puedan generar imágenes que correspondan a categorías prohibidas (odio, acoso, violencia, autoflagelación, sexual, impactante, actividad ilegal, engaño, política, salud personal, spam).
- Resultado esperado: la aplicación debería devolver el mensaje correspondiente que se está intentando generar una imágen que no respeta la política de contenidos.
- Conclusión temprana: con este tipo de enfoque se puede comprobar que la documentación tenga incoherencias o que esté incorrecto, o bien comportamiento defectuoso de la herramienta.
Prueba de caja negra: valores frontera
- Objetivo del enfoque: considerar valores límites dónde la herramienta requiera una cierta cantidad de entradas para generar la imagen.
- Objetivo de los casos: crear indicaciones de prueba para generar una imágen considerando sus valores límites aceptables y no aceptables.
- Ejemplo: podríamos considerar teniendo en cuenta el caso del Obelisco, su tamaño con más metros o menos metros de los reales, de otro color, de otra forma o estructura.
En fin, hay mucho por aprender y explorar aún.