En los últimos días hice un ejercicio en Midjourney consistente en darle oraciones describiendo lo que es, desde mi punto de vista, el momento más representativo del gobierno de cada uno de los presidentes de México para que genere imágenes. Los resultados están en este hilo de tuiter.
Creo que el ejercicio sirve para demostrar varios sesgos que tiene Midjourney, entre otras cosas. Mis reflexiones, sin orden particular de relevancia, a continuación:
El sesgo más obvio es el de la recencia de las personas a generar; dicho de otra forma, mientras más imágenes tenga Midjourney, más fidedignas serán las imágenes y, por definición, personajes más recientes tienen más imágenes para el algoritmo. Si no hay imágenes disonibles, el robot inventa. Por ejemplo, las imágenes más realistas, parecidas a las personas, se dan a partir de Carlos Salinas; para presidentes como Anastasio Bustamante, del que se conocen pocas representaciones visuales, Midjourney no sabe ni de qué o quién se le habla. Excepciones son Benito Juárez y Porfirio Díaz, para los que sobran imágenes de referencia.
Otro sesgo es… digamos… ¿racial? y concierne a la imagen que Midjourney tiene de los mexicanos: como todos sabemos, los mexicanos usamos bigote y sombreros. Lejos yo de quejarme de los estereotipos que algunos tienen de los mexicanos, pero la naturaleza de estas cosas es que se vuelvan exponenciales; si uno está preocupado por la estereotipación en sí misma, Midjourney debería inquietar.
Relacionado con los sesgos culturales de Midjourney, está la representación de Guadalupe Victoria. Quizá fue mucho pedirle a robot que generara una imagen del primer presidente de México. El robot intuyó que se le pidió una mezcla entre la Virgen de Guadalupe y la Reina Victoria de Inglaterra. Dicha fusión es pechugona y con escote, lo cual no deja de ser irónico e hilarante, tomando en cuenta que… la Virgen es la Virgen… y que Victoria Windsor se preció todo su reinado de promover la prudencia y el recatamiento. En fin… Todo esto para decir que, Midjourney no solo se inventa respuestas cuando ignora la correcta (como toda forma de inteligencia, artificial o humana, por cierto), sino que lo hace en sus términos, que son, como lo puede ver cualquier persona que pase 10 minutos en un canal de Midjourney-Discord, los de una audiencia que tiende a hipersexualizar a las mujeres.
Relacionado con inventarse respuestas, destaco las imágenes de Vicente Guerrero y de Miguel Alemán Valdés. En el primer caso, pareciera que Midjourney relacionó Vicente con México y el resto fue echar a volar la investigación para tener a don Chente Fernández; en el segundo, pareciera que el Valdés lo relacionó con Manuel “el Loco” Valdés.
Algo que es particularmente jocoso y reflejo de las imágenes que alimentan a Midjourney es… la concepción que tiene de los políticos mexicanos: hombres con trajes que les quedan chicos, tomándose fotos inútiles con documentos, y… genéricos en general, valga la redundancia. ¿Esto es un sesgo, o una representación estilizada de la realidad? ¿Y dónde empieza lo primero y termina lo segundo?
Felipe Calderon merece una mención especial. En épocas recientes, no ha habido presidente más caricaturizado que él. Si bien en la mayoría de los presidentes recientes el robot intento crear imágenes fidedignas, en el caso de Calderón de plano se fue directo a la caricaturización.
Todo esto me lleva a pensar en lo siguiente:
Nadie sabe qué va a pasar con prompt engineering. He leído argumentos convincentes tanto en el sentido de que es la profesión del futuro como de que es una moda o, en todo caso, una tarea que los propios algoritmos terminarán automatizando. La verdad es que no lo sé, aunque esto último lo dudo, porque si el robot no puede entender que Guadalupe Victoria fue un militar del siglo XIX, solo va a estar generando basura. Lo que sí sé es que los prompt engineers de imágenes buenos son los que generen imágenes verosímiles. Hacer una imagen de Álvaro Obregón que se le parezca es un reto en sí mismo… Dado que el robot confunde a Obregón con Villa, lo lógico es concluir que es más fácil generar a Obregón de manera indirecta (“hombre regordete con cara ajamonada, manco del lado derecho, con bigote tupido estilo morsa, etc…”), pero para eso es mejor tomar imágenes de archivo y alterarlas en photoshop, o en los propios comandos de Midjourney que ya alteran imágenes que uno sube.
En ese sentido, una utilidad perversa adicional para las generadoras de imágenes, además de la generación de deep fakes, será generar -o confirmar- las imágenes de nuestro pasado. La mayoría de las personas que ya tenían uso de razón en el terremoto de la ciudad de México 1985 seguro recuerdan esa época más o menos así.