A Arte na Inteligência Artificial

A Categoria De Arte Manipulada Digitalmente (Parte 1)
por Matteo Moriconi em colaboração com Luiz Velho, Noah Charney e Bernardo Alevato

Dall-e, Midjourney, Stable Diffusion e outras plataformas democráticas de AI são o principal assunto da internet atualmente. Eles representam uma convergência de diversos pilares tecnológicos. De um lado, temos a tecnologia que evoluiu na última década em sua compreensão da imagem digital. Por exemplo, se você tira uma foto de um copo e um livro sobre uma mesa hoje, a tecnologia é capaz de reconhecer que há três objetos na foto: copo, livro, mesa. Trata-se da identificação de padrões utilizando aprendizado de máquina. O software não apenas vê toda a imagem – nem depende de metadados inseridos por humanos (como o indivíduo que fez o upload da imagem digitando a informação de que ela deve ser categorizada como contendo um copo, um livro e uma mesa) -, mas é capaz de “pensar” por si mesmo e “ler” a imagem – tanto seu conteúdo quanto elementos mais efêmeros, como seu estilo (é uma imagem cubista, maneirista, uma fotografia ou uma pintura foto realista?­­­).

Outra tecnologia, que corre em paralelo a essa, é aquela usada para compreender a semântica humana. O ChatGPT e softwares similares aprendem como falamos, fazemos perguntas ou procuramos respostas. Eles podem entender perfeitamente os sentidos gramaticais e traduzir de um idioma para outro utilizando AI.

Ao descrever algo, você aplica regras gramaticais que ajudam as pessoas a compreender você. Se você diz, “Quero ver de novo”, as regras gramaticais  fazem com que o ouvinte saiba que você está falando sobre o ato de ver algo novamente, enquanto alguém não familiarizado com o idioma pode ouvir algo diferente, como “Quero verde novo”, e pensar que você quer um novo tom de verde. Essas regras também podem ajudar os computadores a compreender. Ao misturar semântica (o estudo do significado na linguagem), semiótica (o estudo dos símbolos como elementos da linguagem), AI e aprendizado de máquina, surge algo único. Peça à AI uma imagem de um “mar vinho escuro” – uma frase famosa da Odisseia – e ela saberá que você está utilizando uma metáfora, e não buscando uma imagem de um mar feito de vinho escuro.

Semântica e semiótica caminham juntas, porque você precisa da linguagem para comunicar ideias e solicitações, e você precisa de imagens evocadas pela menção de palavras para atender ao pedido corretamente.

É uma via de mão dupla. Aquilo que dizemos, os textos, as palavras evocam imagens na mente do ouvinte ou do leitor. Mas uma imagem também pode evocar palavras para descrevê-la. Mostre um gato a uma criança, por exemplo. A criança dirá, “Isso é um gato”. Ela aprendeu a identificar um gato, independente da cor, forma ou tamanho. Articular “gato”, um ato semântico, evoca uma imagem de um gato, o símbolo semiótico incitado pela palavra. Computadores que executam sistemas sofisticados de aprendizado de máquina também podem realizar esse truque de mágica de evocação. O mais avançados desses sistemas é chamado de Máquina de Aprendizado Lógico (LLM). Sobre isso, Philip Rosedale, fundador do Second Life, escreveu:

Philip Rosedale, fundador do Second Life

“As LLMs são nosso primeiro contato com a inteligência alienígena, e chegamos a elas porque a largura da banda de memória ainda era insuficiente para permitir que os hardwares da época atualizassem grandes redes neurais em tempo real, como fazem nossos cérebros. Então, em vez disso, encontramos outro caminho: treinamento offline usando gradiente descendente para processar uma enorme quantidade de texto e produzir um modelo fixo capaz de  concluir os textos em tempo real de comunicação. Esse tipo de inteligência é completamente diferente do nosso: nós aprendemos ajustando continuamente os pesos sinápticos em uma rede recorrente para melhor corresponder às entradas sensoriais e prever o futuro próximo. Então, agora, temos a oportunidade de explorar essa nova forma de inteligência e descobrir aquilo que ela é capaz de fazer de maneira diferente/melhor do que nós. Que momento histórico incrível para se estar vivo.”

A LLM cria para as máquinas um paralelo da forma como as crianças aprendem. Podemos considerar o Midjourney e as ferramentas de AI semelhantes como o equivalente do Microsoft Paint para um computador quântico – uma máquina que ainda não existe.

Ao descrever uma imagem, você está efetivamente usando palavras como prompts para inserir essa imagem na mente do ouvinte. É isso o que você faz ao inserir prompts textuais no software de AI. Os prompts fazem com que imagens vinculadas por categorias a seus metadados (a maioria dos quais é  proativamente reunida pelo software, sem depender de um ser humano para inseri-los na descrição da imagem quando é feito o upload na internet) sejam extraídas do “ruído” – o imenso conjunto de imagens depuradas de cada imagem disponível online. E cada solicitação irá resultar em uma imagem única. Se você tentar usar o mesmo prompt mais de uma vez, os resultados serão diferentes. Teoricamente, jamais haverá uma réplica exata produzida a partir de prompts idênticos em qualquer sistema de AI.

Ao convergir isso com AI e aprendizado de máquina para criar Arte AI, temos uma poderosa poção de evocação. Hoje é possível acessar uma enorme quantidade de dados e criar quase tudo o que se queira. Esses dados passam por modelos de computação neural, categorizados por tipos, formas, cores… todas as maneiras de descrever as imagens contidas nos dados. Esse processo cria o “ruído”, que utiliza matemática clássica e não clássica para reunir toda a informação disponível no processo de aprendizado de máquina.

Quando você escreve ou fala algo, trata-se de um prompt. Esse é o processo de “eliminação de ruído”. A descrição que você faz ajuda a selecionar o que você gostaria em meio a todo o ruído. No presente, apenas imagens bidimensionais podem ser evocadas. Imagens tridimensionais e vídeos serão possíveis, mas, antes, é necessário “eliminar o ruído”. Se o conjunto de dados é muito amplo, o ruído será bem rico, como uma sopa espessa. As imagens que você evoca serão baseadas no ruído. Como quando você pede a uma criança para descrever um gato, o gato evocado em sua imaginação é baseado em todas as imagens que ela absorveu e que associa ao prompt “gato”.

A imaginação é, obviamente, influenciada pela cultura de cada criança ou de qualquer pessoa que evoque uma imagem a partir de uma ideia textual. Uma das críticas à Arte AI, hoje, é que ela é produzida a partir de imagens disponíveis online, e esse ruído compreende, sobretudo, temas, imagens, personagens e obras de arte eurocêntricas. No futuro, o ruído e seus conjuntos de dados podem ter mais importância do que hoje, afetando a maneira como as próximas gerações concebem as imagens que acompanham suas ideias. Se o ruído for repleto de arquétipos caucasianos, isso pode influenciar a forma como as gerações pensam.

Por exemplo, a busca por imagens de “médicos” resulta quase exclusivamente em homens caucasianos de meia idade. Hoje compreendemos que qualquer pessoa pode ser um médico, independente de raça ou gênero, e que pode haver médicos recém-saídos da faculdade ou prestes a se aposentar. Mas, ao solicitar a uma ferramenta de AI a imagem de um médico, provavelmente obteremos apenas homens caucasianos de meia idade, vestindo um jaleco branco, independente de quantas vezes solicitarmos o termo profissional genérico. A AI é tendenciosa em favor das imagens já existentes em maior quantidade online.

Se no futuro houver um maior uso da AI não apenas para criar conteúdo baseado no que nós, usuários, pensamos que queremos ver, mas também para informar os usuários com base no que a AI cria, isso pode se tornar um problema, consolidando as tendências existentes online e as perpetuando. Se uma cultura não é bem representada online, se não é representada o suficiente para que a AI a considere digna de inclusão em meio a todo o ruído, então os elementos dessa cultura correm o risco de desaparecer da imaginação popular.

O lado semiótico da questão se dá quando o aprendizado de máquina entende que tipo de imagem você gostaria com base no que você pede e em como você pede. Ele também aprende como você vai falar com ele, fazendo pedidos. Consideremos, por exemplo, um iPhone, que permite que você dite mensagens de texto. Digamos que você queira enviar uma mensagem para alguém com um nome complicado para o computador entender, por exemplo, Mey-Mey. Trata-se de um nome incomum, com uma grafia peculiar, mas, a partir do momento em que você ensina ao iPhone esse nome, digitando-o e recusando as tentativas de autocorreção do software, o aprendizado de máquina entende o que você quer, entende que se trata de um nome próprio que você quer que seja escrito daquela maneira. A semiótica trata não apenas de fazer com que as máquinas aprendam os idiomas humanos, mas que também aprendam a se adaptar aos usos individuais das línguas, uma vez que todos falamos de formas diferentes e usamos nomes diversos.

O aprendizado de máquina ensina a si próprio o que você deseja quando você fala um prompt. Isso já é comum para nós, quando usamos serviços de streaming de música, como o Spotify. Podemos dizer “toque um bom rock” e, com base no que o serviço rastreou em termos do que gostamos – a partir daquilo que pedimos para ele tocar no passado, do que lhe ensinamos ao clicar no ícone de “curtir” quando ele toca uma música que apreciamos -, ele tocará algo de sua biblioteca que considera que iremos gostar. Pode ser uma música que ele sabe que apreciamos porque a tocamos com frequência ou porque a “curtimos”, mas o aprendizado de máquina está efetivamente acontecendo quando ele coloca para tocar uma música que nunca ouvimos antes – mas de que gostamos e que talvez se torne uma nova favorita -, porque a máquina aprendeu como nos agradar. O Spotify ainda não escreve ou grava novas músicas com base no que pedimos – esse aspecto criativo da AI ainda não foi concretizado, então, ainda não podemos dizer “Componha uma combinação de Megadeth e Woody Guthrie” e, em segundos, ouvir uma nova composição. Mas o aprendizado de máquina é bem estabelecido quando se trata de serviços de música. O serviço de música busca uma música preexistente com base em seu prompt.

Na Arte AI, a diferença é que o sistema não está buscando uma imagem preexistente, pensando ou sabendo que iremos apreciá-la. Em vez disso, ele cria, baseado em prompts, uma nova imagem, que nós apreciaremos porque cumpre a missão: apresentar-nos algo que, de fato, atende à solicitação do prompt.

Essa biblioteca de imagens significa que qualquer pessoa, independente de suas habilidades artísticas, pode usar a AI para evocar imagens com estilo. Ela democratizou a criatividade, trazendo as produções de indivíduos criativos para todos, independente da  formação ou competência artística de cada um.

Alguns artigos têm argumentado que a quantidade de imagens disponíveis online, o ruído, é muito focada em um determinado tipo de arte. Há, online, mais pinturas no “estilo ocidental”, por exemplo, que arte tribal da Oceania, logo, é mais provável que a AI crie imagens no “estilo ocidental”. Mas isso depende, na verdade, do que o criador solicita.  Se mais pessoas incluíssem “Oceania” em seus prompts, seria criado mais ruído nesse estilo, à medida que mais imagens que se adequam a esse estilo artístico integrariam a internet.

Greg Rutkowski

Tem sido fascinante observar o que os criadores desejam fazer utilizando softwares de AI. Por exemplo, o artista de fantasia Greg Rutkowski, cujas pinturas ilustram o mundo Dungeons & Dragons/Senhor dos Anéis, é um prompt mais popular do que Picasso. Mas isso, da mesma forma, não é um problema, nem é particularmente esclarecedor, apenas evidencia as preferências estéticas das pessoas que utilizam plataformas de AI, geralmente homens jovens e familiarizados com  tecnologia, que cresceram jogando vídeo games e são mais propensos a ser fãs de ficção científica e fantasia que do expressionismo alemão ou da fase azul de Picasso. O público reflete a utilização do Discord, o servidor de bate-papo focado em tecnologia – e videogame – que tem aproximadamente 140 milhões de usuários mensais ativos (enviando cerca de 25 bilhões de mensagens por mês), lançado há apenas alguns anos, em 2015. Ele faz literalmente isso, uma vez que que o Midjourney, a mais popular ferramenta de AI, fornece um gerador de imagem que é acessado por meio de um servidor de bate-papo do Discord. Você faz login no Discord e insere seus prompts ali mesmo, para que eles apareçam no bate papo.