Crônicas da IA: Diálogos Além do Tempo

Uma Produção Multimodal Multicasting

Projeto Piloto Estrelando: Steve Jobs e Aristóteles Apresentado por Divine FreeMan

Video Teaser

Steve Jobs e Aristóteles ganham vida, impulsionadas por tecnologia avançada de multicasting. Neste episódio de AI Chronicles, veja Steve Jobs interagir autonomamente com Aristóteles, conectando séculos de pensamento e inovação. Supervisionada por humanos, esta simulação explora como a inteligência artificial pode recriar e conectar as mentes do passado com os pioneiros da era moderna. Ciência, arte e cultura convergem em um ciclo harmonioso, oferecendo insights únicos sobre filosofia, criatividade e tecnologia.

Em 1983, durante a Conferência Internacional de Design em Aspen, Steve Jobs vislumbrou um futuro onde poderíamos capturar o “world view” de um Aristóteles moderno e interagir com ela, fazendo perguntas e recebendo insights profundos. Inspirados por essa visão, desenvolvemos um sistema multimodal de multicasting que possibilita simulações revolucionárias. Esta ferramenta representa um novo tipo de realidade interativa, combinando inteligência artificial avançada com experiências dinâmicas e sob demanda. Ao aproveitar os mais recentes avanços em IA, nossa plataforma cria um espaço onde realidades expandidas convergem com a curiosidade humana, desbloqueando o potencial para interagir com conhecimentos e perspectivas de maneiras transformadoras. Isso não é apenas uma simulação; é um vislumbre de um futuro onde a interatividade redefine como aprendemos, criamos e nos conectamos.

A Arquitetura do Multicasting Multimodal

O multicasting foi responsável por orquestrar o diálogo entre as personas de Steve Jobs e Aristóteles. Essa arquitetura cria sistemas adaptativos e inteligentes, ideais para simulação, treinamento ou redes de comunicação dinâmicas. Ela aproveita APIs impulsionadas por IA para oferecer desempenho e complexidade aprimorados, enquanto promove uma colaboração eficaz entre os agentes. Além disso, o uso de WebSockets garante interação e comunicação em tempo real de forma contínua em todo o sistema.

Integrando Multicasting com Experiências 3D Fotorrealistas: A Escolha pelo Unreal

Durante a pesquisa, foram estudadas diversas plataformas que poderiam oferecer uma experiência 3D com máxima portabilidade transmídia. As tecnologias Unreal e Unity foram as preferidas para integração com o multicasting. Embora ambas sejam motores de jogos poderosos para desenvolvimento 3D e 2D, possuem diferenças em suas forças e casos de uso. Nosso principal objetivo era provar o conceito e a integrabilidade com o multicasting. A escolha pelo Unreal foi motivada por sua capacidade de oferecer recursos fotorrealistas, como os MetaHumans, e permitir flexibilidade criativa máxima.

A integração entre Unreal Engine, Omniverse, e Audio2Face foi crucial para alcançar um lip sync preciso e sincronizado de forma eficiente durante a simulação. O fluxo de trabalho envolveu as seguintes etapas:

– Omniverse e Audio2Face
O Audio2Face, uma ferramenta baseada na IA da NVIDIA, foi utilizado para gerar animações faciais sincronizadas a partir de ondas de áudio. Ele converte as características do áudio em movimento facial, criando expressões e sincronização labial de forma automatizada e assíncrona.
O Omniverse serviu como uma plataforma intermediária para conectar o Audio2Face ao Unreal Engine, proporcionando um ambiente colaborativo e permitindo ajustes em tempo real nas animações geradas.

– Integração com Unreal Engine
Após gerar os dados de animação no Audio2Face, esses foram exportados para o Unreal Engine usando o Omniverse Connector, uma ferramenta que facilita a troca de informações entre as plataformas.
No Unreal Engine, os dados foram aplicados diretamente aos modelos 3D (como os MetaHumans), aproveitando a alta qualidade de renderização e o suporte para detalhes faciais fotorrealistas.

– Sincronização e Ajustes
A integração permitiu ajustes detalhados para garantir que as expressões e o movimento labial fossem naturais e consistentes com as vozes clonadas.
Embora a integração principal utilizasse dados assíncronos, foi observada a possibilidade de implementar soluções em tempo real, aumentando ainda mais a interatividade do sistema.

Essa configuração garantiu que o lip sync fosse altamente preciso e visualmente impactante, mantendo a qualidade e a eficiência necessárias para o projeto.

Clonagem de Vozes: Criando Experiências Imersivas com Credibilidade Sonora

Foram levantadas diversas questões sobre como clonar as vozes para a simulação. Atualmente, existem várias plataformas que permitem a integração de APIs com vozes neurais multilíngues, como Google Speech e Azure. No entanto, utilizar vozes que não fossem semelhantes à de Steve Jobs não seria suficiente para convencer o espectador e criar uma experiência significativa. A ideia era permitir que a experiência suspendesse a descrença por alguns minutos, possibilitando vislumbrar a exploração de algo profundamente envolvente e convincente.

Plataformas como Parrot AI e ElevenLabs já permitem a clonagem de vozes com um nível impressionante de realismo, replicando nuances vocais e proporcionando experiências auditivas altamente envolventes. Essas tecnologias foram utilizadas no projeto com o objetivo educacional de explorar possibilidades em simulações imersivas e interativas, sem qualquer intenção de infringir direitos autorais. Ao integrar essas ferramentas em experiências 3D fotorrealistas, como as desenvolvidas no Unreal Engine, foi possível enriquecer a autenticidade e criar um ambiente transmídia que promove aprendizado e inovação.

Criação dos Modelos 3D de Steve Jobs e Aristóteles

A criação dos modelos 3D de Steve Jobs e Aristóteles envolveu escolhas estratégicas para capturar a essência de cada figura histórica. No caso de Steve Jobs, o objetivo era criar um modelo o mais fiel possível à imagem que ele possui no imaginário coletivo, reforçando sua identidade visual marcante. Já o modelo de Aristóteles foi baseado em representações clássicas, como esculturas e bustos históricos, garantindo uma conexão visual com as tradições artísticas da antiguidade. Essas abordagens foram combinadas com tecnologias como ChatAvatar e modelos disponiveis no TurboSquid para assegurar precisão e qualidade hiper-realista, otimizadas para integração nos sistemas de simulação e multicasting.

Pré-visualização

Estilo no Produto Final

Uma etapa crucial do projeto foi dedicada à pré-visualização e à definição do estilo artístico a ser aplicado no produto final. Utilizando ferramentas como o MidJourney e técnicas de animação 2D com IA, foram exploradas diversas possibilidades para a caracterização dos personagens e a ambientação da cena.

– MidJourney: Essa ferramenta foi usada para gerar conceitos visuais e explorar variações estilísticas que equilibrassem realismo e estética artística. A tecnologia ajudou a criar referências visuais tanto para os personagens quanto para os ambientes, garantindo uma direção criativa coesa.
– Animação 2D com IA: Modelos de IA foram utilizados para criar animações rápidas e estilizadas, permitindo visualizar a interação entre os personagens em diferentes cenários. Essa abordagem também ajudou a definir texturas, cores e movimentos que pudessem ser posteriormente integrados às animações 3D.

A combinação dessas técnicas possibilitou experimentações criativas e uma visão clara do produto final, ajudando a alinhar a estética com os objetivos narrativos e tecnológicos do projeto.

Durante os experimentos, foi constatado que certos métodos poderiam elevar significativamente o nível de fotorrealismo das cenas. No entanto, tal abordagem comprometeria a portabilidade e a natureza transmídia do projeto, um aspecto considerado essencial para o sucesso da proposta.

Desenvolvimento do Storyboard

Simulação Jobs-Aristotles

Uma vez que a plataforma e o framework de diálogos—com o Unreal Engine conectado ao sistema de multicasting—foram definidos, o storyboard tornou-se uma parte essencial para a transição do projeto do conceito à produção. O storyboard forneceu um roteiro visual e narrativo claro, garantindo que cada cena estivesse alinhada com a visão do projeto de conectar as filosofias de Steve Jobs e Aristóteles. Ao mapear ângulos de câmera, sequências de cenas e a entrega dos diálogos, ele ofereceu uma estrutura que facilitou tanto o processo criativo quanto o planejamento técnico.

Divine FreeMan

O Apresentador de Encontros Atemporais

Divine FreeMan é um MetaHuman fotorrealista, criado com a tecnologia avançada do Unreal Engine. Desenvolvido para ser um apresentador sofisticado, o papel de Divine FreeMan é facilitar e mediar encontros hipotéticos e atemporais com uma perspectiva futurística.

Integrado de forma fluida aos sistemas dinâmicos do Unreal, Divine FreeMan oferece comunicação adaptativa e a capacidade de transmitir narrativas complexas de maneira envolvente e interativa. Sua presença conecta a humanidade às representações digitais mais avançadas, criando uma forma única de explorar cenários que transcendem o tempo e a realidade.

Divine FreeMan enriquece a experiência imersiva de projetos como “Jobs-Aristotle”, garantindo uma interação cativante e instigante entre história, filosofia e os avanços modernos.

Créditos Finais

O Multimodal Multicasting é uma pesquisa em andamento do Visgraf Lab em parceria com a VFXRio.

VFXROMA:
Matteo Moriconi – Direção e Supervisão de VFX
Emiliano Morciano – Animação e Design de Luz

VFXRIO:
Luiz Velho – Produção e Edição
Cris Lyra – Storyboard e Câmera
Bernardo Alevato – Gráficos e Efeitos Visuais

Este projeto representa um marco importante na exploração da integração de IA e tecnologias de ponta em narrativas transmídia. No futuro, implementaremos novos avanços para aperfeiçoar o pipeline, garantindo que ele atenda plenamente às necessidades dinâmicas das experiências transmídia.

Embora o uso de IA tenha sido fundamental para alcançar muitos aspectos deste projeto, reconhecemos as áreas em que o toque humano continua essencial. O equilíbrio entre a criatividade humana e as ferramentas impulsionadas por IA é chave para manter a autenticidade, a profundidade emocional e o senso de arte que não podem ser replicados apenas por máquinas. Esse equilíbrio continuará a nos guiar enquanto expandimos os limites da narrativa e das experiências imersivas.

Avant-première