Conheça esse sistema inteligente programado para gerar cliparts ou imagens fotográficas obedecendo a descrições na forma de texto e com pote...
Conheça esse sistema inteligente programado para gerar cliparts ou imagens fotográficas obedecendo a descrições na forma de texto e com potencial de afetar o emprego de muitos ilustradores e até mesmo toda uma indústria.Sim, sabemos que a inteligência artificial pode transformar toda a relação de trabalho do mundo e até mesmo nos tornar obsoletos. Por isso, a cada novo passo que esse área da computação caminha em direção da singularidade tecnológica clamamos a atenção da espécie humana para pactuar uma nova forma de economia (onde a máquina substituirá cada trabalho humano, como vaticinou o Fórum Econômico Mundial).
DALLE-E é uma versão de 12 bilhões de parâmetros de outra criação da OpenAI, a GPT-3, e foi especialmente treinada para gerar imagens a partir de descrições de texto, usando um conjunto de dados de pares texto-imagem. Seus desenvolvedores descobriram que ela tem um conjunto diversificado de recursos, incluindo a criação de versões antropomorfizadas de animais e objetos, combinando conceitos não relacionados de maneiras plausíveis, renderizando texto e aplicando transformações a imagens existentes.
E dada sua capacidade de gerar efeitos ópticos, como a distorção “olho de peixe”, eles resolveram explorar sua capacidade de gerar reflexo com uma ordem curiosa. Pediram para DALL-E completar a imagem de um espelho sobre um chão reflexivo com algum objeto. Aqui DALL-E foi duramente testada já que muitas vezes a imagem refletida mostra uma região do objeto que não vemos (e se temos que desenhá-la, temos que “imaginar” como seria essa parte). DALL-E se saiu melhor mostrando o reflexo no chão tendo no espelho algumas bizarrices com objetos mais complexos como um Cubo de Rubik.
E essa nova etapa foi protagonizada pela programação de um nova rede neural, lançada há poucos dias, denominada DALL-E, uma junção de Dali (Salvador Dali é um famoso pintor surrealista) e Wall-E, um robô de uma animação da Disney, que demonstrou em um post um surpreendente potencial de parecer criar novas imagens até melhor do que a maioria de nós, humanos, conseguiria imaginar.
Esse projeto, desenvolvido pela Open AI (uma entidade que estuda e desenvolve IA e que foi confundada pelo Elon Musk, ainda que ele tenha abandonado a entidade por achar que a IA é mais perigosa que bomba nuclear e haveria conflitos de interesse por ser ele dono da Tesla Motors) permite que você peça para DALL-E que gere imagens de “pavão feito de melancia” e você obterá várias delas com uma incrível variedade oferecendo um novo sentido ao termo “Watermellow Sugar High”, como pode ser visto a seguir.
Alterando um pouco o texto para “um elefante feito de sushi” foram obtidas outras imagens igualmente, hãn..., como diríamos? Criativas?!? Imaginativas?!? Eu sei o quanto esses adjetivos para algoritmos são polêmicos. Mas pense por um instante: O que você criaria em sua mente se tivesse que pensar em um elefante feito de sushi?
DALLE-E é uma versão de 12 bilhões de parâmetros de outra criação da OpenAI, a GPT-3, e foi especialmente treinada para gerar imagens a partir de descrições de texto, usando um conjunto de dados de pares texto-imagem. Seus desenvolvedores descobriram que ela tem um conjunto diversificado de recursos, incluindo a criação de versões antropomorfizadas de animais e objetos, combinando conceitos não relacionados de maneiras plausíveis, renderizando texto e aplicando transformações a imagens existentes.
Por exemplo, ao receber a descrição de “uma ilustração de um pepino bebê usando jaqueta de couro soltando fogos de artifício” DALLE-E gerou as seguintes imagens antropomorfizadas de um pepino.
Isso já é sensacional. Mas ela vai além, muit além. Ela pode, por exemplo, completar a imagem de um personagem bem conhecido, como Homero, tendo apenas parte da imagem a ser completada. Ela consegue supor o complemento inclusive rotacionando a imagem de entrada e continuar respeitando com precisão o ângulo e o sombreamento na imagem final. O que faz os seus criadores acreditarem que DALLE-E pode muito bem gerar animações convincentes.
Seu conhecimento geográfico (quando foi instruído para fazer imagens da bandeira do Brasil), histórico (quando gerou telefones dos anos 1920) e até mesmo quando teve que completar testes visuais de QI revela que, ainda que não seja perfeito, DALL-E pode causar impactos sociais consideráveis quando suas funcionalidades estiver plenamente disponíveis no mercado. Como até mesmo seus autores reconhecem.
Reconhecemos que o trabalho que envolve modelos generativos tem potencial para impactos sociais amplos e significativos. No futuro, planejamos analisar como modelos como DALL-E se relacionam com questões sociais, como impacto econômico em determinados processos de trabalho e profissões, o potencial de viés nos resultados do modelo e os desafios éticos de longo prazo implícitos por esta tecnologia.
Mas sempre devemos nos lembrar que mesmo tendo um risco de incendiar toda a atmosfera, como os cientistas da época ponderaram, a bomba nuclear não deixou de ser lançada. Imagine uma tecnologia que vá, em um primeiro momento, apenas desempregar ilustradores e fotógrafos.
Fonte: Open AI (DALL-E)
Visto no Brasil Acadêmico
Visto no Brasil Acadêmico
Comentários