A OpenAI acaba de anunciar o GPT-4o, um novo modelo de linguagem multimodal que promete revolucionar a forma como criamos conteúdos visuais. Integrado com Sora, um modelo de geração de vídeos revolucionário, o GPT-4o oferece ferramentas para criar imagens e vídeos com uma qualidade e precisão nunca vistas antes. Estamos falando de criar imagens fotorrealistas e vídeos que parecem ter saído direto de um estúdio profissional.
O GPT-4o está projetado para ser utilizado no dia a dia. Quer fazer um logotipo, um infográfico, ou até aqueles diagramas técnicos complicados? Este modelo está aí para isso. Ele consegue lidar com até 20 objetos diferentes ao mesmo tempo e entender a relação entre eles, algo que até agora só era possível com 5 a 8 objetos nos modelos anteriores.
Outra coisa legal é que ele aprende ao analisar imagens que você mesmo envia, permitindo um aprimoramento constante nos designs que você quer criar. Se a ideia é refinar o processo de design de forma iterativa, o GPT-4o tem tudo para ajudar. Além disso, também é capaz de integrar textos nas imagens de forma precisa e sofisticada, usando códigos hexadecimais de cores, fundos transparentes e layouts bem elaborados.
Mas não é só isso. O modelo foi treinado com grandes quantidades de dados que combinam textos e imagens, aumentando a diversidade de estilos e permitindo atingir uma qualidade fotorrealista.
A Sora, agora parte integrante do GPT-4o, permite gerar vídeos realistas a partir de textos, imagens ou até mesmo de outras entradas de vídeo. Entre as ferramentas que ela oferece estão o Remix, para substituir ou imaginar novos elementos em vídeos existentes, e o Re-cut, que estende cenas isolando quadros-chave e preenchendo lacunas. E se você gosta de organizar suas ideias visualmente, o Storyboard está aí para ajudar, permitindo sequências personalizadas de clipes.
Também dá para fazer vídeos em loop, cortando e criando repetições perfeitas, ou combinar dois vídeos em um só clipe coeso. Para quem busca um toque artístico, existem predefinições de estilos que vão desde o visual de papelão até o de papel de artesanato.
O acesso à geração de imagens do GPT-4o já está disponível através dos planos ChatGPT Plus, Pro, Team e Free. E em breve, empresas e instituições de ensino também poderão aproveitar. Os desenvolvedores vão receber acesso à API nas próximas semanas. No que diz respeito aos vídeos, a Sora está disponível nos planos Plus e Pro do ChatGPT, oferecendo resoluções de 720p/10s e 1080p/20s, respectivamente.
Para garantir a segurança, há um sistema de moderação de conteúdo que bloqueia materiais explícitos ou prejudiciais, utilizando classificadores e marcações de metadados (C2PA). Apesar disso, o modelo ainda enfrenta alguns desafios—problemas no corte de imagens, alucinações em pequenas escalas e dificuldades na renderização de textos não latinos.
A missão da OpenAI com o GPT-4o e Sora é democratizar o acesso a ferramentas visuais avançadas. Seja um profissional ou alguém curioso, qualquer um poderá criar conteúdo de qualidade profissional com interação conversacional. Para isso, a OpenAI está comprometida com a melhoria contínua, coletando feedback no mundo real para superar desafios de segurança e técnicos que possam surgir.
Escreva um comentário