V-JEPA 2: modelos de vídeo autossupervisionados permitem compreensão, previsão e planejamento

30 Jun 2025@Lara_Notes_Translated

Englishto

Autoaprendizado que vê, entende e age: a revolução dos vídeos na inteligência artificial. Imagine uma inteligência artificial capaz de assistir a milhões de horas de vídeo e, sozinha, aprender não apenas a reconhecer o que vê, mas a antecipar o que vai acontecer e planejar ações concretas no mundo físico. Assim nasce o V-JEPA 2, uma abordagem vibrante que redefine como máquinas podem compreender e interagir com a realidade, inspirando-se no modo como humanos aprendem por observação. O segredo está em um processo de treinamento em duas etapas. Primeiro, o modelo mergulha em mais de um milhão de horas de vídeos e imagens, sem qualquer informação explícita sobre ações. Ele aprende a prever partes faltantes de cenas, desenvolvendo uma representação interna rica dos movimentos, aparências e relações temporais dos elementos. Essa base visual poderosa é depois combinada a um modelo de linguagem, tornando-se capaz de responder perguntas sobre vídeos e demonstrando raciocínio físico e temporal de última geração. Mas o salto mais impressionante surge no segundo estágio: ao receber uma quantidade mínima de vídeos não rotulados de robôs em ação, o sistema é capaz de prever os efeitos de comandos e, sem nenhum ajuste específico para tarefas, manipular braços robóticos em ambientes inéditos, pegando e posicionando objetos com base apenas em imagens de objetivo. Não há recompensa, não há indicações explícitas – apenas a pura habilidade emergente de planejar e agir, transferida diretamente da observação massiva do mundo visual. Os resultados são surpreendentes. O modelo supera recordes anteriores em tarefas de reconhecimento de movimento, antecipação de ações humanas e questionamento sobre vídeos. Mostra que um encoder visual, treinado sem qualquer supervisão textual, pode ser alinhado com um modelo de linguagem e atingir desempenhos líderes, contrariando expectativas estabelecidas. No coração dessa inovação está a ideia de que, escalando o autoaprendizado com vídeos e agregando um pouco de experiência de interação, a inteligência artificial pode construir modelos internos do mundo comparáveis ao nosso: capazes de entender, prever e agir, mesmo diante de situações completamente novas. O V-JEPA 2 inaugura uma era em que observar o mundo já é suficiente para preparar máquinas para pensar e agir como agentes verdadeiramente inteligentes.

0shared

V-JEPA 2: modelos de vídeo autossupervisionados permitem compreensão, previsão e planejamento

I'll take...