Home Reportagens Panasonic HD desenvolve IA generativa multimodal OmniFlow

Panasonic HD desenvolve IA generativa multimodal OmniFlow

IA generativa multimodal OmniFlow é capaz de gerar conteúdos entre texto, imagem e áudio

Por Ricardo Batalha

A Panasonic HD e a Panasonic R&D Company of America (PRDCA), em colaboração com pesquisadores da Universidade da Califórnia, em Los Angeles (UCLA), desenvolveram a OmniFlow, uma inteligência artificial generativa multimodal capaz de converter livremente diferentes formatos de dados, como texto, imagem e áudio, em um processo conhecido como geração “Any-to-Any”.

Nos últimos anos, a pesquisa em IA generativa multimodal, voltada para a conversão entre diferentes formatos de dados, tem avançado significativamente. No entanto, esse desenvolvimento normalmente exige a preparação de todos os pares de dados possíveis para o treinamento, o que aumenta consideravelmente os custos à medida que mais tipos de dados são incluídos. A OmniFlow supera esse desafio ao combinar, de forma flexível, modelos generativos especializados em texto ↔ áudio e texto ↔ imagem. Com isso, é possível treinar modelos de alta precisão mesmo com um número reduzido de conjuntos de dados contendo os três formatos (texto, imagem e áudio), reduzindo substancialmente o custo de criação de dados de treinamento.

A tecnologia foi reconhecida internacionalmente por sua inovação e será apresentada na conferência CVPR 2025 (Conference on Computer Vision and Pattern Recognition), um dos eventos mais importantes na área de visão computacional e inteligência artificial, que acontece em Nashville, EUA, entre 11 e 15 de junho.

Detalhes da tecnologia
A Panasonic HD e a PRDCA têm se dedicado ao avanço da IA generativa multimodal, especialmente com a inclusão do áudio junto a texto e imagens. Até agora, a obtenção de dados que combinassem os três formatos de maneira eficaz era limitada e onerosa.

OmniFlow propõe uma solução para esse problema ao expandir a estrutura existente de “flow matching”, tecnologia que utiliza fluxos para encontrar o caminho ideal de conversão entre dados arbitrários. Em vez de simplesmente fazer médias entre os dados de entrada, como ocorre em algumas abordagens recentes, a OmniFlow conecta e processa os três tipos de dados durante a geração, permitindo o aprendizado de relações complexas entre eles.

Uma das principais vantagens da OmniFlow é a possibilidade de integrar, com facilidade, IAs já especializadas em tarefas como geração de imagem a partir de texto ou geração de áudio a partir de texto, criando uma única IA multimodal. Como cada modelo já é eficiente em sua respectiva função, a OmniFlow alcança alto desempenho sem necessidade de grandes volumes de dados multimodais completos.

Nos testes de desempenho, a OmniFlow superou tanto métodos generalistas quanto modelos especializados nas tarefas de geração de imagem e áudio a partir de texto. Além disso, foi possível treinar o sistema com apenas 1/60 do volume de dados necessário em métodos “any-to-any” tradicionais.

A OmniFlow representa um avanço no campo das IAs generativas, com capacidade de operar com alta precisão mesmo em cenários com conjuntos limitados de dados multimodais. Aplicada em áreas como fábricas ou ambientes domésticos, essa tecnologia poderá gerar conteúdos especializados conforme as necessidades de cada contexto, ampliando significativamente o uso da IA multimodal.

A Panasonic HD continuará investindo na implementação social da inteligência artificial, promovendo o desenvolvimento de tecnologias voltadas à melhoria da vida cotidiana e do ambiente de trabalho de seus clientes.

Acompanhe a Panorama Audiovisual no Facebook e YouTube

Assuntos relacionados