Il passo successivo a ChatGPT sono i sistemi multimodali, si tratta di sistemi che usano testo ma anche vista, filmati, e altri sensi e sembra che questa multimodalità li renda ancora più robusti.
In pratica un ipotetico chatGPT che impara anche guardando video e immagini e sentendo dialoghi, e non solo leggendo testi risulti molto più bravo a generare testi rispetto ad una IA allenata solo sui testi.
anche google stà facendo una cosa simile:
https://arstechnica.com/information-...ural-commands/