"Make-A-Video" : ce qu'il faut savoir de la nouvelle intelligence artificielle de Meta qui génère une vidéo à partir d'un simple texte
La nouvelle intelligence artificielle de la maison-mère de Facebook en est à ses débuts et, comme souvent avec la technologie, elle offre à la fois beaucoup de promesses et quelques menaces.
Le système s’appelle Make-A-Video – "faire une vidéo" en français. Un formulaire à remplir permet de décrire une scène à l’écrit et l’intelligence artificielle s’appuie sur ces informations pour générer une vidéo qui s’en inspire. Les vidéos durent à peu près 5 secondes, sans son, avec une qualité d’image encore largement perfectible. Il suffit de taper "un robot fait du surf sur l’océan", "une soucoupe volante atterrit sur Mars" ou "un ours en peluche peint son propre portrait" et c’est ce qui apparaît à l’image.
Mark Zuckerberg, le PDG du groupe Meta, est très enthousiaste. Il parle d’un immense progrès, rappelant que créer une vidéo pose beaucoup plus de difficultés techniques que créer une photo, une image fixe. Pour l'instant, les seules vidéos qui circulent sont celles que Meta a bien voulu montrer mais elles sans doute assez convaincantes pour que des universités ou des entreprises se décident à injecter de l’argent dans la recherche.
Faut-il s'en inquiéter ?
Personne n’a eu accès au système, insiste le site The Verge, mais c’est la même logique qu’avec toute intelligence artificielle : on abreuve le système de millions de données pour qu’il les analyse et apprenne à réagir en fonction des circonstances proposées. Les sources utilisées dans ce cas précis contiendraient des centaines de milliers d’heures de vidéos.
Meta parle d’un outil qui pourrait devenir précieux pour les créateurs et les artistes. Mais, un peu comme avec le deep fake – qui permet de modifier des visages ou le mouvement des lèvres –, il est possible de se demander si la technologie ne risque pas d’être pervertie pour produire de la désinformation, pour asséner de la propagande ou même fabriquer des images pornographiques pour harceler des femmes. Meta admet que son modèle, parce qu’il s’appuie sur des données existantes, peut reproduire les stéréotypes qui s’y trouvent.
Le site The Verge note, par exemple, qu’il y a des chances que, si vous tapez "terroriste", la vidéo créée montre quelqu’un avec un turban. Ce problème, Meta en est conscient. La firme s’engage à échanger sur ses résultats et à affiner son intelligence artificielle émergente pour éviter, le plus possible, ce genre de dérives.