George Drettakis peut être content de lui. Avec son équipe de l’Institut national de recherche en sciences et technologies du numérique (Inria) de Sophia Antipolis (Alpes-Maritimes), GraphDeco, et un collègue de l’Institut d’informatique Max Planck de Sarrebruck (Allemagne), ils ont développé un algorithme qui bat les concurrents de grandes entreprises comme Google et Nvidia, dans un domaine où ils excellent, la vision par ordinateur. Plus précisément, ce nouveau programme réalise un vieux rêve : le rendu tridimensionnel de scènes à partir de simples photos.
Autrement dit, quelques plans d’un objet, d’un bâtiment, d’une foule suffisent pour ensuite les voir sous n’importe quel angle, zoomer, faire pivoter… Les professionnels des effets spéciaux du cinéma, ceux du jeu vidéo, les architectes pour visualiser leurs projets dans leur environnement, les agences immobilières pour montrer des maisons, les ingénieurs robotiques (pour guider la machine, mieux vaut avoir les « plans » en trois dimensions)… sont friands d’une telle fonction.
Jusqu’en 2020, des méthodes permettaient de réaliser ce rendu, mais nécessitaient beaucoup de temps de calcul pour des résultats assez imprécis (manque de reflets, détails invisibles, « trous »…). Pour commencer, à partir de deux images, prises sous deux angles différents mais ayant des pixels en commun, une carte de profondeur est calculée. Cela génère un nuage épars de points dans l’espace, sorte de fantôme diaphane de la scène. Ce nuage est ensuite densifié pour donner corps au fantôme. Ensuite, étape coûteuse en calcul, un maillage de petits triangles est déduit de ces points, sur lesquels des surfaces, des couleurs et des textures sont appliquées pour générer les formes.
En 2020, une équipe de Google révolutionne le domaine avec sa méthode NeRF, basée sur des réseaux de neurones artificiels. Cet objet, au cœur de l’intelligence artificielle contemporaine, permet d’encoder la scène de manière très abstraite. Cet encodage prend du temps, quarante-huit heures de calcul pour les scènes qui servent de référence aux chercheurs pour tester leurs algorithmes, mais la précision des images est bien meilleure.
A l’été 2023, l’équipe de Sofia Antipolis frappe fort avec sa méthode « 3D Gaussian Splatting » ou 3DGS, pour « éclatement de gaussiennes tridimensionnelles ». En trente minutes, elle obtient à partir d’une centaine de photos un modèle tridimensionnel qui peut alors être vu sous tous les angles à raison d’une centaine d’images de haute qualité par seconde. C’est cent fois plus que l’Instant NGP de Nvidia, qui lui-même fait cent fois mieux que NeRF. « Je n’ai pas l’habitude de me mettre en avant. Mais je ne pensais pas rencontrer cette situation où, après plus de vingt ans de travail consacré à ce problème, je peux presque dire qu’il est résolu. »témoigne George Drettakis, qui insiste sur un financement public pour ces travaux (Inria et subventions du Conseil européen de la recherche notamment).
Il vous reste 43,64% de cet article à lire. Le reste est réservé aux abonnés.
" La Hongrie critique l'OTAN de l'intérieur, sous le parapluie sécuritaire de l'OTAN, et critique l'UE sous le parapluie économique…
EN DIRECT. Gouvernement : Macron a demandé à Barnier de retirer Garnier, ancien soutien de la Manif pour tousBFMTVEn direct,…
ALAIN JOCARD / AFP Le style du tireur sud-coréen est rapidement devenu viral sur les réseaux sociaux. ALAIN JOCARD /…
En attendant que le casting gouvernemental soit officialisé, même si aucune fumée blanche ne s'est échappée de Matignon, l'opposition critique…
On n'est jamais mieux servi que par soi-même. Alors que les finances publiques sont au plus mal, les laboratoires pharmaceutiques…
Stoppé dans son élan. Le FC Barcelone, irréprochable jusqu'ici cette saison et leader de la Liga, a perdu son premier…