You are currently viewing L’Apple Vision Pro, une nouvelle fenêtre sur le monde
Apple Vision Pro © DR

L’Apple Vision Pro, une nouvelle fenêtre sur le monde

 

D’un côté, l’objet est très innovant, plein de promesses, d’un autre l’offre de contenus tarde à décoller. Quel avenir prédire au dernier-né du géant californien ? Pour mieux répondre à cette question, commençons par rappeler le contexte technologique dans lequel l’Apple Vision Pro vient trouver sa place.

 

La XR en 2025, dix ans de progrès

Apple Vision Pro © DR

L’arrivée d’Apple poursuit la consolidation de l’écosystème VR. Depuis les années 60, la VR était une de ces technologies « phénix » qui renaissait de ses cendres tous les quinze ou vingt ans. Il est raisonnable de dire que le cycle s’est enfin stabilisé après 2015, avec la présence continue de Meta qui a écoulé 20 millions de casques, concrétisant ainsi la naissance d’une plate-forme grand public commercialement viable.

Google a récemment repris les équipes XR de HTC et continue de développer son OS dédié, renommé Android XR. Le géant chinois Byte Dance a intégré Pico, lui donnant accès à ses importants moyens financiers, industriels et scientifiques. Seul Microsoft marque une pause avec le retrait des lunettes HoloLens et la fermeture de la plate-forme Windows MR, mais le compense par sa participation à la plate-forme XR de Meta.

Trois standards industriels complètent ces OS open source mais propriétaires :

  • WebXR est un standard de la W3C, la fondation gérant les standards Web. Conçu pour les applications super légères, il permet de créer des mondes VR complets contenus dans une page Web. De plus, une page WebXR peut être visitée depuis un ordinateur, un téléphone ou un casque, tant en VR qu’en AR.
  • OpenXR est un standard du Kronos Group, les créateurs de OpenGL. Il permet de ne créer qu’une seule application pour tous les casques compatibles. Une pour Android, une pour Windows, et vous voilà déployable sur des dizaines de modèles de casques. OpenXR est si robuste que Méta en a fait son mode par défaut, mettant fin au développement de son API native. Largement adopté dans l’industrie, il est nécessaire à tout nouveau casque entrant sur le marché.
  • CloudXR est un produit de Nvidia, dédié aux applicatifs gourmands, qui permet de calculer dans le cloud, sur des PC ultra puissants, une expérience VR distribuée, avec une qualité visuelle optimale, vers n’importe quel casque puisque les clients Android et PC sont open sourcés.

 

Les usages se précisent en attendant la killer app

Apple Vision Pro © DR

La VR attend toujours sa killer app, l’application révolutionnaire qui justifie à elle seule l’achat de l’équipement. Réussira-t-elle à s’en passer, comme nos smartphones se sont imposés par un lent glissement d’usage depuis nos ordinateurs ? Dix ans de déploiement permettent de commencer à en lister les usages.

Les jeux vidéo constituent actuellement l’usage principal des casques de VR. Dans ce domaine, il faut citer Beat Saber et Gorilla Tag qui revendiquent chacun 10 millions de joueurs sur Quest, soit un taux de pénétration de 50 % sur cette plate-forme. Dans le domaine des jeux plus élaborés, Alyx est une très belle démonstration de jeu AAA qui s’est vendu à 2 millions d’exemplaires.

Une production ininterrompue de mini fictions, de documentaires ou d’expériences interactives fournit un catalogue en croissance constante de contenus de qualité, régulièrement primés dans les grands festivals de cinéma, comme Cannes ou Venise, qui incluent maintenant une catégorie arts immersifs dans leurs récompenses.

Le métavers est passé de promesse à trépas en une seule saison, victime d’un effet de mode fulgurant. Ne doutons pas que ce phénix reviendra, probablement sous un quatrième nom après les « mondes virtuels » des années 90 et le « cyberespace » des années 2000.

La VR comme nouvel écran constitue un usage émergent, permis par la dernière génération de casques dont l’AVP fait partie. Que direz-vous de transporter dans une modeste sacoche, un écran de cinéma, une télévision et plusieurs moniteurs pour votre ordinateur ? Voyons ce qui rend cette promesse crédible avec l’AVP, mais aussi ses limites.

 

Les progrès en qualité de la Réalité Virtuelle

Les écrans qui nous entourent poursuivent une double course, gagner en résolution, mais aussi réduire en taille et se rapprocher de nos yeux. Du cinéma à la télévision, du desktop au laptop et de la tablette au smartphone, ce sont toujours plus de pixels, et toujours plus près de nos yeux. La VR poursuit cette marche, devenant l’écran posé sur notre nez.

 

Le pixel par degré, critère de qualité en VR

Le Vision Pro permet de regarder en 3D les vidéos spatiales tournées avec un iPhone Pro 15 ou 16. © DR

 

La résolution des casques de VR s’affiche en 4K, 5K, 8K, et ces valeurs ne sont pas l’équivalent d’un écran plat posé devant vous. Elles correspondent à la résolution, parfois additionnée, des écrans inclus dans le casque. Face à ces écrans qui recouvrent un champ de vision d’environ 100 degrés, vos yeux ont la capacité de distinguer environ 60 pixels par degrés, les fameux PPD. C’est une valeur arbitraire, qui sert de référence pour une vison dite 20/20. En théorie, il faudrait donc des écrans de 6K pour parvenir à une résolution parfaite. Mais dans un casque de VR comme dans une caméra, cette performance électronique ne dit pas tout. L’optique et le traitement d’image comptent pour beaucoup.

La première génération de casques (HTC Vive, Oculus Rift) n’offrait que 10 ppd de résolution. Le Vario VR1 fut le premier à proposer une résolution dépassant les 30 ppd. Depuis, le Meta Quest 3 et le casque Apple, entre autres, emploient des lentilles asphériques qui allouent davantage de résolution au centre du champ de vision qu’à la périphérie. Le ppd réel devient alors difficile à calculer et doit être mesuré expérimentalement. Ce qui peut se révéler difficile puisque de nombreux traitements d’image entrent en jeu.

 

Quelle est la résolution visuelle de l’AVP ?

L’Apple Vision Pro est annoncé avec une résolution centrale de 44 ppd. Un débat de spécialistes fait rage quant à la capacité de l’AVP d’effectivement remplacer un écran d’ordinateur, en raison des nombreux traitements d’image nécessaires en VR.

Pour commencer, l’image affichée et le résultat d’un rendu 3D où l’écran virtuel de votre ordinateur est une texture dans un monde virtuel, dont est calculé la projection inverse sur la caméra virtuelle simulant votre vue. Ensuite, les lentilles affectant fortement la géométrie de l’image, une déformation « en tonneau » est appliquée à ce rendu en 3D. Pour continuer, les aberrations chromatiques des lentilles demandent un traitement différencié des plans rouge, vert et bleu, rendant inopérants certains algorithmes d’optimisation de l’affichage de texte.

Apple compense ces limitations via son API d’affichage sur des écrans hétérogènes « side-car », par exemple en forçant tous les textes à un Bold mode. L’eye tracking aussi est mis à contribution pour compenser les aberrations optiques en fonction de la place exacte de votre pupille dans le champ optique.

 

Les progrès en qualité de la réalité augmentée

L’AR est de plus en plus utilisée en design automobile pour des maquettes virtuelles à l’échelle 1. © DR

 

Dans des lunettes AR, l’information lumineuse virtuelle est ajoutée, superposée à la lumière ambiante, par un procédé optique. On parle d’Optical See Through, OST. Les optiques sont soit des miroirs semi-transparents, les « bird bath » de la Microsoft HoloLens, soit des verres canalisant la lumière, les « wave guides » des Meta Orion et de Leap Magic

Pour les casques XR, l’information lumineuse du monde réel est captée par des caméras placées dans l’axe du regard, et sert de « fond d’écran » sur lequel les images virtuelles sont ajoutées. On parle alors de Video Path Through, VPT. C’est un procédé plus complexe mais plus efficace que l’AR-OST.

La complexité réside à deux niveaux. Premièrement, la boucle caméra-traitement-affichage doit être extrêmement rapide, d’environ 10 à 20 ms. C’est la latence dite « photon-to-photon », délai entre l’arrivée d’un photon sur le capteur de la caméra et la sortie de son alter ego de l’écran du casque. Tout retard peut entraîner des effets de vertige ou de nausée. Sachant qu’il faut normalement un à quatre cycles image pour chacune des étapes de traitement, incluant la transmission des données, c’est un facteur 10 qu’il a fallu trouver. Pour y parvenir, le line scan des caméras est synchronisé avec l’affichage de l’image dans les écrans, reprenant le concept de Genlock des caméra broadcast, mais en incluant le délai de traitement en GPU.

Deuxièmement, il faut pouvoir « poser » précisément les objets virtuels dans cette image du monde réel. Sinon ils sembleraient flotter dans le vide et glisser sur leurs supports. Mais il faut aussi les placer très précisément en 3D, sinon ils casseraient la cohérence stéréoscopique en occultant des objets réels plus proches qu’eux. C’est donc une position dans l’espace de chaque pixel capté qui est nécessaire pour pouvoir ajouter convenablement les images de synthèse. Cette information, dite de 3D+Z, est la combinaison de traitements d’image et de capteurs Lidar.

Encore une fois, Apple intègre son expérience acquise sur des tablettes et téléphones en acquisition de profondeur avec ses capteurs Lidar et à lumière structurée de Face ID.

 

La genèse du Vision Pro

Les offres de contenus pour l’Apple Vision Pro le placent clairement comme une nouvelle forme de télévision. © DR

Depuis sa fondation, il y a un demi-siècle, la stratégie d’Apple est de viser la niche du haut-de-gamme en promettant plus pour plus cher. De 2006 à 2022, les Macs sont des PC haut de gamme, tandis que MacOS est un Unix depuis 2001. Le premium de la marque Apple nécessite donc que l’expérience client soit sensiblement supérieure. D’où l’exigence de perfectionnisme de Steve Jobs. Lorsqu’il lance l’iPod puis l’iPhone, ils ont des produits concurrents, présents sur le marché depuis longtemps, mais Apple réussit à les faire oublier jusqu’à parvenir à sembler en avoir inventé le concept. Qui se souvient des lecteur MP3 ? Qui se souvient des BlackBerry ?

Voilà quelle était l’équation à laquelle le Vision Pro, comme tout nouveau produit Apple, devait répondre : être suffisamment en avance sur la concurrence pour justifier son prix par un sentiment de rupture technologique portée par l’expérience ergonomique.

Des équipes de très haute expertise ont été réunies pour produire cette merveille de technologie qu’est l’Apple Vision Pro. Visuellement irréprochable et ergonomiquement incomparable à la concurrence. Le tout devant se réaliser dans un secret absolu permettant de lancer le casque sans quasiment aucune fuite dans la presse. C’est ainsi qu’il sort sans nouvelle application notable, et se démène depuis pour trouver son biotope.

Mais ce n’est pas grave car il est à la fois un produit professionnel et un devkit qui précède un produit grand public. Pour nous, professionnels, c’est un outil pour développer des jeux VR qui seront commercialisés dans deux ans, et pour s’entraîner à créer contenus cinématiques en très haute résolution.

 

Une ergonomie profondément innovante

Un casque XR permet de travailler sur de nombreux écrans virtuels sans s’isoler du monde réel. © DR

 

Apple a fourni un vrai effort et peut revendiquer une réussite notable dans l’innovation ergonomique. Le principal axe de progrès est permis par la qualité de l’eye tracking si précis qu’il permet de taper des textes en regardant un clavier virtuel. C’est une expérience inédite de pouvoir copier-coller des sections entières de texte par le simple regard.

Pouvoir appliquer la consigne radicale de Steve Jobs – « S’il faut lire un mode d’emploi, votre UX n’est pas digne d’Apple » – pour un outil aussi différent de ses prédécesseurs, est un tour de force qui doit être souligné. L’AVP se contrôle sans manettes, se dirige avec les yeux et sait interagir avec un seul simple geste, le pincement de doigts qui fait office de clic. L’expression « obéir au doigt et à l’œil » semble avoir été le cahier des charges des équipes de développement.

 

Ce que contient le AVP

La VR permet d’immerger le spectateur à la fois dans des scènes spectaculaires et dans l’intimité des protagonistes. © DR

Pour parvenir à ce niveau de qualité, Apple a su intégrer toutes les briques nécessaires, des écrans, des capteurs et de la puissance de calcul, principalement en allant piocher dans son éventail de technologies maison.

Pour l’affichage, des écrans 4K sont montés sur des optiques avec une distance inter pupillaire motorisée, et le support d’inserts ophtalmiques pour s’adapter à votre correction. Très peu à reprocher à ces éléments. Les écrans viendraient de chez Sony et Zeiss, fournisseur des inserts, serait l’opticien en charge des lentilles.

Pour la perception du monde environnant, Apple emploie un ensemble de caméras noir et blanc, couleur et infrarouge, mais aussi des capteurs Lidar et sa caméra 3D à lumière structurée, la TrueDepth des iPhones.

Pour animer le tout, Apple associe la puissance de calcul d’un processeur M2 à un nouveau processeur R1 dédié aux calculs spécifiques de la XR. Ce processeur, qui gère tous les senseurs et intègre l’image des caméras avec les informations de mouvement, atteint une latence « photon-to-photon » de 12 ms. Il est d’une taille équivalente au M2, on peut donc estimer qu’il comporte autant de transistors et présente donc une puissance de calcul équivalente. Il tourne avec OS temps réel afin d’assurer une plus grande sécurité à l’utilisateur.

Fort de ces équipements, l’AVP réussit à proposer une expérience nouvelle. L’AVP ne rend pas aveugle, ni même myope. Non seulement il permet de voir le monde réel, mais il le fait avec une acuité visuelle qui fait qu’on ne l’enlève ni pour lire un message sur son téléphone, ni pour boire son café. Alors que tant de services marketing ont produit des publicités mensongères, faisant surgir des baleines dans des gymnases, Apple propose enfin l’outil technique qui permet cette magie. Ils ne sont pas les premiers, mais ils le font suffisamment mieux que leurs concurrents pour pouvoir le prétendre.

L’AVP n’isole pas son utilisateur de ses proches. C’est le sens de l’ajout d’un écran sur la face extérieure de casque, sur lequel s’affichent les yeux de l’utilisateur. Un écran très complexe puisqu’il est autostéréoscopique, permettant théoriquement d’afficher les yeux en 3D et la profondeur précise des yeux de l’utilisateur. C’est loin d’être un gadget, puisqu’il permet théoriquement de maintenir le contact avec le regard de l’utilisateur, facteur critique dans les interactions sociales, et raison d’être de la visioconférence. Dans les faits, l’écran lenticulaire est très sombre, limitant son usage.

En résumé, c’est un casque qui parvient à se rendre invisible, tant de l’intérieur que de l’extérieur. Grâce à lui, la fameuse interaction à la « Minority Report » devient possible.

 

Conclusions

  • Quels usages pour l’AVP ?

L’AVP prétend être le précurseur d’une nouvelle famille d’objets numériques, permettant de nouveaux usages. Il peut difficilement être comparé directement à la précédente génération d’outils. Votre smartphone ne permet pas de jouer comme sur une console de jeu, n’a pas la taille de l’écran de votre tablette ou du clavier de votre ordinateur. Mais les performances en AR du Vision Pro permettent de lire un message sur un téléphone ou un document imprimé. C’est certes un peu flou, mais c’est lisible. En cela, c’est un outil d’exploration de nouveaux usages, pas encore le produit parfait.

 

  • Le remplaçant de la défunte Télévision qu’Apple n’a finalement jamais produite

La proposition d’usage, telle que présentée sur les images promotionnelles du Vision Pro, est presque toujours de s’asseoir dans un canapé. L’UX œil/main évoque plus une télécommande que les pistolets des autres casques VR. La ressemblance est frappante. Le plan marketing est probablement d’en vendre une par personne dans les foyers, comme les téléphones, et non pas une par pièce comme les TV. Ce nouveau média est une sorte de télévision personnelle, de salle de cinéma dans votre sac à dos, qui permet de plus de faire des soirées télé-foot virtuelles, avec ses amis, et sans se déplacer.

 

  • Un devkit pour cette future Apple TV

Certes, il est cher, mais c’est le prix à payer pour participer à l’innovation. Cela vous permet de développer des contenus à une résolution qui ne souffrira pas d’obsolescence, et de poursuivre votre recherche en expérience utilisateur. Vous serez prêts pour le prochain produit de la gamme qui sera moins cher et donc vendu en masse.

 

  • Un media professionnel de haute qualité

Avec son fini luxueux et son image irréprochable, le Vision Pro est un media premium qui ne dénotera pas dans un événement d’entreprise. Les récentes mises à jour, qui permettent un meilleur contrôle de l’expérience dans le casque depuis un téléphone associé et potentiellement manipulé par un hôte d’accueil, semblent indiquer que Apple répond déjà à une demande du marché dans cette direction.

 

  • Un nouvel outil numérique personnel

Avec la puissance du processeur M2 qui anime sans rougir des laptops, et son intégration dans l’écosystème Apple, le Vision Pro vous donne accès à 90 % de ce que vous faites sur un Mac. Habituez-vous à dicter vos textes et à cliquer avec les yeux, et vous serez surpris de l’efficacité de l’outil. Pour les récalcitrants, il est facile d’y connecter un clavier avec trackpad. C’est une expérience intéressante que de placer dans l’espace autour de soi les diverses applications que l’on utilise en parallèle.

 

  • Un écran externe pour votre Mac

Avec toutes les limitations de résolution vues précédemment, l’AVP reste un bon outil pour simuler un grand écran, voire pour travailler en toute confidentialité dans un lieu public.

 

  • Un casque pour jouer en VR sur PC

Difficile de dire si Apple avait prévu cet usage, mais il est possible de jouer aux jeux PCVR sur un Vision Pro, à l’aide d’outils logiciels et de contrôleurs développés à cette fin. Pour les jeux AAA, c’est une redécouverte que de pouvoir enfin les jouer à pleine résolution visuelle.

 

Vivre l’expérience d’un concert, mieux qu’au premier rang, directement assis sur la scène, telle est la promesse de la dernière production Apple Immersive. © DR

Quel futur ?

Le Vision Pro est un investissement qui aura une bonne durée de vie. Ce n’est pas une station graphique qui sera périmée l’an prochain. La résolution perçue des écrans offre une expérience de l’ordre d’une TV HD, mais avec la magie de l’immersion et d’une réalité augmentée crédible. Les mises à jour de VisionOS montrent qu’Apple n’a pas encore mis tout son potentiel en œuvre et que les nouveaux usages sont explorés, comme un mode kiosque qui devrait continuer à se développer.

 

Quelles alternatives ?

Si vous cherchez une alternative moins chère, le monde d’Android vous attend, avec le Meta Quest 3 qui offre des performances visuelles approchantes, mais pas la même puissance de calcul ni intégration dans un écosystème d’outils professionnels. Sans oublier le Lynx-R1, une prouesse de la start-up française du même nom qui est, avec Sony l’un des deux partenaires de développement choisis par Google pour développer sa plate-forme Android XR.

 

VR, AR, XR MR, qu’est-ce ?

La VR, réalité virtuelle, est un assemblage de technologies qui permet d’afficher des images générées en fonction du point de vue de l’utilisateur, avec une précision et une vitesse qui permet à notre cerveau, et à son sens de la réalité, d’oublier qu’elles sont artificielles. Le résultat est une illusion qui vous entoure, dont vous faites partie, à l’intérieur de laquelle vous pouvez vous promener. On parle alors de l’effet de « présence ».

L’AR, réalité augmentée, est avant tout un concept d’usage. C’est la capacité d’ajouter des informations visuelles sur le monde réel, voire de le modifier. Ce sont des panneaux indicateurs flottant dans l’air, des baleines nageant dans des gymnases. Les moyens techniques mis en œuvre ne sont pas définis, avec principalement deux architectures. L’une est celle des « lunettes AR » telles que les HoloLens ou MagicLeap.

La XR est l’autre forme d’AR, basée sur des casques de VR équipés de caméras. Dès le premier HTC Vive de 2015, cette fonction existe, mais de très mauvaise qualité. Depuis les casques Varjo, puis Quest 3 et enfin AVP, la résolution est suffisante pour une interaction naturelle avec le monde réel.

La MR, Mixed Reality, fut originalement un concept de scénarisation, qui consistait à utiliser des objets réels en correspondance 1 :1 avec leur avatar virtuel. L’interrupteur sur le mur en image de synthèse est aux coordonnées exactes d’un interrupteur, réel, que vous pouvez actionner avec votre main pour allumer une lumière virtuelle. Pendant un temps ce terme fut utilisé pour parler des casques de VR équipés de caméras, puis XR s’est imposé.

 

Article paru pour la première fois dans Mediakwest #61, p.62-68

[envira-gallery id= »152269″]