Wie funktionieren Augmented und Virtual Reality?
AR und VR werden für ganz unterschiedliche Zwecke entwickelt und eingesetzt. Entsprechend unterscheidet sich auch das Zusammenspiel zwischen Hardware, Mensch und Umwelt bei beiden Systemen. Nachfolgend geben wir einen Überblick darüber, wie ein System für Augmented und Virtual Reality funktioniert, in welcher Weise die Sensoren und die Peripherie mit dem Menschen und seiner Umwelt interagieren – und in Form welcher Hardware die Technologien eingesetzt werden.
Die unten dargestellten Schaubilder sind schematische Darstellungen und können, abhängig von Hersteller und Modell, variieren. Im Kern funktioniert die jeweilige Technologie jedoch immer nach einem ähnlichen Prinzip.
Smartglasses, auch Datenbrille genannt, ist ein Oberbegriff für eine ganze Reihe von Brillen im Bereich Augmented Reality. Damit sind Geräte gemeint, die eine Überlagerung der realen mit der virtuellen Welt ermöglichen. Die Spezifikationen unterscheiden sich abhängig von Hersteller und Einsatzbereich. Es gibt sehr schlanke und alltagstaugliche Datenbrillen für einfache Anwendungen, als auch sensorenbepacke Datenbrillen für den produktiven Einsatz in einer Arbeitsumgebung.
HMD steht für „head-mounted display“ und ist ein Begriff, dem man vor allem im VR-Kontext begegnet. VR-Headsets werden häufig als HMD bezeichnet, da sie im Kern nichts anderes sind, als ein „kopfgetragenes Display“. Allerdings gibt es auch eine allgemeinere Interpretation des Begriffs, der AR-Datenbrillen einschließt. So gibt es beispielsweise den Begriff des OHMD (optical head-mounted display), der ein HMD mit transparentem Display bezeichnet.
Augmented Reality
Der Oberbegriff für Hardware im Bereich Augmented Reality lautet AR Smartglasses oder AR Datenbrille, seltener auch OHMD (optical head-mounted display). Die große Gemeinsamkeit aller Datenbrillen ist ihr transparentes Display. Dadurch kann der Anwender seine reale Umgebung zu jeder Zeit im Auge behalten, während ihm virtuelle Informationen, Objekte und Strukturen ins Sichtfeld eingeblendet werden.
Da es sehr viele verschiedene Datenbrillen gibt, möchten wir eine Einteilung vornehmen, die sich am Zweck der Brillen orientiert.
Auffällig am gesamten Spektrum der Smartglasses ist
- die Spaltung in sehr handliche, schlanke und alltagstaugliche Modelle
- sowie auf der anderen Seite in besonders leistungsfähige, sensorenreiche und funktionale Geräte.
Erstere verstehen wir als „einfache“ AR-Brillen, letztere als „erweiterte“. Diese Perspektive ist vor allem utilitaristischer Natur – Also bei der Frage nach den Nutzern oder dem Anwendungsbereich. Betrachtet man die Unterschiede aus technischer Sicht, sind sie fließend und werden mit der Zeit vermutlich vollständig aufgelöst werden.
Im folgenden möchten wir ein wenig Licht darauf werfen inwiefern die beiden Gruppen sich voneinander unterscheiden und wie sie funktionieren.
Einfache Augmented Reality
- Zweck einfacher AR: Erweiterung der Realität durch die Einblendung einfacher Informationen
- Qualitätsfaktoren einfacher AR: Mobilität, Optik, Schlankheit, Erschwinglichkeit

Glass 2 von Google.Quelle: Google
Eine AR-Datenbrille hat vergleichsweise geringe Hardware-Anforderungen. Sie stellt keinen Raumbezug her, was bedeutet, dass die virtuellen Objekte nicht im Raum verankert bleiben. Die Sensorik ist im Vergleich zu erweiterten AR-Systemen überschaubar gehalten und getrackt wird nur die Lage des Kopfes, jedoch nicht die Position im Raum.
Die Funktionsweise ähnelt am ehesten der einer Smartwatch, mit dem Unterschied, dass das Display durchsichtig ist und direkt vor dem Auge des Benutzers platziert wird.
Schematisch kann man sich die Funktionsweise einer einfachen AR-Datenbrille etwa so vorstellen:

Beispielhafter Aufbau einer einfachen AR-Datenbrille.
Quelle: eigene Darstellung
Für die Rechenleistung wird, wie auch bei Smartphones, ein SoC (System-on-a-Chip) verbaut, der die internen Komponenten koordiniert. Auch die Sensorik ähnelt dem eines Smartphones: verbaut sind ein Beschleunigungssensor, ein geomagnetischer Sensor, ein Drehratensensor (übernimmt die Funktion eines Gyroskops) und eine Farbkamera. Diese inertialen Messeinheiten erlauben es, die Kopfneigung zu erfassen, während die Farbkamera es dem Nutzer ermöglicht, Aufnahmen anzufertigen oder QR-Codes auszulesen.
Die Datenbrille kann meistens mit Sprachbefehlen oder über ein Touch-Feld am Bügel der Brille bedient werden. Es ist auch möglich eine Verbindung mit dem Smartphone herzustellen und damit die angezeigten Inhalte zu steuern. Die Kommunikation mit anderer Infrastruktur funktioniert klassisch über Bluetooth oder WLAN.
Die genaue Ausgestaltung der Hardware unterscheidet sich abhängig von Hersteller und Modell. Man unterscheidet vor allem Brillen mit Mono- und Stereo-Display:
- In der Mono-Variante werden dem Nutzer die Inhalte nur auf einem Auge angezeigt.
- Die Stereo-Variante erlaubt hingegen eine Betrachtung mit beiden Augen, wodurch die virtuellen Elemente um einen Tiefengrad erweitert werden können.
Abseits der AR-Datenbrillen mit durchsichtigem Display, gibt es auch Modelle, die über ein undurchsichtiges Mono-Display verfügen. Solche Datenbrillen ermöglichen allerdings keine Überlagerung des realen Sichtfelds, weshalb sie aus technischer Sicht nicht zur Augmented Reality gezählt werden können.
Erweiterte Augmented Reality
- Zweck erweiterter AR: Erweiterung der Realität durch virtuelle Objekte und Strukturen mit Raumbezug
- Qualitätsfaktoren erweiterter AR: Komfort, Performance, Darstellungsqualität, Mobilität

HoloLens 2 von Microsoft.Quelle: Microsoft
Erweiterte AR-Datenbrillen sind schon rein äußerlich deutlich massiger. Man sieht ihnen ihre technische Überlegenheit gegenüber einfachen Modellen und ihren Fokus auf erweiterte Funktionalität direkt an. Der Einsatzzweck solcher Brillen befindet sich fast ausschließlich im Geschäfts- und Industriekontext. AR-Datenbrillen für erweiterte AR können einen stabilen Raumbezug aufbauen und dafür sorgen, dass sich virtuelle Objekte wie reale verhalten.
Der Nutzer kann auf vielfältige Weise frei mit ihnen interagieren oder sie einfach mit den Händen an einem festen Ort ablegen. Dann bleiben die Objekte liegen, bis sie bewegt werden – Auch wenn sie sich nicht mehr im Sichtfeld befinden. Um eine solche Funktionalität zuverlässig zu bewerkstelligen, braucht es zahlreiche technische Komponenten.

Beispielhafter Aufbau einer erweiterten AR-Datenbrille.
Quelle: eigene Darstellung
Wie auch bei einfachen AR-Smartglasses spielt Mobilität eine wichtige Rolle. Deswegen ermöglich auch hier ein starker SoC ortsunabhängiges Arbeiten und ein reibungsloses Zusammenspiel der verbauten Komponenten. Der Anspruch, digitale Objekte möglichst real im Raum darzustellen und zu verankern, setzt eine komplexe Sensorik voraus. Diese ist Voraussetzung um beispielsweise reale Maschinen nachstellen und simulieren zu können.
Wieder finden sich als Grundausstattung alle drei intertialen Sensoren:
- Beschleunigungssensor
- Drehratensensor
- Magnetometer
Manchmal spricht man auch von einem 9-Achsen-Sensor, denn jeder deckt für sich alle drei Raumachsen ab. Ein 9-Achsen-Sensor hilft nicht nur dabei die Neigung des Kopfes zu bestimmen, sondern bildet auch das Fundament für das Tracking der absoluten Position im Raum. Ein Tiefensensor (ToF-Kamera) sendet Infrarotstrahlen, greift deren Reflexionen wieder auf und berechnet daraus die Tiefe der beobachteten Umgebung. Unterstützt wird die Raumerkennung durch mehrere monochrome Kameras, die mithilfe eines SLAM-Algorithmus statische Punkte im Raum erkennen und die eigene Position triangulieren. Die HoloLens 2 von Microsoft besitzt gleich vier solcher Graustufen-Kameras, wobei die beiden inneren die eigentliche Triangulation übernehmen, während die äußeren beiden die periphere Umgebung erfassen.
Bedient werden solche komplexen AR-Smartglasses in der Regel über Handgesten. Der Tiefensensor errechnet nicht nur die Tiefe des Raums im Blickfeld des Nutzers, sondern ist auch für das Tracking der Hände zuständig. Manche Modelle erkennen dabei nur einige vorprogrammierte Handgesten, während andere Datenbrillen die individuellen Bewegungen einzelner Finger interpretieren können. Auch Sprachbefehle für die schnelle und direkte Ausführung von Aktionen gehören zur gängigen Bedienung der Hardware.
Ein vergleichsweise modernes Feature ist die Steuerung mit den Augen. Dies soll die Usability einer AR-Datenbrille noch intuitiver machen. Dabei erfassen Infrarot-Sensoren die Augen und erkennen beispielsweise, wenn der Nutzer ein Fenster scrollen möchte. Bei der HoloLens 2 spielen diese Infrarot-Sensoren zudem eine entscheidende Rolle bei der Anpassung der sichtbaren Inhalte, da die Augen immer als Referenzpunkt für die Laser dienen, die das Bild auf dem Display erzeugen. Dadurch wird die HoloLens 2 sehr tolerant gegenüber den anatomischen Unterschieden individueller Nutzer und benötigt keinen mechanischen IPD-Regler.
Virtual Reality
VR-Brillen bzw. VR-Headsets werden häufig auch als VR-HMDs (VR-head-mounted display) bezeichnet. Virtual Reality hat nicht zum Ziel die Realität des Nutzers zu erweitern, wie AR, sondern sie zu ersetzen. VR-HMDs werden mit dem Zweck entworfen möglichst abschottend zu sein und den Seh- und Hörsinn des Nutzers vollständig zu vereinnahmen.
Licht, das durch kleine Lücken in die Brille eintritt – häufig an der Nase, man spricht auch von „light bleed“ – gilt als Störfaktor und vermindert die empfundene Immersion der Nutzer.
- Zweck: Generierung von vollständig virtuellen, immersiven Welten
- Qualitätsfaktoren: Darstellungsqualität, Performance, Tracking

Oculus Quest von Oculus VR.Quelle: outcastagency
HMDs gibt es mobil oder verkabelt. Bei der verkabelten Version wird das Headset an einen externen Rechner angeschlossen und die Rechenleistung damit ausgelagert. Der Vorteil: Die Hardware im Rechner ist deutlich stärker als alles, was man in das Headset verbauen könnte.
Doch viele Nutzer empfinden den Zug des Kabels am Kopf störend, weswegen es auch bei VR-Headsets einen Trend hin zur mehr Mobilität und Bewegungsfreiheit gibt. Diese Freiheit hat ihre Preis darin, dass das Headset die ganze Rechenarbeit selbst leisten muss. Es kann daher nicht dieselbe Performance bieten, die man mit einem angeschlossenen Rechner hat.

Aufbau eines VR-Headsets.
Quelle: eigene Darstellung
Auch wenn das Display nicht durchsichtig ist und sich die Anwendungsbereiche stark unterscheiden, ist die Sensorik eines VR-Headsets ähnlich dem einer erweiterten AR-Datenbrille. Ein 9-Achsen-Sensor mit integriertem Beschleunigungssensor, Drehratensensor und Magnetometer übernimmt sowohl das Rotationstracking, als auch einen großen Teil des Positionstrackings.
Den Rest des Positionstrackings übernehmen entweder (wie bei der AR-Datenbrille) monochrome Weitwinkel-Kameras mit Hilfe von Triangulation und SLAM-Algorithmus oder eine Kombination aus Infrarotsensoren und Basisstationen. Einige Modelle besitzen zudem einen Näherungssensor im Innenraum des Headsets. Dieser erkennt, ob die Brille momentan getragen wird oder nicht und kann dadurch beispielsweise das VR-Headset in den Ruhezustand versetzen.
Die Bedienung eines VR-Systems erfolgt fast ausschließlich über Controller, die in beiden Händen gehalten werden. Mit ihnen kann der Nutzer wie mit einem Laserpointer auf digitale Inhalte zeigen und über Tasten interagieren. Zunehmend wird auch die Bedienung über Fingertracking immer weiter entwickelt, durch das die Bewegungen der Hände und der Finger in die virtuelle Welt übersetzt werden. Beispielsweise enthält das Valve Index VR-Kit einen Controller, der die Bewegung einzelner Finger tracken kann. Völlige Freiheit hat man dadurch zwar noch nicht, da noch immer ein Controller an die Hand gebunden ist, aber zumindest erlauben solche Controller intuitiver zu greifen oder fingersensitive Aktionen durchzuführen.
Dass auch völlig freies Handtracking möglich ist, hat Microsoft mit der HoloLens 2 demonstriert. Der erste skalierbare Versuch der Implementierung von freiem Handtracking für Virtual Reality kam Ende 2019 von Oculus VR: Als experimentelles Feature hat die Oculus Quest ihren Nutzern freies Handtracking ermöglicht. Im Gegensatz zur HoloLens 2, die ihren Tiefensensor zum Tracking der Hände benutzt, verwertet die Quest ihre ohnehin verbauten Weitwinkel-Graustufenkameras. Die Position der Hände wird so mit Hilfe eines Deep Learning-Modells und Model-Based-Tracking bestimmt.
Eine weitere Möglichkeit zur Steuerung mit den Händen sind VR-Gloves, auch Data-Gloves genannt. Dabei handelt es sich um sensorbestückte Handschuhe, mit denen präzises Tracking der Finger und, je nach Ausführung, sogar haptisches Feedback möglich ist.
Weitere Geräte
Kameras, Tiefensensoren, geomagnetische- und Infrarot-Sensoren, Algorithmen und neuronale Netze – die Systeme für AR und VR sind vollgestopft mit komplexen und ausgeklügelten Technologien. Wir sind an einem Punkt angekommen, an dem der Reifegrad all dieser Mikro- und Markosysteme immer mehr Usecases bedienen kann. Und mit jeder Generation neuer Hardware werden es mehr. Doch es gibt auch abseits von Datenbrillen und HMDs Geräte, die augmented-reality- oder virtual-reality-fähig sind.
Smartphones und Tablets
Für die Arbeit im Bereich Augmented Reality sind Datenbrillen sowie VR Headsets den Smartphones und Tablets in fast allen Aspekten überlegen. Trotzdem haben unsere Handheld-Devices einen wichtigen Vorteil: wir alle besitzen eines. Smartphones und Tablets sind stark in unseren Alltag integriert und eröffnen mit ihrer fortschrittlichen Hardware viele Möglichkeiten insbesondere für AR-Anwendungen.
Zwar schränken sie den Nutzer dadurch ein, dass sie nicht freihändig bedient werden können, sind dafür jedoch handlich und immer griffbereit. Hinzu kommt, dass es einige sehr starke Entwicklertools gibt, mit denen ausgereifte AR-Anwendungen entwickelt werden können.
Häufig ist ein Mischszenario vorstellbar bei dem VR-Headsets, AR-Smartglasses und Smartphones/Tablets gemeinsam eingesetzt werden und sich gegenseitig in ihrer Funktionalität ergänzen. Eine Kombination eröffnet nicht nur weitere Möglichkeiten der Kollaboration und Interaktion, sondern skaliert auch sehr gut in der Anzahl der Nutzer.
AR Spiegel
Die Welt der Augmented-Reality-Devices ist nicht nur auf Datenbrillen, Smartphones und Tablets beschränkt. Mit zunehmendem technologischen Fortschritt finden sich immer mehr Geräte, mit denen wir der natürlichen Umgebung einen virtuellen Anstrich verpassen können.
So kann man beispielsweise mit einem Augmented-Reality-Spiegel virtuelle Kleidungsstücke anprobieren. Bei so einem Spiegel wird durch die Kombination aus Computer, Tiefenkamera und Spiegel der Körper eines davor stehenden Menschen getrackt und in Echtzeit virtuelle Kleidungsstücke angezogen. Der Nutzer kann die Kleidungsstücke flexibel mit Gesten wechseln und spart sich das zeitaufwendige Umziehen.
Die Technologie selbst ist sehr vielseitig einsetzbar und auf unzählige Konzepte übertragbar, sodass wir in Zukunft davon ausgehen können, auch völlig neue und unerwartete Geräte und Systeme zu sehen, die sich der Augmented Reality bedienen.
Tracking
Tracking beschreibt die Bestimmung der Lage und der Position des Headsets sowie ggf. der Controller und spielt bei AR und VR gleichermaßen eine entscheidende Rolle. VR kann gegenüber AR allerdings auf deutlich mehr Ressourcen für das Tracking zugreifen, wenn dafür auf etwas Mobilität verzichtet wird.
Im Gegensatz dazu sind Bewegungsfreiheit und Ortsungebundenheit bei AR geradezu existenziell. Bei AR-Datenbrillen hat sich mit der Zeit eine mobile Trackingmethode bewährt, während sich auf dem VR-Markt unterschiedliche Ansätze entwickelt haben.
Grundprinzip
Bei der Frage was eigentlich getrackt werden soll, unterscheidet man im dreidimensionalen Raum zwei Formen von Freiheit: 3DOF und 6DOF. DOF ist die englische Abkürzung für „degree of freedom“, oder zu deutsch: Freiheitsgrad. 3DOF wird auch Rotationstracking genannt und bezeichnet das Tracking des Headsets oder des Controllers in drei Freiheitsgraden:

3 Freiheitsgrade/3DOF.
Quelle: eigene Darstellung
Das Tracking der Rotation übernehmen kleine eingebaute Drehratensensoren, die man auch in jedem Smartphone finden kann. Sie übernehmen die Aufgabe eines Gyroskops und erkennen in welcher Weise der Kopf des Nutzers oder der Controller grade geneigt oder gedreht ist.
6DOF schließt die ersten drei Freiheitsgrade des Rotationstrackings ein, ergänzt sie allerdings mit dem Positionstracking um drei weitere Freiheitsgrade. 6DOF erlaubt es damit nicht nur die Neigung des Headsets zu bestimmen, sondern durch das Positionstracking auch die Bewegung des Kopfes (und der Controller) entlang der drei Raumachsen.

6 Freiheitsgrade/6DOF.
Quelle: eigene Darstellung
Für das Tracking in sechs Freiheitsgraden haben sich mehrere Ansätze entwickelt, die alle ihre Vor- und Nachteile haben. Doch das grundlegende Prinzip aller Trackingmethoden ist immer dasselbe: In der Hardware verbaute Beschleunigungssensoren (Translationssensoren) messen die Beschleunigung, wenn Kopf oder Controller bewegt werden. Durch Integration der Beschleunigung über die Zeit lässt sich die Geschwindigkeit mathematisch bestimmen. Integriert man wiederum die Geschwindigkeit über die Zeit, erhält man die relative Änderung der Position.
Das Problem dieses Ansatzes liegt nun darin, dass Beschleunigungssensoren, wie alle anderen Sensoren auch, ein Grundrauschen besitzen und die doppelte Integration der Beschleunigung jeden Fehler quadratisch verstärkt. Reines Tracking über Beschleunigungssensoren funktioniert deswegen nur für einen kurzen Moment, bevor sich die Fehler so stark summieren, dass die errechnete Position zu ungenau wird.
Um dieses Problem zu lösen braucht es eine Korrektur, die die Fehler der Sensoren rechtzeitig aufgreift und kompensiert. Daher ist der Zweck aller Tracking-Ansätze die regelmäßige Korrektur der Beschleunigungssensordaten. Damit versucht man die sehr hohe Rate der Beschleunigungssensoren, die mit rund 1.000 Hz arbeiten (1.000 Aktualisierungen der Position pro Sekunde), mit der Konsistenz eines langsameren, externen Trackings zu vereinen.
Constellation Tracking
Beim Constellation Tracking besitzt die Hardware eine vordefinierte und dem System bekannte Konstellation aus vielen LEDs, die entweder sichtbares Licht (z. B. Sony Playstation) oder Infrarot-Signale (z. B. Oculus Rift) aussenden. Zwei externe Kameras nehmen Bilder der Sensoren auf und senden diese an einen angeschlossenen Rechner. Der Rechner kennt die genaue Konstellation der LEDs und kann dadurch die relativen Veränderungen ihrer Position errechnen.
Tracking mit sichtbarem Licht hat im Bereich VR nur die Sony Playstation verwendet. Damit konnte das Unternehmen ihre 2010 veröffentlichten Move Controller wiederverwenden und musste weniger neue Hardware entwickeln. Das Ergebnis war eine sehr günstige Trackingmethode, die in ihrer Qualität jedoch auch nur mäßig ausgefallen ist.
Die Oculus Rift hat Constellation Tracking angewandt um ein günstiges, aber trotzdem konkurrenzfähiges Trackingmodell zu entwerfen. Der Ansatz von Oculus VR war dabei deutlich ambitionierter, als der von Sony mit der Playstation. Beispielsweise sind die Kameras der Oculus Rift mit dem Blinken der LEDs synchronisiert. Um die Genauigkeit weiter zu erhöhen, blinkt bei der Oculus Rift jede LED mit einer von der Software eindeutig identifizierbaren Frequenz. Dadurch konnte die Oculus Rift kostengünstig eine verhältnismäßig hohe Trackingqualität erreichen.
Jedoch haben viele Rechner ein Problem damit, dass beide Sensoren ständig per USB verbunden sein müssen und eine Menge der verfügbaren Bandbreite belegen. Deswegen ist Constellation Tracking in dieser reinen Form unüblich geworden, doch das Grundprinzip findet zumindest noch beim Tracking der Controller Anwendung.
Lighthouse-Tracking/Outside-In Tracking/Tracking mit Basisstationen
Lighthouse-Tracking setzt auf die Installation von kleinen Basisstationen (zu Deutsch als „Leuchttürme“ bezeichnet) an den oberen Ecken des Raumes. Diese Basisstationen sind nur einige Zentimeter groß und selbst keine Sensoren – Sie kommunizieren weder mit der Hardware, noch mit einem Rechner. Nur an eine Stromversorgung angeschlossen, senden sie nach einem fest definierten Muster mit exaktem Timing Infrarotsignale in den Raum. Sensoren auf dem Headset und den Controllern empfangen und interpretieren die Signale so, dass sie ihre relative Lage und Position zu den Basisstationen selbst errechnen können.
Auch das Lighthouse-Tracking stellt nur eine Korrektur der Daten dar, die die Beschleunigungssensoren liefern. Während die internen Sensoren jede Millisekunde (1.000 Hz, zumindest für das Headset) eine neue Position errechnen, korrigiert das Lighthouse-System diese Position mit einer deutlich niedrigeren Frequenz nach. Die Beschleunigungssensoren liefern also die schnelleren Daten, doch das Lighthouse-System die konsistenteren.
Theoretisch genügt eine einzige Basisstation für sauberes Tracking, meistens werden jedoch zwei verwendet, wobei die zweite im Raum gegenüber der ersten installiert wird. Mit einer Basisstation wird bereits eine hohe Genauigkeit in zwei der drei Raumachsen erreicht. Allerdings wird die Achse, die vom Gerät zur Basisstation zeigt, minimal schlechter getrackt. Eine zweite Basisstation hilft die Genauigkeit der Raumachsen, die zu den Basistationen zeigen, zu erhöhen, soll jedoch vor allem Verdeckungsproblemen vorbeugen.
Lighthouse-Tracking hat sich als sehr genaue und zuverlässige Trackingmethode erwiesen, doch die Vorteile sind für den Nutzer mit höheren Kosten und der Installation von fest montierten Geräten im Raum verbunden. Mit dem Trend zu mehr Freiheit und Mobilität setzen viele Hersteller trotz der guten Präzision und leichten Skalierbarkeit vermehrt auf Trackingmethoden, die dem Nutzer weniger Umstände bereiten.
Inside-Out Tracking/SLAM-Tracking
Inside-Out Tracking ist eine der gängigsten Trackingmethoden und der Standard bei jedem erweiterten AR- und jedem mobilen VR-System. Es wird keine zusätzliche Hardware benötigt, denn das Tracking der Position geschieht über im Headset verbaute monochrome Kameras. Die Daten der Kamerasensoren werden durch einen sogenannten SLAM-Algorithmus ausgewertet. SLAM steht für Simultaneous Localization And Mapping, was ein aktives Forschungsgebiet innerhalb der Robotik beschreibt. Ein SLAM-Algorithmus dient dazu Robotern die Orientierung in fremden Umgebungen zu ermöglichen, indem sie ihre Umwelt scannen, eine virtuelle Karte erstellen und ihre eigene Position auf dieser Karte bestimmen. So ähnlich funktioniert SLAM auch bei AR- und VR-Systemen.
Der jeweilige Algorithmus – Oculus nennt ihren Insight, Google dagegen WorldSense – erkennt durch Auswertung der Bilddaten markante Punkte in der Umgebung wie Kanten und Ecken bzw. ganze Teppiche, Möbelstücke, Tische und Wandbilder. Bei Bewegung vergleicht das Headset die Änderung der Punkte mit den Daten der Beschleunigungssensoren sowie des Drehratensensors und errechnet dadurch die relative Änderung der Position und die Rotation des Kopfes (Visuell-inertiale Odometrie). Um die Controller zu tracken wird auf die Constellation-Methode mit einer fest installierten Konstellation von LEDs auf den Controllern zurückgegriffen.
Inside-Out-Tracking bietet mobiles, günstiges und gut funktionierendes Tracking ohne Mehraufwand für den Nutzer, weswegen diese Methode immer mehr an Popularität gewinnt. Was AR-Systeme betrifft, liegt der einzige Nachteil darin, dass das Tracking in schlecht beleuchteten oder sehr kahlen Umgebungen Schwierigkeiten hat, fixe Punkte im Raum zu identifizieren. Abseits davon sind die Nachteile hauptsächlich mit der Nutzung von Controllern verbunden, was nur VR-Systeme betrifft. Dadurch, dass Inside-Out Tracking auf das Constellation-Tracking für Controller zurückgreifen muss, werden diese nur getrackt, solange sie im Sichtfeld des Headsets sind. Bewegt man seine Hand beispielsweise hinter den Kopf, zu nah an sein Gesicht oder verdeckt sonst in irgendeiner Weise die LEDs der Controller, verliert das System deren jeweilige Lage und Position.
Software
Hard- und Software gehen Hand in Hand, um den Nutzern eine reibungslose Erfahrung zu bieten und ihren Ansprüchen in allen Aspekten gerecht werden zu können. Nur wenn die Software stimmt, kann auch ein wirklicher Mehrwert aus der Hardware gezogen werden.
Die Entwicklung der Anwendungen für AR- und VR-Plattformen findet in der Regel in den Laufzeit- und Entwicklungsumgebungen Unreal, Unity oder in der Browser-Variante Sumerian von Amazon statt. Sie bieten den Entwicklern alle wichtigen Werkzeuge, um flexibel und schnell vielseitige Inhalte zu entwerfen.
Entwicklungsumgebungen
Welche der Entwicklungsumgebungen sich letztendlich am besten eignet, kommt auf die Auswahl der AR- bzw. VR-Plattform, sowie die Komplexität der Anwendung an.
Durch den klaren Fokus auf eine Cross-Plattform- und Mobile-Entwicklung ist die Verwendung von Unity im Bereich der AR und VR für mobile Endgeräte sehr üblich geworden. Insbesondere im Bereich Mobile-AR ist das zurückzuführen auf das von Unity entwickelte AR-Framework AR Foundation und die Unterstützung von weiteren Frameworks und SDKs, wie zum Beispiel das Mixed Reality Toolkit für die Microsoft HoloLens. Zudem unterstützt die Entwicklungsumgebung über 25 Plattformen, liefert regelmäßige Updates sowie Optimierungen für den Mobile-Bereich und ermöglicht eine Programmierung in der weit verbreiteten Programmiersprache C#.
Bei Demovideos der Epic Games Unreal Engine fällt eine Sache besonders ins Auge: die beeindruckende grafische Darstellung der Inhalte. Das ist einer der Kernstärken der Unreal Engine. Das macht sie besonders interessant für statische VR-Anwendungen, bei denen Inhalte maximal realistisch dargestellt werden sollen. Unreal unterstützt 15 verschiedene Plattformen und wird in C++ programmiert. Als interessantes Feature setzt Unreal ihr Blueprints Visual Scripting ein, das es ermöglicht, auch ohne viel Programmiererfahrung virtuelle Welten zu entwerfen und interaktiv zu gestalten.
Sumerian von Amazon erfordert keinen Software-Download und ist vollständig webbasiert. Die Entwicklungsumgebung erlaubt die Entwicklung von AR- und VR-Anwendungen für iOS, Android sowie die gängigen VR-Systeme. Da Sumerian über die Cloud-Computing-Plattform Amazon Web Services arbeitet, ermöglicht es den Nutzern den Zugriff auf verschiedene Amazon-Webdienste. So können zum Beispiel die Sprachassistentenfunktionen von Alexa’s zugrunde liegender Technologie in die Anwendungen eingebaut werden. Ähnlich wie bei Unreal können Benutzer ohne Programmierkenntnisse mithilfe einer Javascript-Bibliothek Skriptereignisse erstellen und zu Ereignisketten vereinen.
Entwicklertools
Die drei am häufigsten genutzten Entwicklertools in diesem Bereich sind Apples Software Development Kit ARKit, Googles Pendant ARCore und AR Foundation von Unity.
Apple hat im Juni 2017 das Software Development Kit (SDK) ARKit gemeinsam mit iOS 11 eingeführt. Bei diesem Kit handelt sich um eine Sammlung verschiedener Werkzeuge, die die Programmierung von Augmented-Reality-Anwendungen für iOS vereinfacht. Das ARKit ermöglicht iOS Geräten durch Verwendung der eingebauten Kamera in Verbindung mit verschiedenen Algorithmen, wie beispielsweise den SLAM-Algorithmus (für Details klicken Sie hier), die Erkennung und Verfolgung von Oberflächen, Bildern, Objekten, menschlichen Körpern, Gesichtern, Licht und Nutzer-Bewegungen.
Im selben Jahr wie Apple veröffentlichte Google das Pendant zu Apple’s Augmented Reality SDK – ARCore. Das SDK vereinfacht die Entwicklung von AR-Anwendungen für Android Geräte ab Android 7 sowie für iOS Geräte ab iOS 11. Google setzt für das Kit auf ähnliche Algorithmen wie Apple und bietet damit ein Erkennen und Verfolgen von Nutzer-Bewegungen, Oberflächen, Licht, Gesichtern und Bildern. Anders als beim Apple ARKit ist das Erkennen und Verfolgen von Objekten sowie menschlichen Körpern nicht von vornherein enthalten.
AR Foundation von Unity ist ein Cross-Plattform Werkzeug für Entwickler, welches eine nahtlose Programmierung von Augmented-Reality-Anwendungen für die Plattformen HoloLens, Android und iOS ermöglicht. Das Framework fungiert damit als Schnittstelle zwischen den SDKs ARCore und ARKit, wodurch Entwickler bei der Programmierung einer AR-App auf die Funktionalitäten beider SDKs zugreifen können.
3D Content
„Content is King“ heißt es schon in einem Essay von Bill Gates aus dem Jahre 1996. Viele Technologien gibt es überhaupt nur deswegen, um Inhalte zu transportieren und für den Nutzer gut darzustellen. Wenn man über Inhalte von AR und VR redet, spricht man in aller Regel von 3D-Objekten. Erstellt werden solche Objekte von 3D-Artists, die auf den Entwurf von dreidimensionalen Figuren, Objekten und Kunstwerken spezialisiert sind.
So ist die Landschaft der Formate für 3D-Objekte regelrecht unüberschaubar. Alle Formate haben konkrete Eigenschaften und sind für gewisse Einsatzzwecke entworfen. Damit ergeben sich Fragen der Kompatibilität und Formatierbarkeit, denn alle Systeme unterstützten nur einen bestimmten Satz an Dateiformaten.
Ein weiterer wichtiger technischer Aspekt ist die Auflösung der Modelle, die in der Anzahl der Polygone gemessen wird aus denen das Modell erstellt ist. Diese wirkt sich maßgeblich auf die Qualität der Darstellung und die Performance aus. Beispielsweise müssen hochauflösende Modelle mit einer großen Anzahl an Polygonen für leistungsschwache Geräte auf eine kleinere Anzahl heruntergerechnet werden, um die saubere Darstellung zu gewährleisten.
Das Downscaling muss dabei nicht zwingend mit einer schlechteren Qualität einhergehen. Bei einem CAD-Modell, das zu Demonstrationszwecken betrachtet werden soll, kann beispielsweise viel redundante Information in Form von innenliegenden Polygonen entfernt werden, ohne dass das Modell äußerlich schlechter aufgelöst wird.
Die Erstellung von 3D-Modellen ist für viele Anwendungszwecke sehr einfach gestaltet. Häufig wird kein hoher Detailgrad benötigt und die Modelle sind schneller erstellt, als man glaubt. Zudem können viele AR-Anwendungen mit sehr einfachen 3D-Objekten wie Markierungen, Pfeilen und Kreisen umgesetzt werden.
Usability
Bei Smartphones sind es Berührungen, die als intuitive Gesten des Menschen genutzt werden, um die Bedienung möglichst einfach und natürlich zu gestalten. Das funktioniert gut, denn niemand muss lange lernen, um ein Smartphone oder Tablet bedienen zu können. Auch AR- und VR-Devices sind in ihrer Bedienung an Konzepte angelehnt, die den Menschen schon lange bekannt und an die sie gewöhnt sind.
AR-Datenbrillen sehen sich in der Hinsicht einer neuen Herausforderung gegenübergestellt:
- Es fehlt das deutlich abgegrenzte, haptische Interface, das man berühren, oder die Knöpfe, die man drücken kann.
- Alle virtuellen Objekte sind letztendlich Hologramme und liefern dem Nutzer kein haptisches Feedback.
- Fenster, Tasten und Objekte schweben in der Luft und bieten beim hindurchwischen keinen Widerstand.
Teil der AR-Technologie ist deswegen auch die Entwicklung eines neuen Bedienkonzeptes, zu dem Menschen einen möglichst leichten Zugang finden. Um dieses Ziel zu erreichen, muss der Nutzer bei der Entwicklung der Anwendungen in den Mittelpunkt gestellt werden.
Sogenanntes User-Centered Design hat zum Zweck ein möglichst benutzerorientiertes Produkt zu entwickeln. Die Einbindung vieler Benutzertests in der nativen Umgebung der Endnutzer ermöglichen die Entwicklung eines intuitiven Bedienkonzeptes, das nicht nur die Einstiegshürden senkt, sondern auch maßgeblich den Erfolg der Anwendung beeinflusst.
Augmented Reality und Virtual Reality wirkungsvoll einsetzen
Sicher haben Sie bereits viele Ideen wie Sie Augmented und Virtual Reality in Ihrem Unternehmen effektiv einsetzen könnten. Wir empfehlen keine Zeit zu verlieren. AR und VR haben sich bereits weit genug entwickelt, um sie produktiv in Arbeitsabläufe einzubinden und eine Vielzahl an Prozessen deutlich effizienter gestalten zu können.
Die Weiterentwicklung läuft auf Hochtouren und Analysten schätzen, dass das Maß der möglichen Einsatzgebiete in Zukunft noch deutlich wachsen wird. Sammeln Sie bereits früh Erfahrungen und sichern Sie sich wichtige Vorteile.
Sie sind sich noch unschlüssig darüber, ob die neu aufkommende Technologie auch Ihrem Unternehmen helfen kann? Oder haben Sie sich bereits entschieden und suchen nach einem passenden IT-Partner?
Wir möchten Sie begleiten – In unserem Dienstleistungsportfolio finden Sie die passende Leistung. Wir freuen uns auf Sie!
Aktuelle Blogbeiträge
Ihr Ansprechpartner
