Synergize Cloud & Augmented Reality
Die Kombination von Augmented Reality (AR) und Cloud-Diensten eröffnet ein enormes Potenzial für Unternehmen und Endnutzer. AR ermöglicht es Benutzern, digitale Inhalte über die reale Welt zu legen, um interaktive und immersive Erlebnisse zu schaffen. Die Cloud hingegen bietet skalierbare und flexible Ressourcen für die Speicherung und Verarbeitung von Daten sowie die Bereitstellung von Diensten. Beides zusammen kann Synergien schaffen, die es Unternehmen ermöglichen, innovative Produkte und Dienstleistungen zu entwickeln und bereitzustellen. Wie diese Synergien dann auch noch für Mehrwert sorgen können, wird in diesem Artikel beschrieben.
Die meisten werden Augmented Reality von Apps wie Pokémon Go, Ikea Place oder ähnlichen kennen. Hierbei werden digitale Informationen über die reale Welt gelegt. Durch die Verwendung von AR können Benutzer mit der Umgebung interagieren, indem sie virtuelle Objekte, Bilder oder Informationen in Echtzeit über ihr Smartphone, Tablet oder eine AR-Brille sehen. Die AR-Technologie wird durch Computer Vision, Sensoren und Bilderkennungsalgorithmen unterstützt, die es dem System ermöglichen, die Umgebung zu erkennen und digitale Informationen in Echtzeit anzuzeigen. Die Technologie hat in den letzten Jahren große Fortschritte gemacht und ist in den Fokus der Digitalisierung gerückt. So ist es wenig verwunderlich, dass sich immer mehr Firmen dafür interessieren, wie sie diese Technologien nutzen können. Beispiele für AR-Businessapplikationen sind interaktive Meetingplattformen, Datenvisualisierung oder auch Remote Support.
Wo liegen nun aber die großen Synergien zwischen AR und Cloud-Diensten? Diese Frage soll im Folgenden beantwortet werden.
Das Internet ist allgegenwärtig und ermöglicht uns auf Ressourcen zuzugreifen oder diese bereitstellen zu können. Dies ist zeit- und auch ortsunabhängig möglich, da wir die Daten persistent speichern können. Die Fülle an Informationen und Möglichkeiten, die das Internet bereitstellt und welche sich über Jahre angesammelt hat, führt aber auch dazu, dass Ressourcen nicht immer direkt gefunden werden oder das Gefundene hilfreich ist. Google und Co. machen hier schon einen tollen Job, die vorhandenen Ressourcen auf Grundlage z. B. der Person, des Ortes oder des Gerätes sehr stark einzugrenzen bzw. zu priorisieren. Aber wir können hier noch einen Schritt weiter gehen und die Grundlage, auf der Informationen angezeigt werden, noch feingranularer machen. Damit ist gemeint, Objekte vor dem Nutzer, dessen Blickrichtung oder auch Details in dessen Blickrichtung zu nutzen.
Hierzu ein Beispiel: Angenommen, der Beutel meines Staubsaugers ist voll und ich weiß nicht genau, wie ich diesen wechseln soll. Es war auch blöderweise der letzte Beutel und ich muss neue kaufen. Wenn ich nun mein Handy zur Hand nehme, um diese beiden Informationen über eine Suchmaschine herauszufinden, muss ich zuallererst einmal klären, um welches Modell es sich handelt, die Modellbezeichnung dann eintippen und hoffen, dass die Ergebnisse auch zu genau diesem Modell passen.
Was kann AR hier nun ändern? Zuerst einmal die Eingabe. Wir müssen keine Modellbezeichnungen mehr suchen und diese eingeben, wenn der Staubsauger und die entsprechende Modellbezeichnung über die Kamera erkannt werden. Das ist zwar nicht wirklich AR, sondern Mashine Learning, ist aber eine Eingabe-Taxonomie, die uns bei klassischen Apps oder Webseiten nicht zur Verfügung steht. Die entsprechenden Schritte, um den Staubsaugerbeutel zu wechseln, würden danach dann direkt am Staubsauger selbst angezeigt und in das Kamerabild augmentiert werden. Ähnlich kann es sich auch mit der Auswahl des Staubsaugerbeutels verhalten. Die Suchmaschine spuckt mir wahrscheinlich schon den ein oder anderen Treffer aus, wo ich diese im Internet kaufen kann. Wenn ich diese aber noch selbst im Supermarkt kaufen will, stehe ich dort vor einem unübersichtlichen Regal. Ich kann auf jeder Schachtel schauen und das Modell suchen. Deutlich angenehmer wäre es, einfach durch mein Handy auf das Regal zu schauen und im Kamerabild direkt markiert zu bekommen, welche Staubsaugerbeutel für mein Modell in Frage kommen. Diesen Ansatz kann man auch so weit spinnen, dass ich vom Parkplatz bis ans Ladenregal über AR navigiert werde.
Dieses Beispiel klammert erst einmal die noch vorhandenen technischen Limitationen aus, mit dem frommen Wunsch, dass diese eines Tages wirklich so gering sind oder sogar ganz verschwinden. Allerdings entwickeln wir uns immer weiter in diese Richtung und vieles davon ist heute schon möglich. Die Synergie, die hier aber veranschaulicht werden soll, ist die Verknüpfung von Informationen und Lokationen. Diese ist heute schon sehr weit. Google Maps ist hierfür ein gutes Beispiel. Wir haben eine Position auf einer Karte und es sind alle nötigen Informationen angehängt. Welche Geschäfte gibt es wo, deren Website, Kontaktdaten und auch Bewertungen. Mit Augmented Reality gehen wir hier aber einen Schritt weiter. Wir verbinden die Informationen nicht mehr nur noch mit einem Punkt auf einer Karte, sondern mit einem Punkt in der realen Welt. Allerdings ist das an und für sich nichts Neues. Mit GPS-Daten, WLAN-Fingerprints, Mobilfunkzellen oder Beacons versuchen wir schon länger Informationen mit der realen Welt zu verbinden. Wir werfen nochmal einen Blick auf unser Staubsauger-Beispiel: Hier wäre die Information, die wir suchen, direkt mit dem Modell selbst verknüpft. Das heißt, egal wo wir den Staubsauger finden und auch unabhängig von der Instanz des Staubsaugers, werden mir alle nötigen Informationen angezeigt. Bei Google Maps wäre der Staubsauger das Äquivalent zur GPS-Position. Wobei eine GPS-Position nur einmal existieren kann und nicht wie das Staubsaugermodell mehrmals.
Für die Cloud bedeutet diese stärkere Verknüpfung mit Objekten oder Positionen eine bessere Grundlage, um die reale Welt zu verstehen. Darauf basierend können z. B. bessere Suchergebnisse erstellt werden. Auf der anderen Seite ist der Mehrwert solcher AR-Applikationen sehr an die verfügbaren Informationen gekoppelt und das sogar auf zwei Ebenen. Zum einen die für den Nutzer relevanten Informationen und zum anderen Informationen, die helfen, das Objekt oder den Ort eindeutig zu identifizieren. Diese Informationen können je nach eingesetzter Technologie variieren. Hierzu ein schneller Überblick, wie in AR die Umgebung wahrgenommen werden kann und die gängigsten Techniken zum Speichern und Verteilen dieser Informationen:
Grundsätzlich funktionieren die meist AR-Trackingverfahren mit SLAM-Algorithmen. Diese konsumieren den Beschleunigungssensor und den (Farbbild-)Videostream des Geräts. Im Videostream werden über die Laufzeit Kanten und Punkte erkannt und getrackt. Diese werden auch Trackables genannte. Die Position dieser Trackables wird verwendet, um den Drift des Beschleunigungssensors auszugleichen und somit die Bewegung des Geräts relativ zur Umwelt zu bestimmen. Objekte und Referenz-Punkte werden bei dieser Methode immer relativ zu diesen Trackables gesetzt. Diese Trackables können persistent gespeichert und mit anderen geteilt werden. Teils werden hier schon Services von Cloudprovidern angeboten, es ist aber auch möglich, eigene Lösungen hierfür zu konzipieren. Das Konzept von Trackables und wie man diese teilen kann, kann mit QR-Code oder auch Marker-Tracking veranschaulicht werden. Marker sind, ähnlich wie QR-Codes, eine eindeutige Ansammlung von Formen, die über Computer Vision interpretiert werden können. Die Marker und auch QR-Codes haben immer eine eindeutige Ausrichtung. Dies wird über eine – mindestens auf einer Achse unsymmetrische – Anordnung der Formen erreicht. Dadurch kann eine Ecke des Markers oder QR-Codes als Nullpunkt bestimmt werden. Über die gewählten Formen kann der Inhalt direkt in den Marker codiert werden. Das bedeutet, die Information, was an dieser bestimmten Position angezeigt werden soll, steckt in der Position selbst. Das bringt aber einiges an Problemen mit sich. Wollen wir nun neuen Inhalt an die entsprechende Position bringen, müssen wir den entsprechenden Marker austauschen. Marker oder auch QR-Codes sollten daher, wie Trackables, nur als Referenzpunkte verstanden werden. Inhalt von AR-Applikationen und deren genaue Position sollten über Cloud-Dienste bereitgestellt werden. Hier können sie einfach geändert und unabhängig von der installierten Version bei allen Usern gleich dargestellt werden.
Wenn nun aber keine Position referenziert werden soll, sondern – wie bei der Staubsaugeranleitung aus unserem Beispiel – ein 3D-Objekt? Dazu gibt es einige Frameworks, die es ermöglichen, aus 3D-Modellen der zu trackenden Objekte Modelle zum Tracken der Objekte zu erstellen. Zum Teil werden diese Umwandlungen schon von Cloud-Diensten übernommen. Aber auch der Austausch der Modelle und der am Modell anzuzeigenden Informationen kann nur mit Unterstützung aus der Cloud passieren. Gerade wenn "Echtzeit"-Daten angezeigt werden sollen, muss hier eine stetige Kommunikation stattfinden. Der Austausch von "Echtzeit"-Daten findet häufig auch über vorgefertigte Modelle statt. Diese sind z. B. als Digital Twin oder Building-Information-Model hinterlegt. Solche Services sind meist sehr abstrakt und nur für wenige Menschen verständlich. Hier kann AR helfen, diese Daten zum Leben zu erwecken. Da die Daten und Informationen bestimmten Sensoren, Bauteilen oder Subsystemen des Systems zugeordnet sind, können die Informationen in der realen Welt auch genau diesem Objekt zugeordnet werden. Als Beispiel kann man sich hier ein großes Gebäude mit vielen Lichtern, Schaltern und komplexer Steuerung vorstellen. Nun funktioniert hier eine Lampe nicht mehr. Es gibt Papierpläne oder auch digitale Pläne, auf denen man nach dem Fehler suchen kann. Geschultes Personal, welches mit dem Gebäude vertraut ist, wird die zu überprüfenden Schalter und Steuerungen wahrscheinlich schnell finden. Jemand, der aber nicht mit dem Gebäude vertraut ist, benötigt entsprechend länger. Dies ist aber nur der erste Teil. Wie werden die Zugänge der Steuerungen gefunden, wo verlaufen die Kabel und welcher der Schalter ist der richtige? Nun haben wir aber dank Augmented Reality die Möglichkeit, die im digitalen Bauplan befindlichen Kabel, Schalter und Steuerungen direkt auf der Wand bzw. in der Wand darzustellen. Wie mit einem Röntgenblick kann das Gebäude durchleuchtet werden. Daten wie Fehlermeldungen können hierbei direkt neben der Quelle abgebildet werden und zur Zeit Unnötiges direkt ein- und wieder ausgeblendet werden.
Die Visualisierung von Daten am realen Objekt kann verschiedene Vorteile haben. Durch die genaue Verortung von Informationen können Fehler vermieden und bei deren Behebung geholfen werden. Auch das Entfallen der Transferleistung von der digitalen in die reale Welt kann Zeit ersparen und Fehler vermeiden. Google Maps benutzt ein solches Feature schon. Hier kann mit dem Handy die Umgebung gescannt werden. Daraufhin zeigt Google Maps einen Pfeil auf der Straße, welcher anzeigt, in welche Richtung man sich bewegen muss, um an sein Ziel zu gelangen.
Eine andere Synergie, die sich ergibt, ist die mögliche Kollaboration. Wenn die Inhalte, wie zuvor empfohlen, nicht mit den Tracking-Punkten im Raum verbunden werden, sondern diese nur als Referenz für die in der Cloud abgelegten Inhalte verwendet werden, können diese auf unterschiedlichen Geräten gleichzeitig abgerufen werden. Sobald diese aber abgerufen sind, werden Änderungen nicht ohne weiteres synchronisiert. Wenn es dabei nur um Aktualisierungen vom Server geht und diese nicht in Echtzeit auf dem Gerät ankommen müssen, ist dies auch kein Problem. Wenn nun aber die User selbst Änderungen vornehmen können, wird es problematisch. Nehmen wir hier eine interaktive Meeting-Plattform als Beispiel. Auf dieser Plattform können die Nutzer Notizen erstellen, löschen und im Raum verteilen. Dabei werden Änderungen direkt synchronisiert. Mit einer REST-Schnittstelle und einer Datenbank, in der die Werte gespeichert werden, nicht unmöglich, aber auf keinen Fall ratsam. Da AR-Applikationen meistens mit Game Engines wie Unity gebaut werden, kann hier auch auf andere Gaming-Technologien zurückgegriffen werden. Das zuvor genannte Beispiel könnte rein von der Interaktion auch ein Onlinespiel beschreiben. So ist es nicht verwunderlich, dass die Lösung genau darin liegt.
Anbieter wie Photon haben ihre eigene Cloud, in welcher sie Game Server bereitstellen, welche die komplette Synchronisierung der Inhalte für uns übernehmen.
Die Möglichkeit der Kollaboration mit AR bietet aber weitaus mehr als nur interaktive Meetings. Mit der zuvor beschriebenen Möglichkeit, bestimmte Punkte in der Umwelt zu persistieren und Objekte zu erkennen, kann verteilte/zeitunabhängige Kollaboration gefördert werden. So ist es möglich, Informationen an Objekten zu hinterlassen, die später oder auch von einer anderen Person an genau derselben Position wiedergefunden werden können. Dies kann z. B. in Verbindung mit einem Bauticketsystem hilfreich sein. Besonders spannend wird es aber, wenn die einzelnen Punkte sich gegenseitig kennen. Dadurch kann das räumliche Verständnis so weit gebracht werden, dass eine Navigation mit den einzelnen Punkten möglich ist. Vor allem im Innenbereich, wo GPS zu ungenau ist und andere Positionierungsverfahren sehr teuer sind, kann AR die Lösung sein. Je nach Anforderung an die Präzision ist hier wenig bis keine Einrichtung/Installation im Gebäude nötig.
Abgesehen von Synergien, die direkt einen Mehrwert für die Applikation schaffen können, gibt es auch Synergien, die es uns ermöglichen, die Applikationen stabiler laufen zu lassen und sie besser in unser Ökosystem zu integrieren. Gerade wenn AR-Applikationen z. B. für kollaboratives Arbeiten gedacht sind, wird sich die Last auf dem Server nicht linear über den Tag verteilen. Auch eine Identitäts-/Zugriffsverwaltung (IAM) ist in Multi-User-Anwendungen von Relevanz. Diese Probleme sind in der Software-Entwicklung von genereller Natur. Allerdings soll hier gesagt sein, dass die Services, die in anderen Applikationen genutzt werden, um diese Probleme zu lösen, auch genauso in AR-Applikationen verwendet werden können.
Gerade im Bereich des Industrial Metaverse ist dies spannend. Firmen, die vermehrt auf AR-Applikation für Planung, Training oder auch Entwurf setzen, benötigen diese Schnittstelle zur bestehenden Infrastruktur. IT-Strukturen, Sicherheitsvorgaben oder auch Preisdruck machen dies unerlässlich. Diese Reglementierungen stellen sich aber als große Stärke heraus. Diese ist die letzte Synergie, auf die ich eingehen will – "Warum profitiert AR von reglementierten, klar abgegrenzten Netzwerken".
Abgeschlossene Netzwerke sind sonst ein Albtraum für jeden Entwickler. Für AR-Anwendungen können diese allerdings hilfreich sein. Wenn eine Applikation die ganze Welt abdecken soll, muss sichergestellt werden, dass diese auch überall auf der Welt funktioniert. Dies kann aus verschiedenen Gründen eine Schwierigkeit sein. Zum einen muss sichergestellt werden, dass die gewählte Tracking-Methode überall verfügbar ist, zum anderen müssen soziale (gesellschaftliche) und auch gesetzliche Rahmenbedingungen passen. Mit einer Kamera durch die Öffentlichkeit zu laufen, stößt nicht immer auf positives Feedback. Das Umfeld sollte also Bescheid wissen, was diese Kamera filmt und wozu sie da ist.
Bei AR und dem Metaverse sprechen wir auch oft von einer Art AR-Cloud, also einer Art Layer, den wir über die Welt ziehen. Im Grunde ist das Internet schon genau das. Allerdings sind in diesem AR-Layer keine physischen Objekte anhand ihrer IP/MAC verknüpft, sondern auf Grund ihrer Position bzw. Umgebung oder deren Aussehen und Form. Die dafür notwendigen Informationen benötigen wir natürlich. Das heißt, wir brauchen zum einen Informationen über die Identifikationsmerkmale, zum anderen aber auch nützliche Informationen zu Objekt und Ort.
An einem Beispiel erklärt: Wir sind in einer Fußgängerzone, hier wären Informationen zu bestimmten Angeboten an den jeweiligen Läden interessant. Dazu brauchen wir einmal die Information, auf welchen Laden wir eigentlich blicken. Dies könnte über die Bilderkennung oder auch über GPS und einen Kompass realisiert werden, da es nicht relevant ist, in welcher Relation zum Laden die Informationen angezeigt werden. Es muss nur eine Zuordnung ersichtlich sein. Der deutlich spannendere und wichtigere Teil ist, welche Angebote und Informationen wir anzeigen. Wenn wir hier nun die am Anfang beschriebenen Mehrinformationen nutzen, kann das Angebot direkt auf die entsprechende Person zugeschnitten werden. Allerdings müssen irgendwo die Informationen über die Angebote herkommen. Angebote sind hier wahrscheinlich noch sehr einfach zu bekommen, allerdings wird es trotzdem nochmal kompliziert, wenn hier lokale, personenspezifische oder auch zeitlich begrenzte Angebote hinzukommen. Hier handelt es sich um eine sehr heterogene Umgebung, wo Informationen erst aus verschiedenen Systemen kombiniert werden müssen. Über die meisten dieser Systeme haben wir keine Hoheit und wissen auch nicht, wie verlässlich diese sind, wie lang diese bestehen bleiben und ob diese korrekt sind. Auch ist es nicht immer so einfach, an verlässliche Tracking-Informationen zu kommen. Wenn wir nun ein anderes Beispiel betrachten, wird schnell klar, wie das Gegenteil aussehen kann. Wenn wir uns auf einem Produktionsgelände oder in einer Produktionshalle befinden und hier die aktuellen Kennzahlen direkt an den Maschinen anzeigen lassen wollen, brauchen wir zum einen eine Information darüber, wo welche Information angezeigt werden soll und auch wo wir diese Information bekommen.
Um eine Maschine zu tracken, können wir z. B. ein Objekt-Tracking verwenden und die Maschine aufgrund ihrer physikalischen Form erkennen. Abhängig von der Ausrichtung des Objekts können auch verschiedene Informationen an unterschiedlichen Stellen der Maschine platziert werden. Voraussetzung für ein Objekt-Tracking ist eine virtuelle Abbildung, die wir im besten Fall schon vom Hersteller bekommen oder uns über einen Scan erstellen können. Allerdings können unterschiedliche Maschinen vom gleichen Typ so nicht voneinander unterschieden werden. Dazu ist mindestens noch eine weitere Information oder ein anderes Trackingverfahren nötig, z. B. ein QR-Code oder Umgebungsinformationen. Diese können wir ohne weiteres installieren oder erfassen. Im öffentlichen Raum wäre dies nicht ohne Probleme möglich. Auch das Risiko von Vandalismus und Verschmutzung ist deutlich höher. Hilfsmittel, die wir sonst noch benutzen können, sind WLAN-Fingerprints, Tokens oder auch alle anderen fest installierten Marker.
Wenn wir eine Maschine eindeutig identifiziert haben, können wir hier direkt in unserem eigenen System nach der entsprechenden Maschine suchen und dort die Daten abfragen. Ich kann also nicht nur identifizieren, wo eine Maschine ist, sondern diese auch aus meinem Netz heraus abfragen und erreichen.
Der andere große Vorteil, den wir hier haben, ist die garantierte Verfügbarkeit einer Netzwerkverbindung. Auch wenn es noch kein Netz geben sollte, habe ich immer die Möglichkeit dieses hierhin verlegen zu lassen. Dadurch sind aktuelle Daten aus der Cloud, Kooperation übers Netz oder auch Remote Rendering immer möglich.
Ein abgegrenztes Netzwerk muss aber nicht unbedingt in einer abgegrenzten Umgebung sein. Wenn ich wieder in der Fußgängerzone bin, nun aber Informationen über die Infrastruktur – wie Laternen – haben will, wird es schwierig, diese auseinanderzuhalten oder auch an die dazugehörigen Informationen zu kommen. Wenn ich nun aber ein Netzbetreiber bin, verfüge ich über diese Informationen oder auch Möglichkeiten. Ich habe das Wissen, wo die Objekte sind und auch alle von ihnen gesammelten Informationen. Der große Vorteil als Organisation ist die Hoheit über die Objekte und Daten. Wenn ich diese Daten nun also in die Cloud bringe, kann ich über moderne Technologien AR als sehr mächtiges Tool verwenden.
Da AR viele Informationen braucht, um wirklichen Mehrwert zu schaffen und nicht nur unterhaltsam zu sein, muss diese Technologie weiterwachsen und sich an der stetig steigenden Vernetzung bedienen. Dies soll nicht heißen, dass es heute noch keine Use Cases gibt, wo AR verwendet werden kann, sondern dass deren Anzahl exponentiell steigen wird.