Denis Stalz-John & Nils Uhrberg 02. Oktober 2024

Beyond CNNs: Wie Vision Transformers die Zukunft der Bildverarbeitung verändern

Der Aufbruch in eine neue Ära der Bildverarbeitung

Die rasante Entwicklung der Technologie hinsichtlich Algorithmik, Software und Hardware hat in den letzten Jahrzehnten zu bemerkenswerten Fortschritten in der Bildverarbeitungstechnologie geführt. Während die Anfänge der Bildverarbeitung in einfachen, regelbasierten Algorithmen lagen, entwickelt sich das Feld schnell weiter in Richtung lernbasierter Modelle. Eine dieser Technologien, die für Furore gesorgt hat, sind Convolutional Neural Networks (CNNs). CNNs nutzen Faltungsoperationen (Convolutions) zur Extraktion von Merkmalen aus Bildern und sind dadurch in der Lage, komplexe Muster zu identifizieren. Diese Fähigkeit hat CNNs zu einem Standardwerkzeug in der Bilderkennung gemacht.

Doch trotz der beeindruckenden Leistungsfähigkeit von CNNs gibt es Aspekte, die ihre Anwendung in bestimmten Szenarien begrenzen. Ein wesentliches Problem ist die Datenabhängigkeit dieser Modelle. CNNs benötigen eine große Menge an Trainingsdaten, um effektiv zu sein. Zudem müssen diese Daten sorgfältig aufbereitet und konsistent annotiert werden. In vielen realen Anwendungsfällen stehen jedoch nur begrenzte Datensätze zur Verfügung. Das Sammeln und Aufbereiten von Daten ist oft eine herausfordernde, zeit- und ressourcenintensive Aufgabe.

Zu diesem Zweck hat eine der jüngsten Entwicklungen in der Bildverarbeitungstechnologie, der ViT (Vision Transformer), erhebliches Interesse geweckt. ViTs stellen eine neue Klasse von Modellen dar, die die Transformer-Architektur, welche in der Verarbeitung natürlicher Sprache effektiv eingesetzt wird, auf die Bildverarbeitung anwenden.

Im Gegensatz zu CNNs, die überwiegend auf lokale Bildinformationen zugreifen, können ViTs globale Kontextinformationen über das gesamte Bild hinweg erfassen. Dies ermöglicht es ihnen, Muster und Zusammenhänge zu erkennen, die für CNNs schwerer zugänglich sind. Darüber hinaus können ViTs über ein Fine-Tuning effektiv mit kleineren Datensätzen umgehen und liefern oft beeindruckende Ergebnisse, selbst wenn nur begrenzte Daten zur Verfügung stehen.

Im weiteren Verlauf dieses Artikels werden wir die Evolution der Bildverarbeitungstechnologien im Detail beleuchten und uns besonders auf das bemerkenswerte Potenzial der ViTs konzentrieren. Wir werden erörtern, wie ViTs die Herausforderungen, die durch die Datenanforderungen von CNNs entstehen, bewältigen und weshalb ViTs auch bei Bildern mit komplexen Szenen gute Ergebnisse erzielen. Ein einfaches Beispiel wird die Wirksamkeit von ViTs in Situationen mit begrenzten Datenmengen veranschaulichen.

Von CNNs zu Vision Transformers

Die Vision Transformers markieren eine bemerkenswerte Innovation in der Bildverarbeitung, die auf der Transformer-Architektur fußt. Ursprünglich entwickelt wurden Transformers zur Verarbeitung von Texten im Kontext der natürlichen Sprachverarbeitung. Allerdings wurde bald erkannt, dass die Mechanismen, die ihnen zu Grunde liegen, auch auf die Verarbeitung von Bildern anwendbar sind. Zuvor richten wir unseren Blick in die Vergangenheit und schauen auf verschiedene Meilensteine und Entwicklungen der Bildverarbeitungsverfahren, die uns letztendlich zu den ViTs geführt haben.

Die Entwicklung der Bildverarbeitung im Wandel der Zeit

Abb. 1: Performance-Vergleich unterschiedlicher Computer-Vision- und Deep-Learning-Verfahren auf dem ImageNet-Datensatz basierend auf dem Top-5 bzw. Top1-1 Error. <a href="#c44028">[1,2,3]</a> — Abb. 1: Performance-Vergleich unterschiedlicher Computer-Vision- und Deep-Learning-Verfahren auf dem ImageNet-Datensatz basierend auf dem Top-5 bzw. Top1-1 Error. [1,2,3]

Der ImageNet-Datensatz hat als Benchmark eine zentrale Rolle in der Entwicklung der Bildverarbeitung gespielt. Er umfasst Millionen von Bildern, die in feingranulare Kategorien unterteilt sind, und hat maßgeblich zur Evaluierung verschiedener Bildverarbeitungsalgorithmen beigetragen. Die Abbildung zeigt, wie verschiedene Verfahren und Modelle mit dem ImageNet-Datensatz evaluiert wurden und im Laufe der Zeit beeindruckende Ergebnisse erzielt haben. Zur Bewertung der Verfahren und Modelle wurde der Top-5 Error verwendet, der den Anteil der Fälle angibt, in denen die korrekte Klasse nicht unter den fünf am höchsten vorhergesagten Klassen ist.

Anfangs kämpften traditionelle Computer-Vision-Algorithmen tapfer, jedoch mit begrenztem Erfolg. Verfahren wie NEC-UIUC (2010) und XRCE (2011) erreichten Top-5 Errors von 28 bzw. 26 Prozent. Diese Methoden, obwohl innovativ für ihre Zeit, waren schlichtweg nicht in der Lage, die Komplexität und Vielfalt der Bilddaten zu bewältigen.

Dann betraten die Convolutional Neural Networks (CNNs) die Bühne und veränderten das Spiel grundlegend. Mit AlexNet (2012) begann ein Wandel, die durch Modelle wie ZFNet (2013) und VGG (2014) immer weiter vorangetrieben wurde. Der Top-5 Error sank rapide und 2014 lag er bereits bei 7,3 Prozent. Ein entscheidender Durchbruch kam dann 2014/2015, als CNNs erstmals die menschliche Leistung übertrafen. Eine Leistung, die viele für unmöglich hielten, wurde Realität.

Die Fortschritte endeten hier jedoch nicht. Mit ResNet (2015) und später EfficientNet (2019) wurden die Architekturen immer raffinierter, und die Top-5 Errors schrumpften weiter auf beeindruckende 3,1 Prozent. Diese Entwicklungen zeigten, dass CNNs nicht nur leistungsfähig, sondern auch anpassungsfähig sind, ständig neue Höhen erklimmend.

Der letzte Balken im Diagramm repräsentiert das Vision-Transformer-Modell CoCa aus dem Jahr 2022. Anders als die vorherigen Einträge basiert dieser Vergleich auf dem Top-1 Error, der eine härtere Messlatte darstellt, indem er nur die am höchsten vorhergesagte Klasse berücksichtigt. Trotz dieser strengeren Bewertung beeindruckt CoCa mit einer Fehlerquote von 9 Prozent, was zeigt, dass Transformers ernsthafte Konkurrenten zu CNNs sind.

Zusammengefasst demonstriert der Performance-Vergleich, dass Vision Transformers das Potenzial haben, die Bildverarbeitung weiter zu revolutionieren. Obwohl die Reise von traditionellen Algorithmen zu CNNs bereits beeindruckend war, könnte der nächste große Schritt in der Ära der Transformers liegen.

Funktionsweise der Vision Transformers in a Nutshell

Nachdem wir Vision Transformers und seine Potentiale in die Historie der Bildverarbeitungsverfahren eingeordnet haben, tauchen wir nun tiefer in die Welt der Vision Transformers ein und versuchen zu verstehen, wie es den ViTs möglich ist, diese Leistungen zu erreichen. Zunächst schauen wir uns die Transformer-Architektur an, bevor wir nachvollziehen, wie ViTs diese Architektur für Bildverarbeitungsprobleme verwenden.

Ein zentraler Mechanismus innerhalb der Transformer-Architektur ist der sogenannte "Self-Attention-Mechanismus". Dieser Mechanismus ermöglicht es, dass jedes Element eines Eingabedatensatzes, sei es ein Wort in einem Text oder ein Teil eines Bildes, in Bezug zu jedem anderen Element gesetzt wird. Der Kerngedanke besteht darin, dass jedes Element der Eingabe in drei unterschiedlichen Matrizen repräsentiert wird, die als Query-, Key- und Value-Matrizen bekannt sind. Der Self-Attention-Mechanismus berechnet nun für jedes Paar von Elementen in der Eingabe eine Gewichtung, basierend auf der Übereinstimmung der Query des einen Elements mit dem Key des anderen. Diese Gewichtungen repräsentieren die "Aufmerksamkeit", die jedes Element den anderen "schenkt".

In der natürlichen Sprachverarbeitung ist dies von großer Bedeutung, da der Kontext eines Wortes in einem Satz dadurch besser verstanden wird. Nehmen wir als Beispiel das Wort "Bank", das sowohl als Sitzgelegenheit als auch als Geldinstitut interpretiert werden kann. Der Self-Attention-Mechanismus ermöglicht es dem Transformer, diese Unterschiede zu erkennen und entsprechend zu interpretieren.

Wie aber wird dieser Mechanismus auf Bilder angewendet? Vision Transformers gehen einen innovativen Weg, indem sie ein Bild in kleine quadratische Patches teilen, ähnlich wie Wörter in einem Text. In der ursprünglichen Arbeit über Vision Transformers wurden beispielsweise 16x16 Pixel große Patches verwendet. Jeder dieser Patches wird dann als ein "Wort" in der "Bildsprache" behandelt. Den einzelnen Patches werden noch Informationen über die Position (Position Embeddings) der Patches im Bild hinzugefügt.

Abb. 2: Skizzierung der Funktionsweise des Self-Attention-Mechanismus. Die Abbildung zeigt eine abstrakte Darstellung des Self-Attention-Mechanismus. Quelle: In Anlehnung an <a href="#c44028">[4]</a> — Abb. 2: Skizzierung der Funktionsweise des Self-Attention-Mechanismus. Die Abbildung zeigt eine abstrakte Darstellung des Self-Attention-Mechanismus. Quelle: In Anlehnung an [4]

Der Self-Attention-Mechanismus erlaubt dem Vision Transformer, den Kontext jedes Patches im Verhältnis zu allen anderen zu verstehen. Dies bietet die Möglichkeit einer globalen Kontextbetrachtung über das gesamte Bild hinweg, die über die lokale Sichtweise der CNNs hinausgeht. Dieser Ansatz ermöglicht es ViTs, komplexe Muster und Zusammenhänge in den Bildern zu erkennen, die für CNNs unzugänglich wären. Es ist diese Fähigkeit zur globalen Kontextbetrachtung, die Vision Transformer zu einer vielversprechenden Alternative zu herkömmlichen Bildverarbeitungsmethoden macht.

Ausgehend von einer Eingabesequenz werden drei Vektoren gebildet: der Query-, Key- und Value-Vector. Diese Vektoren ermöglichen den Vergleich zwischen den Elementen der Eingabesequenz. Der Query-Vector eines Elements wird mit dem Key-Vector eines anderen Elements verglichen, um die sogenannten "Attention Scores" zu berechnen. Eine Softmax-Funktion wandelt diese Scores in Wahrscheinlichkeiten, die "Attention Weights", um. Schließlich werden die Value-Vektoren, gewichtet durch diese Wahrscheinlichkeiten, summiert, um die Ausgabesequenz zu bilden.

Die Transformer-Architektur besteht traditionell aus zwei Hauptkomponenten: dem Encoder, der die Eingabedaten in eine Reihe von Repräsentationen umwandelt, und dem Decoder, der diese Repräsentationen nutzt, um die endgültige Ausgabe zu generieren. Jeder dieser Teile enthält mehrere Layer, bestehend aus Selbst-Attention-Layern und Position-wise-Feed-Forward-Netzwerken, die wiederholt angewendet werden, um den Datenkontext zu erlernen.

Bei der Anwendung auf die Bildverarbeitung verwenden Vision Transformers nur den Encoder-Teil der ursprünglichen Architektur. Das liegt daran, dass viele Bildverarbeitungsaufgaben, wie beispielsweise die Bildklassifikation, das Ziel verfolgen, eine feste Anzahl von Ausgaben zu erzeugen. Dies steht im Kontrast zur Sequenz-zu-Sequenz-Natur der meisten Sprachverarbeitungsaufgaben.

Abb. 3: Aufbau des Encoders einer Vision-Transformer-Architektur. Quelle: In Anlehnung an <a href="#c44028">[5]</a>. — Abb. 3: Aufbau des Encoders einer Vision-Transformer-Architektur. Quelle: In Anlehnung an [5].

Abb. 3 zeigt den Aufbau eines solchen Encoders. Ausgehend von einem Eingangsbild wird dieses in kleine Patches unterteilt und geflattet. Zusätzlich wird ein Positions-Embedding hinzugefügt, um Positionsinformationen zu berücksichtigen. Diese eingebetteten Patches stellen die Eingabe für den Encoder dar. Der Encoder besteht aus mehreren wiederholten Einheiten, die jeweils eine Normalisierung (Norm), Multi-Head Self-Attention und ein MLP (Multi-Layer Perceptron) umfassen. Durch die Self-Attention werden die Beziehungen zwischen den verschiedenen Patches erlernt. Die Ergebnisse dieser Berechnungen werden kombiniert und erneut normalisiert, bevor sie in die nächste Schicht übergehen.

Es gibt Anwendungsfälle in der Bildverarbeitung, wie etwa die semantische Segmentierung, bei denen ein Decoder benötigt wird. Hier kommt eine modifizierte Form eines Decoders zum Einsatz, der darauf ausgelegt ist, räumliche Informationen, die während des Encodierprozesses verloren gegangen sein könnten, wiederherzustellen. Ein prominentes Beispiel hierfür ist das Trans-U-Net-Modell für die medizinische Bildsegmentierung. Dabei wird ein Vision Transformer als Encoder und ein U-Net-ähnlicher Decoder verwendet, um eine hochauflösende Segmentierungsausgabe zu erzeugen.

Vergleich der Arbeitsweise von CNNs und ViTs

Convolutional Neural Networks (CNNs) haben neue Maßstäbe in der Bildverarbeitung gesetzt, indem sie hierarchische Feature-Extraktionen durch die Anwendung aufeinanderfolgender Faltungsschichten ermöglichen. Das grundlegende Prinzip besteht darin, dass die ersten Schichten einfache Merkmale (wie Kanten und Farbblöcke) aus dem Rohbild extrahieren und spätere Schichten komplexe Merkmale (wie Texturen und Muster) lernen, die auf diesen einfachen Merkmalen aufbauen. Diese Methode ist jedoch intrinsisch lokal und vernachlässigt größere Kontextinformationen. Für ein besseres Verständnis zeigt Abb. 4 den Aufbau und die Funktionsweise eines CNNs für Image Classification.

Abb. 4: Skizzierung des Aufbaus einer CNN-Architektur. Quelle: In Anlehnung an <a href="#c44028">[6]</a>. — Abb. 4: Skizzierung des Aufbaus einer CNN-Architektur. Quelle: In Anlehnung an [6].

Ein Eingangsbild wird in mehreren Schritten verarbeitet. Zunächst durchläuft es einen Convolutional Layer, der lokale Merkmale wie Kanten extrahiert. Danach wird die Ausgabe durch einen Max Pooling Layer geleitet, der die räumliche Größe reduziert und die wichtigsten Merkmale beibehält. Dieser Prozess wiederholt sich mit weiteren Convolutional und Max Pooling Layers, um zunehmend komplexere Merkmale zu extrahieren. Schließlich werden die extrahierten Merkmale durch einen Dense Layer verarbeitet, der die Klassifizierungsaufgabe durchführt und die endgültige Ausgabe liefert.

Im Gegensatz dazu arbeiten Vision Transformers (ViTs) auf einer globaleren Ebene. Sie zerteilen das Bild in viele kleine quadratische Patches und behandeln jedes dieser Patches als eine Art "Wort" in einem Textdokument. ViTs verwenden dann den Self-Attention-Mechanismus, um Beziehungen zwischen den verschiedenen Patches zu erkennen und zu lernen, sowohl in Bezug auf ihre räumliche Anordnung als auch auf ihre semantische Ähnlichkeit. Auf diese Weise können sie komplexere und globalere Muster im Bild erkennen.

Ein weiterer Unterschied besteht darin, wie CNNs und ViTs mit Positionsinformationen umgehen. CNNs haben eine eingebaute Vorstellung von räumlichen Beziehungen durch ihre Faltungsoperationen, während ViTs Positionsinformationen durch sogenannte Positionsembeddings hinzufügen müssen, um die räumlichen Beziehungen zwischen den Patches zu repräsentieren.

Bessere Performance mit weniger Daten

Eine der größten Herausforderungen in der Bildverarbeitung ist der Bedarf an großen Mengen von Trainingsdaten. CNNs sind dafür bekannt, dass sie tendenziell datenhungrig sind und optimale Ergebnisse oft erst mit umfangreichen, gut annotierten Datensätzen erreicht werden können.

Besonders im Bereich des Fine-Tunings, also der Anpassung des Modells an eine spezifische Aufgabe mit einem kleineren Datensatz, haben ViTs Vorteile. Sie können die aus dem Vortraining gelernten allgemeinen Muster effizient auf neue Aufgaben übertragen, wodurch weniger Beispiele für das Fine-Tuning benötigt werden. Darüber hinaus ermöglicht die flexible Natur des Self-Attention-Mechanismus den ViTs, spezifische Muster, die für die neue Aufgabe relevant sind, rasch zu identifizieren und zu lernen. Dies macht sie zu einer vielversprechenden Option für Anwendungen, bei denen die Datenmenge begrenzt ist.

Exkurs: Warum ViTs auch bei Erkennungen in komplexen Szenen gut geeignet sind

Mit der Einführung von Vision Transformers hat sich eine neue Dimension in der Bildverarbeitung eröffnet, die insbesondere bei der Erkennung in komplexen Szenen ihre Stärken zeigt. Doch was befähigt die ViTs, auch in komplexen Szenen gute Ergebnisse zu erzielen?

Globale Kontextbewältigung: Ein entscheidender Vorteil von ViTs liegt in ihrer Fähigkeit, den gesamten Kontext eines Bildes gleichzeitig zu erfassen. Anders als Convolutional Neural Networks (CNNs), die Bildinformationen lokal verarbeiten und diese schrittweise zu einem Gesamtbild zusammenfügen, können ViTs Beziehungen zwischen weit entfernten Bildteilen direkt erkennen. Stellen Sie sich vor, Sie schauen ein Wimmelbild an: Während CNNs Stück für Stück Details analysieren, können ViTs das gesamte Bild auf einmal erfassen und sofort feststellen, wie die verschiedenen Elemente zusammenhängen.
Flexibilität und Anpassungsfähigkeit: ViTs sind besonders flexibel, wenn es darum geht, die Bedeutung verschiedener Bildteile dynamisch zu bewerten. In einer Szene, in der ein kleines, aber wichtiges Detail von anderen Objekten umgeben ist, kann ein ViT dieses Detail besser hervorheben. Ein Beispiel wäre das Erkennen eines winzigen Rettungsrings in einem überfüllten Strandbild. CNNs könnten Schwierigkeiten haben, diesen Ring schnell zu identifizieren, weil sie sich auf lokale Zusammenhänge konzentrieren. ViTs hingegen erfassen schneller, dass der Rettungsring in einer bestimmten Beziehung zu den umgebenden Strandelementen steht.
Redundanzreduktion: Komplexe Szenen enthalten häufig viele redundante Informationen. ViTs können effizient relevante von irrelevanten Informationen trennen. Denken Sie an ein Waldfoto: Es gibt viele Bäume, Blätter und Äste, die sich wiederholen. Während CNNs jeden Abschnitt des Bildes gleichmäßig betrachten könnten, erkennen ViTs schnell, welche Teile des Bildes wirklich wichtig sind, etwa ein gut getarnter Tiger zwischen den Bäumen.
Robustheit gegenüber Variationen: Ein weiteres herausragendes Merkmal von ViTs ist ihre Robustheit gegenüber Variationen in der Szene. Während CNNs anfällig für Änderungen in der Objektposition, Beleuchtung und anderen Bildparametern sein können, bleiben ViTs stabil und liefern konsistente Ergebnisse. Wenn Sie beispielsweise ein Bild einer Straße bei Tag und bei Nacht betrachten, kann ein ViT die wesentlichen Merkmale der Straße besser erkennen, unabhängig von den Beleuchtungsunterschieden.

Praxisbeispiel: Vision Transformers im Einsatz

Trainingsbild mit türkiser Maske des cc Logos

Um die Leistungsfähigkeit von Vision Transformer zu demonstrieren, haben wir ein praktisches Beispiel durchgeführt. Ziel war es, unser Logo auf verschiedenen Bildern zu erkennen – eine anspruchsvolle Aufgabe, da dieses komplexe Logo in gängigen Datensätzen nicht vorkommt.

Wir nutzten den Per-Sam-Ansatz und trainierten das Modell mit nur einem einzigen Beispielbild. Trotz dieser Einschränkung und einer Trainingszeit von weniger als einer Minute auf einer CPU, zeigte das Modell bemerkenswerte Ergebnisse.

In den folgenden Testbildern sehen wir, wie das Modell das cc-Logo erkennt (© codecentric).

Bild 1: Erfolgreiche Erkennung trotz Änderungen in Perspektive und Farbe

Bild 2: Korrekte Identifizierung trotz stark abweichender Größe und Ablenkungen

Bild 3: Erkennung eines Logos von mehreren - eine Einschränkung des aktuellen Algorithmus

Bild 4: Beeindruckende Erkennung trotz komplett anderer Textur (Glas)

Natürlich gab es auch Herausforderungen:

Bild 5: Fehlerhafte Erkennung bei Logo-Integration in QR-Code

Bild 6: Fehlinterpretation bei Großaufnahme des QR-Codes

Ausblick: Die Zukunft der Vision Transformers

ViTs läuten eine neue Ära in der Bildverarbeitung ein. Mit ihrem revolutionären Ansatz, Bilder auf einer ähnlichen Basis wie Texte zu analysieren, haben sie bereits die Art und Weise transformiert, wie wir mit visuellen Daten arbeiten. Doch was bedeutet dies konkret für die Praxis und die zukünftige Forschung?

Effizientes Lernen mit weniger Daten

Ein herausragender Vorteil von Vision Transformers ist ihre Fähigkeit, tiefe Einblicke aus geringeren Datenmengen zu gewinnen. Dies steht im scharfen Kontrast zu den traditionellen Convolutional Neural Networks (CNNs), die oft immense Mengen an gut gelabelten Daten benötigen. Bei CNNs muss man oft aufwändig Trainingsdaten sammeln, sorgfältig labeln und aufbereiten. Danach folgt ein häufig stundenlanges Training, welches iterativ mehrfach ausgeführt werden muss, um ein Modell zur Reife zu bringen.

Mit ViTs verschiebt sich dieser Prozess grundlegend. Statt des mühsamen Sammelns von Daten und langwieriger Trainingsprozesse können ViTs effizienter trainiert werden. Der Fokus verlagert sich in diesem neuen Vorgehen auf das präzise Feintuning und effektive Benchmarking. Hierbei nimmt die Evaluierung der Feinabstimmung und Modellleistung eine entscheidende Rolle ein. Kurze Trainingszeiten und minimale Daten stellen sicher, dass die Ressourcen geschont werden, gleichzeitig allerdings die Modelle auf Herz und Nieren geprüft werden müssen.

Zukünftige Use Cases und Anwendungen

In unserem Arbeitsalltag haben wir bereits erste, vielversprechende Schritte unternommen, um ViTs in verschiedenen Domänen zu integrieren. Es gibt jedoch viele weitere potenzielle Anwendungsfelder, die noch weiter erforscht werden könnten. Hier sind einige mögliche Anwendungsfälle, die aufzeigen, wie breit das Einsatzspektrum von ViTs sein könnte:

Intelligente Verkehrssysteme: ViTs könnten durch schnelle Identifizierung und Klassifizierung von Verkehrssituationen autonome Fahrzeugsysteme revolutionieren. Besonders in dynamischen und unvorhersehbaren Umgebungen, in denen schnelle Entscheidungsfindung unerlässlich ist, bieten ViTs enorme Vorteile.
Bauwerksüberwachung: ViTs könnten zur Überwachung der strukturellen Integrität von Bauwerken eingesetzt werden. Durch die Analyse von Bildern oder Videomaterial könnten frühzeitig Anzeichen für Materialermüdung, Risse oder andere Schäden erkannt werden, bevor sie zu teuren Reparaturen oder sogar zu Gefahren führen.
Schadensbewertung im Versicherungswesen: Versicherungsunternehmen könnten ViTs nutzen, um bei Schadensfällen schneller und präziser zu bewerten. Beispielsweise könnten Bilder von Autounfällen oder Gebäudeschäden automatisch analysiert werden, um die Schwere des Schadens festzustellen und entsprechende Schritte einzuleiten. Dies könnte den Prozess der Schadensregulierung erheblich beschleunigen.
Qualitätssicherung in der Produktion: In der produzierenden Industrie könnten ViTs zur schnellen und präzisen Qualitätskontrolle eingesetzt werden. Sie könnten Fehler oder Abweichungen in Produktionslinien erkennen, die bei manuellen Kontrollen oft übersehen werden. Dies könnte zu einer erheblichen Verbesserung der Produktqualität und Reduzierung von Ausschuss führen.
Predictive Maintenance: Maschinen und Anlagen könnten durch ViTs kontinuierlich überwacht werden, um frühzeitig Anomalien zu erkennen und Wartungsbedarf zu prognostizieren. Dies könnte Ausfälle und Produktionsunterbrechungen minimieren und die Effizienz der gesamten Produktion erhöhen.
Agrarwirtschaft: ViTs könnten zur Analyse von Satelliten- und Drohnenbildern eingesetzt werden, um den Zustand von Pflanzenbeständen zu überwachen und Erntevorhersagen zu verbessern. Dies könnte zu einer Optimierung der landwirtschaftlichen Produktion und Ressourcennutzung führen.

Schlussgedanken

Vision Transformers bieten signifikante Fortschritte in der Bildverarbeitung. Mit ihrer Fähigkeit, sowohl lokale als auch globale Bildmerkmale gleichzeitig zu erfassen, eröffnen sie neue Möglichkeiten für Forschung und Anwendungen. Besonders beeindruckend ist dabei ihre Effizienz bei Trainingszeiten und Datennutzung. Durch Fine-Tuning eines vortrainierten Modells können oftmals bereits mit begrenzten Daten hervorragende Ergebnisse erzielt werden.

Dieser technologische Fortschritt verlagert den methodischen Schwerpunkt von der aufwändigen Datenvorbereitung hin zur präzisen Feinabstimmung und effektivem Benchmarking. Dies erfordert innovative Ansätze und Denkweisen in der Anwendung von Machine-Learning-Modellen. Zusätzlich bietet die Kombination von CNNs und Vision Transformers vielversprechende Synergien, da beide Ansätze ihre jeweiligen Stärken einbringen können.

Können ViTs auch Ihr Projekt voranbringen? Es bleibt spannend zu beobachten, welche weiteren Möglichkeiten ViTs in naher Zukunft eröffnen werden. Ihre Kreativität und Innovationskraft sind gefragt, um diese Technologien sinnvoll einzusetzen und neue, bisher ungenutzte Anwendungsbereiche zu entdecken.

Quellen

Kang, D.-Y., Duong, H. P., & Park, J.-C. (2020a). Application of Deep Learning in Dentistry and Implantology. The Korean Academy of Oral and Maxillofacial Implantology, 24(3), 148–181.
Tan, M., & Le, Q. v. (2019). EfficientNet: Rethinking Model Scaling for Convolutional Neural Networks.
Yu, J., Wang, Z., Vasudevan, V., Yeung, L., Seyedhosseini, M., & Wu, Y. (2022a). CoCa: Contrastive Captioners are Image-Text Foundation Models.
Vaswani, A., Shazeer, N., Parmar, N., Uszkoreit, J., Jones, L., Gomez, A. N., Kaiser, L., & Polosukhin, I. (2017). Attention Is All You Need.
Nguyen, D.-K., Assran, M., Jain, U., Oswald, M. R., Snoek, C. G. M., & Chen, X. (2024). An Image is Worth More Than 16x16 Patches: Exploring Transformers on Individual Pixels.
Yadav, M., Kr Purwar, R., & Jain, A. (2018). Design of CNN architecture for Hindi Characters. ADCAIJ: Advances in Distributed Computing and Artificial Intelligence Journal, 7(3), 47–62.

Weitere Informationen:

Abou Ali, M., Dornaika, F., & Arganda-Carreras, I. (2023). White Blood Cell Classification: Convolutional Neural Network (CNN) and Vision Transformer (ViT) under Medical Microscope. Algorithms, 16(11), 525.
Bai, Y., Mei, J., Yuille, A., & Xie, C. (2021). Are Transformers More Robust Than CNNs?
Cao, Y.-H., Yu, H., & Wu, J. (2022). Training Vision Transformers with Only 2040 Images.
Carion, N., Massa, F., Synnaeve, G., Usunier, N., Kirillov, A., & Zagoruyko, S. (2020). End-to-End Object Detection with Transformers.
Dosovitskiy, A., Beyer, L., Kolesnikov, A., Weissenborn, D., Zhai, X., Unterthiner, T., Dehghani, M., Minderer, M., Heigold, G., Gelly, S., Uszkoreit, J., & Houlsby, N. (2020). An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale. ICLR 2021 - 9th International Conference on Learning Representations.
Huang, H., Zhou, X., Cao, J., He, R., & Tan, T. (2022). Vision Transformer with Super Token Sampling.
Parmar, N., Vaswani, A., Uszkoreit, J., Kaiser, Ł., Shazeer, N., Ku, A., & Tran, D. (2018). Image Transformer.
Raghu, M., Unterthiner, T., Kornblith, S., Zhang, C., & Dosovitskiy, A. (2021). Do Vision Transformers See Like Convolutional Neural Networks?
Touvron, H., Cord, M., Douze, M., Massa, F., Sablayrolles, A., & Jégou, H. (2020). Training data-efficient image transformers & distillation through attention.
Wu, R., Wen, X., Yuan, L., Xu, H., & Liu, Y. (2024). Visual Tracking based on deformable Transformer and spatiotemporal information. Engineering Applications of Artificial Intelligence, 127, 107269.

Autoren

Denis Stalz-John

Denis arbeitet als Berater bei der codecentric AG in Münster und ist spezialisiert auf Computer Vision, Semantische Segmentierung, Objekterkennung und Deep...

Nils Uhrberg

Nils ist Machine Learning Engineer, der sich auf die Implementierung von Machine Learning-Lösungen im industriellen Kontext und die Optimierung von...

KI im Identity-and-Access-Management

Sebastian Rohr

KI im Organigramm – Wenn künstliche Intelligenz zur Kollegin wird

Christopher Nocera Walg & Dr. Jonas Röttger

Spring AI 1.0: Ollama mit Llama von Meta AI einsetzen und mit Spring AI Prompts erstellen

Christian Ullenboom

Kommentare (0)

Denis Stalz-John

Nils Uhrberg

Aktuelles

Konferenz für Java-Entwicklung 2025: Java-Tage in Frankfurt am Main

Digitale Souveränität: Europas digitales Paradoxon – Herausforderungen und Lösungen

Cloud: Europäische Alternative

Beyond CNNs: Wie Vision Transformers die Zukunft der Bildverarbeitung verändern

Der Aufbruch in eine neue Ära der Bildverarbeitung

Von CNNs zu Vision Transformers

Die Entwicklung der Bildverarbeitung im Wandel der Zeit

Funktionsweise der Vision Transformers in a Nutshell