Dr. Henning Femmer 12. Mai 2020

Text-Analytics – Potenzial und Anwendungsfälle

Einen Großteil unserer Arbeitszeit verbringen wir damit, große Mengen von Textdokumenten zu produzieren, zu lesen oder zu verarbeiten. Die häufigsten Beispiele für diese Dokumente sind: Verträge, Protokolle, E-Mails, Anforderungen, Testfälle, Webseiten, Präsentationen, Social-Media-Texte, Logfiles… Wie oft sitzt man an einer dieser Tätigkeiten und denkt: Das muss doch auch automatisch gehen! Und tatsächlich: Viele dieser textbezogenen Aufgaben können automatisiert werden! Text-Analytics-Methoden können Ihnen helfen, besser (höhere Konsistenz) oder schneller (Verarbeitung in Echtzeit) zu werden. Damit können Sie sich auf das Wesentliche Ihrer Aufgabe konzentrieren.

Um die Chancen von Text Analytics zu betrachten, müssen wir uns zwei Fragen stellen. Zunächst einmal fragt man sich natürlich, für was Text Analytics anwendbar ist. Welche Arten von Texten können über Text Analytics betrachtet werden? Falls Text Analytics auch für meinen Text anwendbar ist, fragt man sich natürlich auch, was man damit erreichen kann. Zuletzt müssen wir natürlich diskutieren, wo die Grenzen von Text Analytics sind. Diese drei Fragen möchte ich im Folgenden diskutieren.

Welche Arten von Texten eignen sich für Text Analytics?

Text Analytics eignet sich prinzipiell für jede Art von Text. Dabei gelten jedoch zwei Prinzipien:

Je mehr Text desto besser.
Je expliziter die Struktur desto besser.

Lohnenswert wird Text Analytics vor allem dann, wenn entweder Masse, Geschwindigkeit, Qualität oder Kosten von Texten ein wichtiger Faktor sind.

Werden wir mal konkret. Die Textarten, bei denen Text Analytics am besten geeignet ist, sind:

Verträge, Anforderungen, Testfälle oder sonstige Arten von großen oder zahlreichen Dokumenten: Wir arbeiten viel mit Kunden zusammen, die mit vielen und großen Vertragstexten hantieren. Dabei sind die Texte selbst oft mehrere hundert Seiten lang und haben auch noch sogenannte "mitgeltende Unterlagen"! Wer behält denn da den Überblick? Eine häufige Frage ist dabei etwa: "Wo sind die Stellen, die mich betreffen?" Aktuell müssen Sie hier von Hand suchen oder sich auf eine zweifelhafte Textsuche verlassen. Auch fragen sich viele Manager: Was steht denn dort eigentlich drin? Wie ist die Qualität? Wie hat sich die Qualität entwickelt. Alle diese Fragen können Sie händisch auf großen Texten nicht mehr beantworten. Außerdem müssen alle Arten von "formalen Absprachen" zwischen unterschiedlichen Personen wasserdicht sein. Hier sollte man aufpassen, dass man nicht wissentlich oder unwissentlich Uneindeutigkeiten in Texte einbaut.
Social Media und weitere Websites: Hier kommen die Faktoren Masse von Text und Geschwindigkeit ins Spiel. Es werden auf Twitter etwa 6000 Tweets pro Sekunde verfasst. Shitstorms entwickeln sich zum Teil innerhalb von wenigen Minuten. Wer hier schnell eine große Menge von Meinungen verstehen will, muss automatisiert vorgehen.
Arbeitsdateien, wie Protokolle, E-Mails, Präsentationen, Notizen, usw.: Kennen Sie diese absurde Situation auch? Sie suchen eine Information auf Ihrem Computer, aber Sie können die Information, die Sie suchen, nicht finden. Sie wissen, das haben Sie garantiert irgendwo liegen. Jetzt haben Sie ein unglaublich mächtiges Werkzeug auf Ihrem Schreibtisch sitzen, das alles Wissen der Welt vereint, aber die naheliegendste Information ist verloren.
Zuletzt automatisch generierte Textdateien wie etwa Logfiles: Hier ist das häufige Problem, dass Sie ebenfalls Massen von Text generieren, die Sie normalerweise niemals lesen. Es gibt jedoch ein großes Aber: Es gibt die eine Stelle im Log, wo ein Hacker versucht hat, sich in's System zu arbeiten, oder wo es eine kleine Warnung gab, dass eine Komponente ausgefallen ist. Und diese Stelle zu finden ist noch schlimmer als die Suche nach der Nadel im Heuhaufen, es ist die Suche nach der Nadel in einem "Heustrom".

Abb. 1: Anwendungen von Text Analytics. © Henning Femmer

Was kann man mit Text Analytics machen?

Text Analytics kommt also dann ins Spiel, wenn man schneller, besser oder günstiger größere Textmengen verstehen und betrachten will. Dabei kann man sehr schön entlang der involvierten Personen schauen, wo das Potential von Text Analytics liegt.

Autoren wollen Texte verfassen oder verbessern. Hier kommen unterschiedliche Facetten der Unterstützung ins Spiel. Zunächst können Artificial-Intelligence- bzw. Machine-Learning-Methoden tatsächlich bereits Texte generieren. Das funktioniert schon sehr gut für standardisierte Texte wie Wetter- oder Sportberichte [1]. Dort ist allerdings das Themenspektrum zugegebenerweise sehr gering. Wenn Sie jedoch mal ins Staunen geraten möchten, was möglich ist, dann schauen Sie sich doch mal talktotransformer [1] an. Mittels des GPT-2-Modells schafft es hier das Verfahren sogar, anhand von einigen Eingabeworten einen vollständigen, häufig gut lesbaren Text zu produzieren. Und die Forscher vom Massachusetts Institute of Technology erzeugen schon seit vielen Jahren automatisiert (völlig schwachsinnige) Forschungsarbeiten [3]. Hier werden wir in den nächsten Jahren sehen, wie brauchbar diese Ansätze in der Realität sind. Autoren wollen ihre Texte auch verbessern. Diese Schreiber-Assistenz-Systeme sind schon heute Stand der Technik. Dazu gibt es generische Ansätze wie grammarly oder languageTool [4], welche beim Schreiben von allgemeinen Texten helfen. Oder natürlich noch viel stärker spezialisierten Ansätze, wie der Qualicen Requirements und Test Scout [5], der beim Schreiben von Anforderungen, Testfällen oder Vertragstexten hilft.
Leser wollen Informationen schnell finden. Hier ist die klassische Situation: Ich als Leser bin auf der Suche entweder nach einer oder mehreren Textstellen, die für mich wichtig sind. Oder aber, ich möchte eine generelle Aussage ableiten: Worüber spricht der Text? Welche Vokabeln werden genutzt? Wie sind die Zusammenhänge im Text? Hier kann Text Analytics auf ganz unterschiedliche Arten helfen. Entweder als eine Art Suche, die bestimmte Stellen hervorhebt, oder wirklich wie eine spezielle Anwendung, die mir die Konzepte des Textes, z. B. in einer Ontologie erzeugt und darstellt.

Abb. 2: Beispiel einer Ontologie. Quelle: wikimedia public domain.

Manager müssen Qualität analysieren und steuern. Als Manager sind große Mengen Texte, zum Beispiel bei Verträgen, Anforderungen oder Tests oft "schwarze Löcher", bei denen man nie genau weiß, was darin passiert. Hier sind automatisierte Verfahren eine Möglichkeit, die Kontrolle zurückzugewinnen. Wir analysieren etwa bei einem unserer Kunden die Testfälle in über 60 Projekten im Umfang von mehreren Millionen Worten und prüfen alle 10 Minuten alle Änderungen. Daraus formt sich ein Bild, dass eine Qualitätsentwicklung zeigt. Gibt es ein Team, das zurückfällt? Läuft es irgendwo nicht rund? Hat unsere Schulung funktioniert?

Abb. 3: Anzahl Qualitätsdefekte über die Zeit in einem unserer Projekte. © Dr. Henning Femmer

Texte liest man meist mit dem Ziel, sie zu verarbeiten. Was heißt das? Ich bekomme etwa eine E-Mail und muss daraus Folien gestalten. Ich kriege eine Nachricht, dass mein Mitarbeiter Urlaub beantragt und muss meine Projektplanung anpassen. Es geht also immer um eine Umwandlung von Texten, basierend auf anderen Texten als Input. Wenn diese Arbeiten häufig und stupide werden und wenn man merkt, dass man als Mensch unsauber und inkonsistent wird, dann sollte man darüber nachdenken, ob sich nicht etwas automatisieren ließe. So haben wir es zum Beispiel mit der Umwandlung von Anforderungen in Testfällen in einer Open-Source-Software gemacht: Die Anforderung wird automatisiert eingelesen. Die Text-Analyse erkennt Ursache-Wirkungs-Zusammenhänge und erzeugt ein entsprechendes Modell. Der Tester schaut noch einmal drüber und generiert automatisch eine minimale Menge an Testfällen. Dies ist eine algorithmische Tätigkeit, in der Maschinen nicht in die immer gleichen Fallen tappen, in die der Mensch erfahrungsgemäß tritt. Das Schöne daran: Das Unternehmen spart Zeit und Geld und der Tester kann sich um die wirklich komplexen Testfälle kümmern.

Zusammengefasst ist es so, dass Text-Analyse mit allen Arten von Texten hilft, egal ob Verträge, Social-Media-Informationen, E-Mails, Logdateien, Anforderungen, Testfälle usw. Insbesondere spannend wird es, wenn Dinge schnell passieren sollen, wenn große Menge oder lange Texte betrachtet werden, wenn das Ergebnis eine hohe Qualität haben muss oder natürlich, wenn Kosten eingespart werden sollen.

Wann sollte ich die Finger von Text-Analyse lassen?

In einer wissenschaftlichen Studie haben wir uns vor einiger Zeit angeschaut, wo die Grenzen der automatischen Verfahren sind [7]. Dabei haben wir uns eine Qualitäts-Guideline eines großen schwedischen Unternehmens angeschaut und geprüft, welche Aspekte aus der Guideline durch Text Analytics prüfbar sind. Wir haben dazu über einhundert Regeln analysiert und entsprechend klassifiziert. Vor allem haben wir uns aber hier angeschaut, welche Regeln nicht automatisch prüfbar sind. Daraus haben wir eine Checkliste mit vier Regeln abgeleitet, die wir anwenden, um mit unseren Kunden zu prüfen, ob das jeweilige "Traumprojekt" realistisch ist. Hier sind die Regeln:

Wenn man drei Personen fragt, bekommt man eine Antwort? Wir wollen wissen, ob der Auftraggeber überhaupt weiß, was er will. Zum Beispiel: Wenn wir weder definieren noch einigermaßen eindeutig erkennen können, was Kunst ist und was nicht, dann werden wir es nie durch eine Maschine bewerten lassen können.
Sind notwendige Informationen und vorherige Antworten dokumentiert? Text Analytics braucht Daten als Grundlage. Wenn die Information nirgendwo dokumentiert ist, kann keine Maschine arbeiten.
Sind unerklärbare Fehler akzeptabel? Falls das Text-Analytics-Verfahren Natural Language Processing, Machine Learning oder sonstige unscharfe Ansätze verwendet, hat man automatisch eine Ungenauigkeit in der Analyse. Diese Ungenauigkeit muss entweder akzeptabel sein oder in irgendeiner Form kompensiert werden.
Wie viel Wissen um Kontext und Bedeutung steckt in der Fragestellung? Bei jeder Frage muss man wissen, dass alle Text-Analytics-Verfahren schon recht gut darin sind, innerhalb eines Satzes Zusammenhänge zu verstehen. Sobald es aber darum geht, im Text komplexe, weitergehende Bezüge zum Kontext zu schaffen, zum Beispiel bei Widersprüchen, wird es aber schnell schwieriger.

Abb. 4: Checklist mit vier Regeln, die nicht automatisch prüfbar sind. © Dr. Henning Femmer

Zusammenfassung

Die Anwendungsmöglichkeiten von Text Analytics, Natural Language Processing, Machine Learning, Artificial Intelligence und weiteren Techniken nehmen von Tag zu Tag zu. Quasi im Wochenrhythmus geben Google, Spacy.io, die Universität Stanford und viele andere neue Ansätze, neue Papiere und neue Bibliotheken heraus.

Diese neuen Ansätze können undurchsichtige Berge von Texten zu wertvollen Schätzen von Informationen zu machen. Denn wir können mit Text Analytics Texte verfassen oder verbessern, Informationen schneller finden, Qualität analysieren und steuern und Texte automatisch verarbeiten.

Firmen, die bei der Arbeit mit Verträgen, Protokollen, E-Mails, Anforderungen, Testfällen, Webseiten, Präsentationen, Logfiles usw. besser (höhere Konsistenz) oder schneller (Verarbeitung in Echtzeit) werden wollen, sollten jetzt loslegen. Dabei ist Einlesen und PowerPoint-Präsentationen erstellen weder angesagt noch zielführend. Denn wie gut ein Ansatz funktioniert, lässt sich nur ausprobieren. Deshalb: Nicht länger reden, sondern jetzt einfach loslegen!

Quellen

S. R. Alkan: Roboterjournalismus, die automatische Geheimwaffe des Journalisten
Talktotransformer
SCIgen - An Automatic CS Paper Generator
Grammarly oder LanguageTool
Qualicen Scout
IEEE: Which Requirements Artifact Quality Defects are Automatically Detectable? A Case Study

Autor

Dr. Henning Femmer

Dr. Henning Femmer leitet als Mitgründer den Bereich Text Analytics bei der Qualicen GmbH. Dabei hilft Henning unterschiedlichsten Firmen, Qualität zu verstehen...

KI im Identity-and-Access-Management

Sebastian Rohr

KI im Organigramm – Wenn künstliche Intelligenz zur Kollegin wird

Christopher Nocera Walg & Dr. Jonas Röttger

Spring AI 1.0: Ollama mit Llama von Meta AI einsetzen und mit Spring AI Prompts erstellen

Christian Ullenboom

Kommentare (0)

Dr. Henning Femmer

Aktuelles

Konferenz für Java-Entwicklung 2025: Java-Tage in Frankfurt am Main

Digitale Souveränität: Europas digitales Paradoxon – Herausforderungen und Lösungen

Cloud: Europäische Alternative

Text-Analytics – Potenzial und Anwendungsfälle

Welche Arten von Texten eignen sich für Text Analytics?

Was kann man mit Text Analytics machen?

Wann sollte ich die Finger von Text-Analyse lassen?

Zusammenfassung

Dr. Henning Femmer

KI im Identity-and-Access-Management

KI im Organigramm – Wenn künstliche Intelligenz zur Kollegin wird

Spring AI 1.0: Ollama mit Llama von Meta AI einsetzen und mit Spring AI Prompts erstellen

Generative KI sicher einführen

KI & Datenschutz: DSGVO-konforme Anonymisierung sensibler Daten

Evaluationswerkzeuge für GenAI: Ein Praxisleitfaden für Entwickler und Tester

Neuen Kommentar schreiben

Dr. Henning Femmer

Konferenz für Java-Entwicklung 2025: Java-Tage in Frankfurt am Main

Digitale Souveränität: Europas digitales Paradoxon – Herausforderungen und Lösungen

Cloud: Europäische Alternative

Welche Arten von Texten eignen sich für Text Analytics?

Was kann man mit Text Analytics machen?

Zusammenfassung

Dr. Henning Femmer

KI im Identity-and-Access-Management

KI im Organigramm – Wenn künstliche Intelligenz zur Kollegin wird

Spring AI 1.0: Ollama mit Llama von Meta AI einsetzen und mit Spring AI Prompts erstellen

Generative KI sicher einführen

KI & Datenschutz: DSGVO-konforme Anonymisierung sensibler Daten

Evaluationswerkzeuge für GenAI: Ein Praxisleitfaden für Entwickler und Tester

Neuen Kommentar schreiben

KI & Datenschutz: DSGVO-konforme Anonymisierung sensibler Daten