Ein Netzwerkdiagramm mit miteinander verbundenen Knoten und einem zentralen Wolkensymbol

5. Juni 2024

Dokumentenmanagement und KI: eine perfekte Kombination?

Dr. Nikola Milanovic

Chief Technology Officer (OPTIMAL SYSTEMS)

Künstliche Intelligenz (bzw. das maschinelle Lernen) lebt von den Daten, mit denen sie trainiert. Größere und bessere Trainingssätze führen zu entsprechend größeren Modellen mit mehr Parametern, die bessere Dienste leisten. Traditionelle Dokumentenmanagementsysteme (DMS) wiederum speichern über Jahrzehnte hinweg Geschäftsdaten, die sehr oft mit strukturierten Metadaten angereichert sind. Das sind traumhafte Voraussetzungen für jede*n Datenwissenschaftler*in! Bisher haben sich diese Welten jedoch weitestgehend gegenseitig ignoriert.

Wie wird eine KI "intelligent"?

Wie wird KI "intelligent"? Woher kommt die "Intelligenz" in Künstlicher Intelligenz? Moderne KI lernt auf ähnliche Weise, wie es Kinder tun: unter Aufsicht, durch wiederholtes Üben, Ausprobieren und Fehler machen. Unabhängig von der Modellklasse, -größe oder -art unterscheiden sich die Lernprozesse kaum voneinander und sind recht simpel. In stark vereinfachter Form sieht das folgendermaßen aus:

Dem untrainierten Modell wird zunächst ein Trainingssatz vorgelegt. Es gibt verschiedene Formen von Trainingssätzen. Der Einfachheit halber gehen wir hier von überwachtem Lernen (engl. supervised learning) aus, bei dem der Trainingssatz eine Eingabe mit einer bekannten Ausgabe (Ergebnis) darstellt. Es gibt auch unüberwachte Lernmethoden (engl. unsupervised learning), bei denen das Modell "direkt" aus den Daten lernt. Wenn das Modell zum Beispiel lernen muss, Äpfel und Birnen zu erkennen, werden ihm mehrere Äpfel vorgelegt und es wird ihm gesagt, dass es sich dabei um Äpfel handelt. Dann werden ihm mehrere Birnen vorgelegt und mitgeteilt, dass es sich um Birnen handelt. In einem typischen DMS-Szenario wären Äpfel und Birnen Dokumenttypen, wie z. B. Verträge oder Rechnungen. Danach wird dem Modell ein Validierungssatz vorgelegt, der zur Überprüfung des Trainingsfortschritts dient. Dieser Satz enthält dieselben Klassen von Eingabedaten, also Äpfel und Birnen. Solche Eingabedaten wurden dem Modell während des Trainings jedoch noch nicht präsentiert; sie sind unbekannt, und das Modell sieht sie zum ersten Mal. Es wird erwartet, dass das Modell nun jeden Apfel und jede Birne erkennt. Dieser Prozess wird in mehreren Iterationen durchgeführt, und die Modellvariablen (Hyperparameter) werden immer wieder angepasst. Der Trick dabei ist: Je aussagekräftiger (repräsentativer) der Trainingssatz ist, desto besser ist das Modell in der Lage, Äpfel von Birnen zu unterscheiden.

Eine beliebte Alternative wäre hier, ein bestehendes Allzweckmodell zu nehmen und es dann auf das jeweilige Problem anzupassen – entweder, indem man es neu trainiert oder es leicht erweitert und dann so trainiert, dass es ein neues Problem lösen kann, sogenanntes Transferlernen.

Um also ein Modell optimal zu trainieren, damit es Äpfel und Birnen genau identifizieren kann – unabhängig davon, ob man überwachtes oder unüberwachtes Transferlernen oder eine andere Methode anwendet –, ist es notwendig, sowohl Trainings- als auch Validierungssätze von hoher Qualität zu verwenden, die nicht nur Standardbeispiele, sondern auch Randfälle abdecken. Und in vielen Fällen muss ein Trainingssatz "annotiert" werden, d. h. es ist notwendig, dem Modell mitzuteilen, wann es auf Äpfel und wann auf Birnen trainiert wird.

In der heutigen Datenwissenschaft dreht sich alles um die Frage, wie und wo man die minimal erforderlichen Datensätze für Training und Validierung erhält, die dem Modell eine angemessene Genauigkeit verleihen.

Wozu dient ein Dokumentenmanagementsystem?

Ein Dokumentenmanagementsystem (DMS) ist, einfach ausgedrückt, ein zentraler Speicher für alle elektronischen Dokumente in einem Unternehmen. Die Dokumente werden in logischen Strukturen (Ordnern, Registern) gespeichert, also elektronisch "abgelegt". Darüber hinaus sind sie typisiert (einer Klasse zugeordnet) und enthalten Metadaten (Attribute). Anstatt Dokumente in vielen verschiedenen Anwendungen zu suchen und abzurufen, können Benutzer*innen im DMS schnelle Suchen auf Basis des Dokumenteninhalts (Volltext), des Dokumenttyps, der Metadaten oder einer Kombination dieser Kriterien durchführen. Zusätzlich zu dieser Such- und Abruffunktionalität werden in einem DMS in der Regel Workflows implementiert, die die Durchführung von Geschäftsprozessen auf Basis der gespeicherten Dokumente ermöglichen. Typische Beispiele sind Rechnungsverarbeitung, Personalverwaltung oder Vertragsmanagement.

Auf dem Bildschirm eines Tablets, eines Laptops und eines Smartphones werden unterschiedliche Dokumente und Listen angezeigt. Alle Geräte weisen ähnlich gestaltete Benutzeroberflächen auf. — DMS enaio® auf verschiedenen Devices

DMS als Treibstoff für KI

Ein DMS ist gleichzeitig eine nahezu unerschöpfliche Quelle für hochpräzise strukturierte Daten (wie Ablagestrukturen, Dokumenttypen und -attribute oder Metadaten) und auch unstrukturierte Daten (wie Volltextinformationen oder Dokumenteninhalte). Darüber hinaus verfügt ein typisches DMS über Funktionen zur Dokumentenvorschau, so dass die Dokumente unabhängig von der Client-Anwendung angezeigt werden können. Zusammengefasst bedeutet das, dass ein DMS über Jahrzehnte hinweg gespeicherte Geschäftsdaten beherbergt, inklusive präziser Metadaten, Inhalten und sogar grafischem Layout: eine perfekte Quelle für Trainings- und Validierungssätze für KI!

Sie können Metadaten und Inhalte zum Trainieren von NLP-Modellen (Sprachmodellen) und generierte Dokumentenvorschauen zum Trainieren von Bildverarbeitungsmodellen verwenden, und sogar beides miteinander kombinieren. Nicht nur das: Ablageorte und abgeschlossene Workflows können dazu genutzt werden, die KI zu trainieren, um Geschäftsprozesse ganz oder teilweise zu automatisieren. Aber dazu gleich mehr.

Künstliche Intelligenz – schlagkräftig mit enaio®

Formular schliessen

Jetzt anmelden und das E-Book als PDF erhalten!

Jetzt anmelden und Webcast ansehen

In unserem aktuellen Webcast erhalten Sie detaillierten Einblick in die Möglichkeiten, KI in Ihrem Arbeitsalltag mit enaio® zu nutzen.

Sie erfahren u. a.:

wie Verwaltungsarbeit in Unternehmen mit KI revolutioniert wird;
wie enaio® classify OpenAI-Abfragen unterstützt;
wie enaio® in die KI-Welt integriert ist.

Melden Sie sich jetzt in der Mediathek für Macher an und sichern Sie sich Fachwissen mit diesem und vielen weiteren Webcasts!

Formular schliessen

Jetzt in der Mediathek anmelden!

KI als Katalysator für DMS

Es funktioniert in beide Richtungen: Sie können KI auch verwenden, um Ihr DMS zu beschleunigen!

Sobald Sie Modelle mit Ihren Daten trainiert haben, können Sie sie in ein DMS integrieren, um manuelle Prozesse zu automatisieren. Wenn Sie beispielsweise ein Dokument in ein DMS importieren, müssen Sie dem System den Dokumenttyp mitteilen und die Metadaten des Dokuments eingeben. Sie können KI nutzen, um alle eingehenden Dokumente automatisch zu klassifizieren und zu indizieren und so diesen Prozess zu beschleunigen. Darüber hinaus lassen sich die Modelle so trainieren, dass sie automatisch Ablageorte finden, sodass bei der Erstellung neuer Dokumente in einem DMS keine manuellen Eingriffe mehr erforderlich sind: Sie legen ein Dokument einfach per Drag & Drop ab, und die KI erkennt seinen Typ, fügt ihm Metadaten hinzu und legt es sogar am richtigen Ort im System ab.

Auch andere Prozessvarianten können leicht automatisiert werden. Stellen Sie sich ein Szenario vor, in dem auf Basis der eingehenden Dokumente (Briefe, Anfragen, Beschwerden, Tickets) ein Workflow gestartet wird und eine Gruppe von Benutzer*innen Aufgaben auswählen muss, die sie bearbeiten kann (oder soll). Die KI kann diesen langsamen und ineffizienten Prozess eliminieren, indem sie aus früheren Daten lernt und den einzelnen Benutzer*innen automatisch Workflows zuweist.

Auch fortgeschrittenere Szenarien lassen sich implementieren. So kann beispielsweise ein Modell trainiert werden, das den Inhalt mehrerer Dokumente aus der Trefferliste zusammenfasst. Dies erleichtert und beschleunigt die Entscheidung, ob die Ergebnismenge relevant ist oder ob sie reduziert bzw. erweitert werden muss. Es gibt auch Modelle, die Dokumente auf Basis von Domänenwissen prüfen und beispielsweise zur Überprüfung eines Vertrags auf Konsistenz eingesetzt werden können. Schließlich ist es möglich, vortrainierte große Sprachmodelle in die Benutzeroberfläche eines DMS zu integrieren und eine Eingabeaufforderung zu ermöglichen, anstatt das System traditionell über Suchformulare oder Volltext abzufragen.

Beispiel: Automatisiertes Input-Management

Ein DMS ist ein großartiges Werkzeug für die sichere Speicherung, Strukturierung und das Auffinden von Informationen in den Millionen von Dokumenten, die ein Unternehmen jedes Jahr erstellt. Zugleich wird es gerne für die Informationsbeschaffung und Zusammenarbeit genutzt. Doch niemand hat wirklich Freude an der Ablage von Dokumenten. Es ist mühsam, zeitraubend und lenkt die Benutzer*innen von ihrer eigentlichen Arbeit ab – niemand wird eingestellt, um Dokumente in einem DMS abzulegen. Um dieses inhärente Problem der DMS-Nutzung zu lösen, wurden bisher verschiedene regelbasierte Ansätze verwendet – mit unterschiedlichem Erfolg.

Aber anstelle der manuellen oder regelbasierten Dokumentenablage können wir eine Integration zwischen einem DMS und einer KI anbieten.

Angenommen, ein DMS ist vorhanden und mehrere vortrainierte Modelle sind wie oben beschrieben integriert. Es werden neue Dokumente unbekannter Art und unbekannten Zwecks in das DMS importiert. Dies kann durch einen Menschen auf der Client-Seite oder durch einen Batch-Import auf der Server-Seite geschehen. Mehrere KI-Modelle ("Agenten") warten auf die eingehenden Dokumente und führen eine asynchrone Verarbeitung durch. Der erste Agent erkennt, ob ein Dokument optisch erkannt werden muss. Wenn ja, sendet er das Dokument an den OCR-Dienst. Im nächsten Schritt bestimmt der Klassifizierungsagent die Art des Dokuments. Anschließend ordnet der Indizierungsagent jedem Dokument Metadaten zu. Der Standortagent sucht nach möglichen geeigneten Ablageorten und legt das Dokument automatisch ab. Schließlich bestimmt der Weiterleitungsagent je nach Dokumententyp, ob ein Workflow für ein Dokument gestartet werden muss und wer die richtigen Empfänger*innen für die Aufgabe sind. So wird die sehr mühsame und fehleranfällige manuelle Arbeit des Importierens, Klassifizierens, Indizierens und Ablegens eines Dokuments sowie Startens eines Geschäftsprozesses durch den Einsatz mehrerer unabhängiger KI-Modelle vollständig automatisiert.

"Moderne KI lernt auf ähnliche Weise wie Kinder: unter Aufsicht; durch wiederholtes Üben, Ausprobieren und Fehler machen."

Warum das alles? Warum nicht einfach ChatGPT fragen?

Dies ist eine sehr berechtigte und wichtige Frage. Transformer/Large Language Models (LLM) und ChatGPT als deren bekanntester Vertreter können erstaunliche Antworten und Erkenntnisse liefern, wenn sie richtig abgefragt werden. Der erste Grund, warum Sie Ihr eigenes Modell trainieren und bedienen sollten, ist die Preisgestaltung, insbesondere bei der Verarbeitung umfangreicher Dokumente, wie z. B. im Falle des Input Managements.

Ebenso wichtig ist die Tatsache, dass ChatGPT oder andere allgemein verfügbare LLMs Ihnen keine Wahrscheinlichkeit für die Richtigkeit ihrer Antworten geben. Wenn Sie beispielsweise ChatGPT bitten, Kopfdaten aus einer Rechnung zu extrahieren, antwortet es mit extrahierten Metadaten, bietet Ihnen aber kein Konfidenzniveau an. Ohne eine Metrik zur Abschätzung der Konfidenz des Modells in die gegebene Antwort muss man dem Ergebnis des Modells blind vertrauen. Die Ausgabe ist oft korrekt, aber LLMs sind auch dafür bekannt, dass sie Antworten "halluzinieren". Das entpuppt sich als ein großes Problem für jede Prozessautomatisierung, da das Starten eines automatisierten Prozesses auf Basis falscher Daten sehr teuer ist und die Gesamtvorteile der KI-Nutzung zunichte machen kann.

Da die Ausgabe von ChatGPT und ähnlichen Modellen für die Interaktion mit Menschen optimiert ist, fällt es ihnen schwer, ein stabiles, maschinenlesbares Format für abgeleitete bzw. extrahierte Daten bereitzustellen, z. B. eine JSON- oder XML-Struktur mit einem streng definierten Schema. Dies erschwert die spätere maschinelle Verarbeitung und Nutzung der extrahierten Daten.

Wenn Sie jedoch Ihr eigenes Modell trainieren, kann dieses die Wahrscheinlichkeit dafür berechnen, dass das vorgeschlagene Ergebnis korrekt ist, z. B. dass eine Empfängerfirma mit einer Wahrscheinlichkeit von 0,95 % korrekt aus einer Rechnung extrahiert wurde. Jetzt ist es möglich, Schwellenwerte in Ihre DMS-KI-Integration einzubauen: Wenn das Modell über dem Schwellenwert liegt, können Sie die KI-Ausgabe akzeptieren und den Prozess weiter automatisieren. Liegt die Ausgabe des Modells jedoch unter dem Schwellenwert, fügen Sie die Option für einen menschlichen Eingriff in die Schleife ein, um zu vermeiden, dass ein automatisierter Prozess mit falschen Daten gestartet wird. Dies könnte sich sonst als kostspielig erweisen.

Ein weiterer Vorteil ist die Möglichkeit, das Modell mit Ihren eigenen Daten zu trainieren, auf die ChatGPT keinen Zugriff hat. Darüber hinaus gibt es einen hybriden Ansatz: So können Sie das Modell zum Beispiel auf Grundlage Ihrer eigenen Daten trainieren. Liegt die Ausgabe des Modells (geringfügig) unter dem Schwellenwert, können Sie ChatGPT (oder ein ähnliches trainiertes Modell) mit der gleichen Eingabe abfragen. Stimmen die Ergebnisse überein, ist mit hoher Wahrscheinlichkeit davon auszugehen, dass beide Modelle die richtige Vorhersage getroffen haben. Im Grunde genommen können Sie eine Art Hybridabstimmung durchführen.

Und jetzt?

DMS-Unternehmen wie OPTIMAL SYSTEMS haben damit begonnen, eine Reihe von vortrainierten, optimierten KI-Modellen anzubieten, die für die Klassifizierung und die Extraktion von Metadaten verwendet werden können. Diese Modelle lösen alle Probleme, die wir bei der Verwendung von Allzweckmodellen beobachtet haben:

Sie sind kostengünstiger zu trainieren und einzusetzen.
Sie basieren auf einer Transformer-Architektur, ebenso wie bekannte LLM-Modelle, z. B. ChatGPT.
Sie sind für die Automatisierung von dokumentenbezogenen Prozessen in DMS-Produkten optimiert, um:
- eine Ausgabe mit einem festen Schema zu liefern,
- ein Konfidenzniveau für jedes extrahierte oder abgeleitete Datenelement anzugeben.

Beides sind große Vorteile, wenn Sie planen, DMS-Prozesse mit KI steuerbar zu automatisieren.

Wenn Sie also bereits eine DMS-Lösung implementiert haben, sollten Sie in Erwägung ziehen, diese mit KI anzureichern. Sie können verschiedene Modelle auf Ihren eigenen Daten trainieren, auf Basis eines perfekten Trainingssatzes, mit dem Sie Ihre Prozesse automatisieren.

Ziehen Sie die Einführung eines DMS in Erwägung, dann sollten Sie dies mithilfe von KI tun: Damit wird es so einfach wie nie zuvor. Wir bieten vortrainierte Modelle an, mit denen Sie Ihre optimierte DMS-Nutzung problemlos in Gang bringen. Und wir können Sie beim Import oder der Migration von Dokumenten unterstützen. Auf diese Weise finden Sie ganz leicht heraus, welche Arten von Dokumenten Sie überhaupt besitzen. Anschließend trainieren Sie die Modelle mit Ihren eigenen Daten weiter, um die Präzision zu optimieren oder die Automatisierung der Prozesse voranzutreiben.

Wie auch immer Sie sich entscheiden: Sie werden bald selbst feststellen, dass DMS und KI wie geschaffen füreinander sind.

Mehr erfahren zu KI und DMS?
Nehmen Sie Kontakt mit uns auf!