Ein Netzwerkdiagramm mit miteinander verbundenen Knoten und einem zentralen Wolkensymbol

5. Juni 2024

Dokumentenmanagement und KI: eine perfekte Kombination?

Dr. Nikola Milanovic Chief Technology Officer OPTIMAL SYSTEMS

Dr. Nikola Milanovic

Chief Technology Officer (OPTIMAL SYSTEMS)

Kรผnstliche Intelligenz (bzw. das maschinelle Lernen) lebt von den Daten, mit denen sie trainiert. GrรถรŸere und bessere Trainingssรคtze fรผhren zu entsprechend grรถรŸeren Modellen mit mehr Parametern, die bessere Dienste leisten. Traditionelle Dokumentenmanagementsysteme (DMS) wiederum speichern รผber Jahrzehnte hinweg Geschรคftsdaten, die sehr oft mit strukturierten Metadaten angereichert sind. Das sind traumhafte Voraussetzungen fรผr jede*n Datenwissenschaftler*in! Bisher haben sich diese Welten jedoch weitestgehend gegenseitig ignoriert.

Wie wird eine KI "intelligent"?

Wie wird KI "intelligent"? Woher kommt die "Intelligenz" in Kรผnstlicher Intelligenz? Moderne KI lernt auf รคhnliche Weise, wie es Kinder tun: unter Aufsicht, durch wiederholtes รœben, Ausprobieren und Fehler machen. Unabhรคngig von der Modellklasse, -grรถรŸe oder -art unterscheiden sich die Lernprozesse kaum voneinander und sind recht simpel. In stark vereinfachter Form sieht das folgendermaรŸen aus:

Dem untrainierten Modell wird zunรคchst ein Trainingssatz vorgelegt. Es gibt verschiedene Formen von Trainingssรคtzen. Der Einfachheit halber gehen wir hier von รผberwachtem Lernen (engl. supervised learning) aus, bei dem der Trainingssatz eine Eingabe mit einer bekannten Ausgabe (Ergebnis) darstellt. Es gibt auch unรผberwachte Lernmethoden (engl. unsupervised learning), bei denen das Modell "direkt" aus den Daten lernt. Wenn das Modell zum Beispiel lernen muss, ร„pfel und Birnen zu erkennen, werden ihm mehrere ร„pfel vorgelegt und es wird ihm gesagt, dass es sich dabei um ร„pfel handelt. Dann werden ihm mehrere Birnen vorgelegt und mitgeteilt, dass es sich um Birnen handelt. In einem typischen DMS-Szenario wรคren ร„pfel und Birnen Dokumenttypen, wie z. B. Vertrรคge oder Rechnungen. Danach wird dem Modell ein Validierungssatz vorgelegt, der zur รœberprรผfung des Trainingsfortschritts dient. Dieser Satz enthรคlt dieselben Klassen von Eingabedaten, also ร„pfel und Birnen. Solche Eingabedaten wurden dem Modell wรคhrend des Trainings jedoch noch nicht prรคsentiert; sie sind unbekannt, und das Modell sieht sie zum ersten Mal. Es wird erwartet, dass das Modell nun jeden Apfel und jede Birne erkennt. Dieser Prozess wird in mehreren Iterationen durchgefรผhrt, und die Modellvariablen (Hyperparameter) werden immer wieder angepasst. Der Trick dabei ist: Je aussagekrรคftiger (reprรคsentativer) der Trainingssatz ist, desto besser ist das Modell in der Lage, ร„pfel von Birnen zu unterscheiden.

Eine beliebte Alternative wรคre hier, ein bestehendes Allzweckmodell zu nehmen und es dann auf das jeweilige Problem anzupassen โ€“ entweder, indem man es neu trainiert oder es leicht erweitert und dann so trainiert, dass es ein neues Problem lรถsen kann, sogenanntes Transferlernen.

Um also ein Modell optimal zu trainieren, damit es ร„pfel und Birnen genau identifizieren kann โ€“ unabhรคngig davon, ob man รผberwachtes oder unรผberwachtes Transferlernen oder eine andere Methode anwendet โ€“, ist es notwendig, sowohl Trainings- als auch Validierungssรคtze von hoher Qualitรคt zu verwenden, die nicht nur Standardbeispiele, sondern auch Randfรคlle abdecken. Und in vielen Fรคllen muss ein Trainingssatz "annotiert" werden, d. h. es ist notwendig, dem Modell mitzuteilen, wann es auf ร„pfel und wann auf Birnen trainiert wird.

In der heutigen Datenwissenschaft dreht sich alles um die Frage, wie und wo man die minimal erforderlichen Datensรคtze fรผr Training und Validierung erhรคlt, die dem Modell eine angemessene Genauigkeit verleihen.

Wozu dient ein Dokumentenmanagementsystem?

Ein Dokumentenmanagementsystem (DMS) ist, einfach ausgedrรผckt, ein zentraler Speicher fรผr alle elektronischen Dokumente in einem Unternehmen. Die Dokumente werden in logischen Strukturen (Ordnern, Registern) gespeichert, also elektronisch "abgelegt". Darรผber hinaus sind sie typisiert (einer Klasse zugeordnet) und enthalten Metadaten (Attribute). Anstatt Dokumente in vielen verschiedenen Anwendungen zu suchen und abzurufen, kรถnnen Benutzer*innen im DMS schnelle Suchen auf Basis des Dokumenteninhalts (Volltext), des Dokumenttyps, der Metadaten oder einer Kombination dieser Kriterien durchfรผhren. Zusรคtzlich zu dieser Such- und Abruffunktionalitรคt werden in einem DMS in der Regel Workflows implementiert, die die Durchfรผhrung von Geschรคftsprozessen auf Basis der gespeicherten Dokumente ermรถglichen. Typische Beispiele sind Rechnungsverarbeitung, Personalverwaltung oder Vertragsmanagement.

Auf dem Bildschirm eines Tablets, eines Laptops und eines Smartphones werden unterschiedliche Dokumente und Listen angezeigt. Alle Gerรคte weisen รคhnlich gestaltete Benutzeroberflรคchen auf.
DMS enaioยฎ auf verschiedenen Devices

DMS als Treibstoff fรผr KI

Ein DMS ist gleichzeitig eine nahezu unerschรถpfliche Quelle fรผr hochprรคzise strukturierte Daten (wie Ablagestrukturen, Dokumenttypen und -attribute oder Metadaten) und auch unstrukturierte Daten (wie Volltextinformationen oder Dokumenteninhalte). Darรผber hinaus verfรผgt ein typisches DMS รผber Funktionen zur Dokumentenvorschau, so dass die Dokumente unabhรคngig von der Client-Anwendung angezeigt werden kรถnnen. Zusammengefasst bedeutet das, dass ein DMS รผber Jahrzehnte hinweg gespeicherte Geschรคftsdaten beherbergt, inklusive prรคziser Metadaten, Inhalten und sogar grafischem Layout: eine perfekte Quelle fรผr Trainings- und Validierungssรคtze fรผr KI!

Sie kรถnnen Metadaten und Inhalte zum Trainieren von NLP-Modellen (Sprachmodellen) und generierte Dokumentenvorschauen zum Trainieren von Bildverarbeitungsmodellen verwenden, und sogar beides miteinander kombinieren. Nicht nur das: Ablageorte und abgeschlossene Workflows kรถnnen dazu genutzt werden, die KI zu trainieren, um Geschรคftsprozesse ganz oder teilweise zu automatisieren. Aber dazu gleich mehr.

KI als Katalysator fรผr DMS

Es funktioniert in beide Richtungen: Sie kรถnnen KI auch verwenden, um Ihr DMS zu beschleunigen!

Sobald Sie Modelle mit Ihren Daten trainiert haben, kรถnnen Sie sie in ein DMS integrieren, um manuelle Prozesse zu automatisieren. Wenn Sie beispielsweise ein Dokument in ein DMS importieren, mรผssen Sie dem System den Dokumenttyp mitteilen und die Metadaten des Dokuments eingeben. Sie kรถnnen KI nutzen, um alle eingehenden Dokumente automatisch zu klassifizieren und zu indizieren und so diesen Prozess zu beschleunigen. Darรผber hinaus lassen sich die Modelle so trainieren, dass sie automatisch Ablageorte finden, sodass bei der Erstellung neuer Dokumente in einem DMS keine manuellen Eingriffe mehr erforderlich sind: Sie legen ein Dokument einfach per Drag & Drop ab, und die KI erkennt seinen Typ, fรผgt ihm Metadaten hinzu und legt es sogar am richtigen Ort im System ab.

Auch andere Prozessvarianten kรถnnen leicht automatisiert werden. Stellen Sie sich ein Szenario vor, in dem auf Basis der eingehenden Dokumente (Briefe, Anfragen, Beschwerden, Tickets) ein Workflow gestartet wird und eine Gruppe von Benutzer*innen Aufgaben auswรคhlen muss, die sie bearbeiten kann (oder soll). Die KI kann diesen langsamen und ineffizienten Prozess eliminieren, indem sie aus frรผheren Daten lernt und den einzelnen Benutzer*innen automatisch Workflows zuweist.

Auch fortgeschrittenere Szenarien lassen sich implementieren. So kann beispielsweise ein Modell trainiert werden, das den Inhalt mehrerer Dokumente aus der Trefferliste zusammenfasst. Dies erleichtert und beschleunigt die Entscheidung, ob die Ergebnismenge relevant ist oder ob sie reduziert bzw. erweitert werden muss. Es gibt auch Modelle, die Dokumente auf Basis von Domรคnenwissen prรผfen und beispielsweise zur รœberprรผfung eines Vertrags auf Konsistenz eingesetzt werden kรถnnen. SchlieรŸlich ist es mรถglich, vortrainierte groรŸe Sprachmodelle in die Benutzeroberflรคche eines DMS zu integrieren und eine Eingabeaufforderung zu ermรถglichen, anstatt das System traditionell รผber Suchformulare oder Volltext abzufragen.

Beispiel: Automatisiertes Input-Management

Ein DMS ist ein groรŸartiges Werkzeug fรผr die sichere Speicherung, Strukturierung und das Auffinden von Informationen in den Millionen von Dokumenten, die ein Unternehmen jedes Jahr erstellt. Zugleich wird es gerne fรผr die Informationsbeschaffung und Zusammenarbeit genutzt. Doch niemand hat wirklich Freude an der Ablage von Dokumenten. Es ist mรผhsam, zeitraubend und lenkt die Benutzer*innen von ihrer eigentlichen Arbeit ab โ€“ niemand wird eingestellt, um Dokumente in einem DMS abzulegen. Um dieses inhรคrente Problem der DMS-Nutzung zu lรถsen, wurden bisher verschiedene regelbasierte Ansรคtze verwendet โ€“ mit unterschiedlichem Erfolg.

Aber anstelle der manuellen oder regelbasierten Dokumentenablage kรถnnen wir eine Integration zwischen einem DMS und einer KI anbieten.

Angenommen, ein DMS ist vorhanden und mehrere vortrainierte Modelle sind wie oben beschrieben integriert. Es werden neue Dokumente unbekannter Art und unbekannten Zwecks in das DMS importiert. Dies kann durch einen Menschen auf der Client-Seite oder durch einen Batch-Import auf der Server-Seite geschehen. Mehrere KI-Modelle ("Agenten") warten auf die eingehenden Dokumente und fรผhren eine asynchrone Verarbeitung durch. Der erste Agent erkennt, ob ein Dokument optisch erkannt werden muss. Wenn ja, sendet er das Dokument an den OCR-Dienst. Im nรคchsten Schritt bestimmt der Klassifizierungsagent die Art des Dokuments. AnschlieรŸend ordnet der Indizierungsagent jedem Dokument Metadaten zu. Der Standortagent sucht nach mรถglichen geeigneten Ablageorten und legt das Dokument automatisch ab. SchlieรŸlich bestimmt der Weiterleitungsagent je nach Dokumententyp, ob ein Workflow fรผr ein Dokument gestartet werden muss und wer die richtigen Empfรคnger*innen fรผr die Aufgabe sind. So wird die sehr mรผhsame und fehleranfรคllige manuelle Arbeit des Importierens, Klassifizierens, Indizierens und Ablegens eines Dokuments sowie Startens eines Geschรคftsprozesses durch den Einsatz mehrerer unabhรคngiger KI-Modelle vollstรคndig automatisiert.

"Moderne KI lernt auf รคhnliche Weise wie Kinder: unter Aufsicht; durch wiederholtes รœben, Ausprobieren und Fehler machen."

Warum das alles? Warum nicht einfach ChatGPT fragen?

Dies ist eine sehr berechtigte und wichtige Frage. Transformer/Large Language Models (LLM) und ChatGPT als deren bekanntester Vertreter kรถnnen erstaunliche Antworten und Erkenntnisse liefern, wenn sie richtig abgefragt werden. Der erste Grund, warum Sie Ihr eigenes Modell trainieren und bedienen sollten, ist die Preisgestaltung, insbesondere bei der Verarbeitung umfangreicher Dokumente, wie z. B. im Falle des Input Managements.


Ebenso wichtig ist die Tatsache, dass ChatGPT oder andere allgemein verfรผgbare LLMs Ihnen keine Wahrscheinlichkeit fรผr die Richtigkeit ihrer Antworten geben. Wenn Sie beispielsweise ChatGPT bitten, Kopfdaten aus einer Rechnung zu extrahieren, antwortet es mit extrahierten Metadaten, bietet Ihnen aber kein Konfidenzniveau an. Ohne eine Metrik zur Abschรคtzung der Konfidenz des Modells in die gegebene Antwort muss man dem Ergebnis des Modells blind vertrauen. Die Ausgabe ist oft korrekt, aber LLMs sind auch dafรผr bekannt, dass sie Antworten "halluzinieren". Das entpuppt sich als ein groรŸes Problem fรผr jede Prozessautomatisierung, da das Starten eines automatisierten Prozesses auf Basis falscher Daten sehr teuer ist und die Gesamtvorteile der KI-Nutzung zunichte machen kann.


Da die Ausgabe von ChatGPT und รคhnlichen Modellen fรผr die Interaktion mit Menschen optimiert ist, fรคllt es ihnen schwer, ein stabiles, maschinenlesbares Format fรผr abgeleitete bzw. extrahierte Daten bereitzustellen, z. B. eine JSON- oder XML-Struktur mit einem streng definierten Schema. Dies erschwert die spรคtere maschinelle Verarbeitung und Nutzung der extrahierten Daten.


Wenn Sie jedoch Ihr eigenes Modell trainieren, kann dieses die Wahrscheinlichkeit dafรผr berechnen, dass das vorgeschlagene Ergebnis korrekt ist, z. B. dass eine Empfรคngerfirma mit einer Wahrscheinlichkeit von 0,95 % korrekt aus einer Rechnung extrahiert wurde. Jetzt ist es mรถglich, Schwellenwerte in Ihre DMS-KI-Integration einzubauen: Wenn das Modell รผber dem Schwellenwert liegt, kรถnnen Sie die KI-Ausgabe akzeptieren und den Prozess weiter automatisieren. Liegt die Ausgabe des Modells jedoch unter dem Schwellenwert, fรผgen Sie die Option fรผr einen menschlichen Eingriff in die Schleife ein, um zu vermeiden, dass ein automatisierter Prozess mit falschen Daten gestartet wird. Dies kรถnnte sich sonst als kostspielig erweisen.

Ein weiterer Vorteil ist die Mรถglichkeit, das Modell mit Ihren eigenen Daten zu trainieren, auf die ChatGPT keinen Zugriff hat. Darรผber hinaus gibt es einen hybriden Ansatz: So kรถnnen Sie das Modell zum Beispiel auf Grundlage Ihrer eigenen Daten trainieren. Liegt die Ausgabe des Modells (geringfรผgig) unter dem Schwellenwert, kรถnnen Sie ChatGPT (oder ein รคhnliches trainiertes Modell) mit der gleichen Eingabe abfragen. Stimmen die Ergebnisse รผberein, ist mit hoher Wahrscheinlichkeit davon auszugehen, dass beide Modelle die richtige Vorhersage getroffen haben. Im Grunde genommen kรถnnen Sie eine Art Hybridabstimmung durchfรผhren.

Und jetzt?

DMS-Unternehmen wie OPTIMAL SYSTEMS haben damit begonnen, eine Reihe von vortrainierten, optimierten KI-Modellen anzubieten, die fรผr die Klassifizierung und die Extraktion von Metadaten verwendet werden kรถnnen. Diese Modelle lรถsen alle Probleme, die wir bei der Verwendung von Allzweckmodellen beobachtet haben:

  • Sie sind kostengรผnstiger zu trainieren und einzusetzen.
  • Sie basieren auf einer Transformer-Architektur, ebenso wie bekannte LLM-Modelle, z. B. ChatGPT.
  • Sie sind fรผr die Automatisierung von dokumentenbezogenen Prozessen in DMS-Produkten optimiert, um:
    - eine Ausgabe mit einem festen Schema zu liefern,
    - ein Konfidenzniveau fรผr jedes extrahierte oder abgeleitete Datenelement anzugeben.

Beides sind groรŸe Vorteile, wenn Sie planen, DMS-Prozesse mit KI steuerbar zu automatisieren.

Wenn Sie also bereits eine DMS-Lรถsung implementiert haben, sollten Sie in Erwรคgung ziehen, diese mit KI anzureichern. Sie kรถnnen verschiedene Modelle auf Ihren eigenen Daten trainieren, auf Basis eines perfekten Trainingssatzes, mit dem Sie Ihre Prozesse automatisieren.


Ziehen Sie die Einfรผhrung eines DMS in Erwรคgung, dann sollten Sie dies mithilfe von KI tun: Damit wird es so einfach wie nie zuvor. Wir bieten vortrainierte Modelle an, mit denen Sie Ihre optimierte DMS-Nutzung problemlos in Gang bringen. Und wir kรถnnen Sie beim Import oder der Migration von Dokumenten unterstรผtzen. Auf diese Weise finden Sie ganz leicht heraus, welche Arten von Dokumenten Sie รผberhaupt besitzen. AnschlieรŸend trainieren Sie die Modelle mit Ihren eigenen Daten weiter, um die Prรคzision zu optimieren oder die Automatisierung der Prozesse voranzutreiben.

Wie auch immer Sie sich entscheiden: Sie werden bald selbst feststellen, dass DMS und KI wie geschaffen fรผreinander sind.

Mehr erfahren zu KI und DMS?
Nehmen Sie Kontakt mit uns auf!