Automatisierte Verarbeitung von unstrukturierten Daten

am 21. Dezember 2021

Immer wieder treffen wir auf Prozesse, die sich schwer automatisieren lassen. Dort benötigen gewisse Arbeitsabläufe das Eingreifen eines Menschen. Dies erschwert den Automatisierungsprozess. In vielen Fällen lässt sich dieser menschliche Eingriff auf das Vorhandensein unstrukturierter Daten im Prozess zurückführen.

Unstrukturierte Daten werden definiert als Daten, die in ihrer absoluten Rohform vorliegen. Die komplexe Formatierung und Anordnung erschwert die automatisierte Verarbeitung. Zu diesen unstrukturierten Daten gehören unter anderem E-Mails, Präsentationen, Audio- und Videodateien, Bilder und alle Arten von Dokumenten, wie z. B. PDFs.

Das Arbeiten mit unstrukturierten Daten erfordert spezielle Bearbeitungs-Tools. In diesem Blogeintrag, zeigen wir Ihnen, wie Sie die MS Power Plattform nutzen können, um unstrukturierte Daten in Form von PDF automatisiert in strukturierte Daten umzuwandeln.

Zunächst einmal wollen wir die Unterschiede zwischen strukturierten und unstrukturierten Daten aufzeigen:

	Strukturierte Daten	Unstrukturierte Daten
Charaktereigenschaften	Ausgewählte Datentypen Vordefiniertes Format Einfach zu finden	Verschiedene Datentypen natives Format Schwer zu finden
Speicherung	i. d. R. in Data-Warehouses Relationale Datenbanken	d. R in Data Lakes Ordner NoSQL Datenbanken Applikationen
Beispiele	Datum Telefonnummer Transaktionsinformationen Adressen Namen Nummern div. Art	Text-Dateien Reports E-Mails Audio-Dateien Bilder PDFs

Da wir jetzt klargestellt haben, welche Daten strukturiert und welche unstrukturiert sind, schauen wir uns nun an, wie die MS Power Plattform uns helfen kann, mit unstrukturierten Daten umzugehen.

In diesem Beispiel verwenden wir das Modul Form Processing (Formularverarbeitung) des AI Builders. Wir haben über 100 Rechnungen im Format PDF vorliegen. Wir wollen diese Informationen eine Excel Datei schreiben und diese dann in Azure Cosmos DB (nicht relationale Cloud Datenbank von MS Azure) abspeichern.

Dieses Modul ermöglicht es uns Informationen aus den Dokumenten zu extrahieren. Dafür muss ein AI-Modell erstellt, trainiert und veröffentlicht werden. Dazu sind weder viele Eingriffe noch Fachkenntnisse in Data Science erforderlich. Danach können wir das Modell ganz einfach in einen Flow in Power Automate einbinden und verwenden.

Wir navigieren zunächst einmal zur Microsoft Power Apps Seite: make.powerapps.com
Unter AI Builder -> Build sehen wir alle verfügbaren Module.
Dort wählen wir Formularverarbeitung aus.
Wir geben unserem Modell einen Namen
Wir werden aufgefordert Informationen hinzuzufügen, die das Modell extrahieren soll.
1. Es werden uns verschiedene Formen angeboten. Wir wählen für unser Beispiel ein einfaches Textfeld.
2. Wir geben diesem Textfeld einen Namen, z. B. Lieferant und klicken auf «Weiter»

Ziemlich einfach, oder nicht?

Nun haben wir die Möglichkeit verschiedene Sammlungen zu erstellen. Dies ist sehr wichtig beim Umgang mit verschiedenen Layouts. Da wir hier nur gleich-aufgebaute Dokumente verwenden, reicht uns lediglich eine Sammlung. Wir erstellen diese und fügen mindestens 5 Dokumente zum Trainieren unseres AI Modells zu. Diese Daten können zunächst lokal gespeichert sein und dann mithilfe von Data Lakes genutzt werden. In unserem Beispiel greifen wir auf den Azure Blob Storage (→ hochgradig skalierbare und kostengünstige Data Lake-Lösung für Big Data-Analysen) zu.
Wie bereits erwähnt, muss das AI Modell trainiert werden. Dazu klassifiziert der Nutzer manuell mindestens 5 Dokumente. Es muss jeweils ausgewählt werden, wo im Dokument das jeweilige Textfeld zu finden ist. Je mehr Dokumente klassifiziert werden, desto genauer arbeitet das Modell. Hier sehen wir beispielhaft für ein Dokument die Klassifizierung:

Sobald alle Dokumente klassifiziert wurden, können wir das Modell speichern und trainieren lassen. Dies benötigt je nach Anzahl Objekte und Dokumententyp eine gewisse Zeit. In der Übersicht kann beobachtet werden, ob das Modell sich noch im Trainingsmodus befindet oder bereit zum Veröffentlichen ist. Es besteht auch die Möglichkeit das Modell zu testen. Sobald der Trainingsmodus abgeschlossen ist, veröffentlichen wir das Modell. Nun ist es bereit für seinen Einsatz.

Das war es auch schon, herzlichen Glückwunsch, Sie haben Ihr erstes eigenes AI Modell erstellt!

Wir wechseln zu Power Automate: emea.flow.microsoft.com
1. Wir erstellen einen Flow, der Trigger Auslöser kann frei gewählt werden.
2. Nun bauen wir folgenden Flow nach:

1. Wir können anstatt den Azure Blob Storage auch eine Sharepoint Liste oder einen OneDrive Ordner wählen.
2. Die erzeugte Excel ist nun in unserer Azure Cosmos DB, ggf. kann auch einfach die Excel-Datei in Sharepoint oder OneDrive abgelegt werden.

Wir haben jetzt unsere unstrukturierten Daten mithilfe vom AI Builder und Power Automate in ein strukturiertes Format transformiert. Dies vereinfacht uns das Weiterarbeiten mit diesen Daten enorm.

Der Einsatzbereich des AI Builders ist sehr vielfältig. In der folgenden Grafik können Sie sehen, dass die Anwendungsszenarien verschiedene Datenquellen und Ziele sein können.

Für weitere Informationen, Fragen und Anregungen stehe ich Ihnen gern zur Verfügung.

Wenn Sie mehr über die MS Power Platform erfahren möchten, dann folgen Sie diesen Link.

Ioannis Theocharis

Ioannis Theocharis is a BI Consultant at OneDigit AG since 2020. His interest lies in SQL, MS Power Platform, Azure and RPA. You can contact him here.

Kontaktieren

LOGIN

Automatisierte Verarbeitung von unstrukturierten Daten

Ioannis Theocharis

Inhalt teilen