Die Umsetzung: Daten aufbereiten

Bild: Viktoria Kurpas/Shutterstock.com

KI-Projekte einführen – Teil fünfDie Umsetzung: Daten aufbereiten

12.10.2021Inzwischen haben 0 Leser einen Kommentar hinterlassen.

Daten aufzubereiten, wird häufig stark unterschätzt. Denn nur mit ihnen kann man in die Modellerstellung einsteigen. Umso wichtiger ist es, sich dessen bewusst zu sein. Ein Gespräch mit Werner Teschner von der KIWerk GmbH.

In unserem letzten Interview haben wir darüber gesprochen, wie wichtig es ist, Mitarbeitende zu schulen. Nun sind wir also bestens vorbereitet und können in unser erstes Projekt starten?

Richtig, und dies beginnt damit, die Daten zu erfassen und aufzubereiten – und mit der Frage, ob und, falls ja, in welchem Umfang bereits Daten vorliegen. Sollten keinerlei Daten vorliegen, ist die Frage nach entsprechenden Sensoren, Datenschnittstellen, Speichermöglichkeiten und weiteren Aspekten zu klären. Dann geht es zunächst in die aktive Datensammlung.

Liegen bereits Daten vor, was geschieht dann?

Die Daten prüft und bereitet man dann nach zwei Aspekten auf. Zum einen betrachtet man das Datenformat samt den Aspekten Zusammenführung, Zuordnung, Vollständigkeit und Bereinigung. Zum anderen schaut man sich die Fehlerdistribution- und die Typen an. Diese Aufbereitung der Daten wird allerdings häufig stark unterschätzt. Daten zu erfassen und nutzbar zu machen, stellt aus unserer Erfahrung den größten Aufwand bei der Umsetzung eines KI-Projekts dar.

Daten von Ausschussteilen können Projekte verzögern

Werner Teschner, Mitgründer der KIWerk GmbH

Was bedeutet das für die Zielfindung?

In Abhängigkeit vom Ziel des Projekts ist weiter zu prüfen, ob vom Umfang ausreichend Daten für unsere Fragestellung und das erste Modell vorhanden sind. Dabei sind nicht nur Daten von i.O.-Teilen wichtig, sondern auch und speziell von n.i.O.-Teilen. Denn Daten von Ausschussteilen sind häufig Mangelware und können Projekte stark verzögern.

Wenn die Daten nun zur Verfügung stehen, können wir in die Modellerstellung einsteigen. Wie gehen Sie dabei vor?

Dies erfordert das Expertenwissen eines KI-Experten und kann hier nur im Ansatz beschrieben werden. Beschränken wir uns bei der Darstellung auf den häufigsten Anwendungsfall, den Bereich des überwachten Lernens, dem supervised learning innerhalb der machine-learning-Methoden. Zur Grundlage, welches Modell sich verwenden lässt, um das Ziel zu erreichen, spielen mehrere Faktoren eine Rolle. Zum einen muss man die Komplexität des Problems berücksichtigen, zum anderen die Vielfalt der Komponenten, die zu prüfen sind. Handelt es sich um Zeitreihen oder stationäre Probleme? Sollen konkrete Werte oder Klassen unterschieden werden? Diese Bewertungen führen im Normalfall zu mehreren möglichen Lösungsansätzen.

Unterschiedliche Tools und Bibliotheken

Wie kann man sich das im Detail vorstellen?

Es wird feature-engineering betrieben, wobei die relevanten Informationen beziehungsweise Merkmale aus den Daten extrahiert werden. Dieser bearbeitete Datensatz kommt anschließend für das Training der KI zum Einsatz. Für die Modellierung und das Training lassen sich unterschiedliche Tools und Bibliotheken verwenden. Die bekanntesten sind TensorFlow (Keras), PyTorch aber auch Scikit-learn. Das Erstellen und Validieren der KI-Modelle ist ein iterativer Prozess, bei dem das Modell und Daten über mehrere Iterationen optimiert werden. Oft wird die Modellierung von einer zusätzlichen aktiven Datensammlung begleitet, Erkenntnisse aus Datensammlung und Modellierung beeinflussen sich wechselseitig. Am Ende steht ein erstes Modell, welches die zuvor definierten Kriterien erfüllt.

Das Modell ausreichend verifizieren

Gut, nun haben wir unser erstes Modell. Was sind die nächsten Schritte, bevor es in Richtung Serieneinführung geht?

Bevor Sie Ihr Modell in der Serie implementieren, muss dieses validiert werden. Dies sollte über eine zeitlich beschränkte Dauer erfolgen, parallel zur bestehenden Serie. Dabei läuft das Modell idealerweise passiv an der Linie mit und wird kontinuierlich mit neuen Daten geprüft. Dies kann zu Beginn etwas mehr Prüfaufwand erzeugen, stellt aber sicher, dass das Modell auch ausreichend verifiziert ist, bevor dies „scharf geschaltet“ wird. Abhängig vom Anwendungsfall empfiehlt es sich, die Anwendung zunächst als lokale Implementierung zu starten bevor eine Skalierung auf weitere Anlagen und Produkte erfolgt. Letztlich sollten wir noch erwähnen, dass damit der Prozess der Implementierung nicht final abgeschlossen ist, sondern eingeplant werden sollte, die Modelle regelmäßig zu aktualisieren. Man muss auf Änderungen in den Eingangsdaten reagieren können beziehungsweise eine kontinuierliche Modell- und Qualitätsverbesserung erreichen.

Interview: Frank Magdans