Regulatory Life Cycle

Automatisierung von CSV mit

Künstlicher Intelligenz

Die Validierung von Software-Systemen ist traditionell ein aufwändiger, manuell durchgeführter Prozess, der hohe Kosten verursacht. Besonders bei Änderungen an bestehenden Systemen übersteigen die Validierungskosten oft die Kosten für das eigentliche Update. Künstliche Intelligenz kann diesen Prozess durch Technologien wie Process Mining und Machine Learning teilweise automatisieren, Kosten senken und die Effizienz steigern.

Logo Forschungsprojekt valid-AI-te

Die Validierung von Software-Systemen ist ein aufwändiger und im Wesentlichen manuell durchgeführter Prozess. Dies gilt sowohl für die initiale Validierung im Rahmen der Software-Einführung als auch für die kontinuierliche Validierung von Software-Systemen im laufenden Betrieb. Nach Erfahrungswerten liegen die Kosten für CSV bei ca. 30% der Kosten für die Einführung. Die Anteile sind noch höher bei Änderungen an bestehenden Systemen; die Kosten für die Nach-Validierung übersteigen häufig diejenigen für das eigentliche Software-Update. Kosten entstehen v.a. am rechten Ast des V-Modells – ca. 50% der Aufwände bei Tests und OQ/PQ, 20% bei Risikoanalyse und Training, 15% bei Change-Prozessen. Regulierte Unternehmen versuchen daher nicht selten, Software-Änderungen und -Modernisierungen zu vermeiden; oder sie minimieren die Bedeutung von durchgeführten Änderungen. Beides gefährdet die IT-Compliance, was zur Einstellung des Geschäftsbetriebs durch behördliche Anordnung führen kann.

Aber CSV lässt sich mit Hilfe von KI teilweise automatisieren, was Kosten reduziert und die Effizienz steigert. Dafür kommen verschiedene Technologien des Process Mining und des Machine Learning zum Einsatz. Process Mining bezeichnet Methoden und Technologien des Data Mining, die speziell für die Analyse von Prozesslogdaten aus IT-Systemen entwickelt wurden. Dabei werden die Teilbereiche

  • Process Discovery (Ableitung von Prozessmodellen aus Prozesslogdaten zur Dokumentation des realen Prozessablaufs),
  • Conformance Checking (Abgleich von Prozesslogdaten mit einem vorgegebenen Prozessmodell zur Identifikation von Abweichungen) sowie
  • Process Enhancement (Optimierung eines vorgegebenen Prozessmodells anhand der Erkenntnisse aus dem realen Prozessablauf) unterschieden.

Herkömmliches Einsatzgebiet von Process Mining ist die Analyse von IT-gestützten Geschäftsprozessen im Unternehmen; es ist aber auch für die automatisierte Validierung von IT-Systemen einsetzbar. Sie erkennt aus den Aktionen eines Mitarbeiters (Echtzeit-Ausführungsdaten) automatisch die gerade ausgeführte Aktivität, den zugrunde liegenden Prozess und die betreffende Prozessinstanz und speichert diese in einem Ereignislog. Die Aktivitätserkennung verwendet einen Ansatz zum überwachten maschinellen Lernen (supervised machine learning, SML), um die Nutzungsdaten einer der bekannten Aktivitäten zuzuordnen.

Die Prozessdokumentation erfolgt mittels Process-Discovery (Transformation von Ereignislogs in Prozessmodelle) und Model-to-Text-Methoden (Transformation von Prozessmodellen in Texte). Die spezifischen Lösungen für die drei Anwendungsfälle beruhen auf der Erkennungskomponente und reichern diese um weitere Technologien an, die zur Umsetzung des jeweiligen Anwendungsfalls benötigt werden.

Schneller validieren – CSV mit Künstlicher Intelligenz (KI)

Das Projekt „validAIte – GxP-konforme Computersoftware-Validierung durch Process Automation“ (BMBF, FKZ 01IS21044A-C) nutzt Referenzmodelle für GxP-relevante Prozesse. Aus diesen Referenzmodellen werden die Sollprozesse eines Unternehmens abge­leitet. Diese Sollprozesse dienen als Grundlage für die Validierung der Systemkonfiguration.

Als Grundlage für die Validierung werden dann in einem zweiten Schritt die Interaktionen von Nutzern mit dem IT-System erfasst, also Mausbewegungen, Klicks, Scrolls, Tastatureingaben etc. Zur besseren Interpretation werden diese mit der grafischen Benutzungsschnittstelle in Verbindung gebracht. Schnittstellenelemente (Buttons, Drop-Down-Felder, Upload-Fenster etc.) werden separat erfasst, die Prozessausführung mit regelmäßigen Screenshots dokumentiert. Auch sind systemseitige Daten für die Prozessausführung relevant, also Systemlogs, die die Ausführung einzelner Aktivitäten speichern, sowie die Veränderungen in zugehörigen Datenbanken. Damit lässt sich der „Supervised Machine Learning“-Ansatz (SML) zur Klassifikation von Aktivitäten trainieren. Zum Einsatz kommen verschiedene SML-Verfahren – neuronale Netze, Support Vector Machines, Random Forests. Die Datenquellen werden aggregiert, integriert und vorverarbeitet. Die identifizierten Prozessabläufe werden dann mit den vorgegebenen Sollprozessen abgeglichen.

Die automatisierte Ausführung von Prozessen, die validiert werden sollen, erfolgt mittels Robotic Process Automation (RPA). Dies sind Werkzeuge und Technologien, die auf der Oberfläche von IT-Systemen agieren und Nutzerverhalten ohne Eingriffe in das System imitieren. Das ist v.a. für Routineprozesse interessant, die für menschliche Akteure repetitiv und fehleranfällig sind und wegen der Beschaffenheit der Systeme nicht verändert werden können. RPA kann regelbasiert um­gesetzt werden. Für komplexere Prozesse kommen Machine Learning-Ansätze in Frage; sie erlernen die Prozessausführung aus gesammelten menschlichen Ausführungsdaten.

Aber was passiert, wenn es Änderungen am validierten Software-System gibt? Dafür braucht es weit komplexere Ansätze zur CSV-Validierung. Im Projekt „ComplianceControl – Management von IT-Compliance durch Object-Centric Process Mining (OCPM)“ (BMBF, FKZ 011S24002A-D) wird eine Lösung entwickelt, die Veränderungen in den Prozessen und die betroffenen Objekte im Software-System erfasst, den Validierungsaufwand identifiziert und abschätzt, wie umfangreich die Nachvalidierung sein wird. Gezielte Interventionen sind auf dieser Basis möglich. Machbar ist das durch eine Kombination von OCPM mit Natural Language Processing (NLP) und Machine Learning und durch Einsatz von Large Language Models.

Wissenswertes | News | Aktuelles