Controller Magazin Special 3/2022

14 Modellentwicklung und -evaluation Transparente Datenprozesse Da im Bereich des maschinellen Lernens die Modelle nicht manuell erstellt, sondern auf Basis lernender Algorithmen dynamisch aus den Daten generiert werden, ist der „Datenraum“, innerhalb dessen die Algorithmen nach Mustern suchen, von zentraler Bedeutung. Für die Rationalitätssicherung und das Vertrauen in die späteren Modellergebnisse ist daher die Transparenz wie dieser „Datenraum“ zustande kommt unerlässlich. Moderne Sof twarelösungen ermöglichen dabei – wie Abb. 2 ausschnittsweise zeigt – die Darstellung des kompletten Datenf lusses. Auf diese Weise lässt sich transparent nachvollziehen, welche Variablen mit welchenWertebereichen einbezogen wurden und ob es Veränderungen in den Daten gab wie z. B. Neuberechnung von Feldern, Datentyp Konvertierungen oder Normalisierung der Daten, usw. Identifikation der wesentlichen Einfluss- faktoren/ Treiber Der sich ergebende „Datenraum“ kann anschließend einer ersten Bewertung unterzogen werden, inwieweit die einzelnen Variablen / Einflussfaktoren / Treiber / Feature für die Zielsetzung aus analytischer Sicht bedeutsam erscheinen. Abb. 3 zeigt – unter Verwendung des Random Forrest Algorithmus – exemplarisch die Bedeutung einer Eigenschaf t des Kunden auf die resultierendeWahrscheinlichkeit des Kreditausfalls. Der betrachtete Kunde hat eine Expense-to-Revenue Ratio von 0.14 im Vergleich zu einer durchschnittlichen Expense-to-Revenue Ratio von 0.72. Hätte der Kunde nicht eine solch niedrige Ratio, würde die Wahrscheinlichkeit des Kreditausfalls um 11.2% steigen. Neben der reinen Bedeutung der Einf lussfaktoren sollte aus Sicht der Unternehmenssteuerung auch berücksichtigt werden, inwieweit diese Treiber im Sinne der Gestaltung von Maßnahmen auch „actionable“, d. h. durch das Unternehmen beeinflussbar sind. Auswahl Machine Learning Algorithmus (incl. Parametereinstellungen) Aus dem erstellten Datenraum können in einem nächsten Schritt durch lernende Algorithmen Muster erkannt und nutzbar gemacht werden. Während der Analyse muss der Analyst viele Entscheidungen tref fen, dazu gehören unter anderem: Auswahl der Datenpunkte zum Lernen der Muster, Auswahl der Eigenschaf ten zum Lernen, Wahl des Qualitätsmaßes zur Evaluierung und die Wahl des Lernverfahrens. Für die Auswahl dieser Lernverfahren können – wiederum je nach Anwendungsfall – ganz unterschiedliche Entscheidungsparameter zugrundgelegt werden, beispielsweise: ▶ Verarbeitungsgeschwindigkeit ▶ Analytische Modellgüte ▶ Nachvollziehbarkeit des Modells Wie Abb. 4 anhand des oben genannten Beispielprozesses veranschaulicht, kann dabei die Güte der Vorhersage eines Kreditausfalls – je nach gewähltem Learner, dessen Parametereinstellungen und der zugrundeliegenden Variablen / Einf lussfaktoren sehr unterschiedlich ausfallen. Zusätzlich können die Wertebereiche je Variable von wesentlicher Bedeutung sein. Es ist deutlich sichtbar, dass mehr Spalten zu einer Steigerung der Güte führen. Dies zeigt eindrücklich, dass die vorhandenen Muster in 2-Dimensionen unsichtbar sind und erst für ein multivariates Verfahren sichtbar werden. Modellverwendung Für das Business Partnering ergeben sich je nach Use Case und Modell eine Reihe von Verwendungsmöglichkeiten. Exemplarisch können genannt werden: 1) Root-Cause-Analytics: Multivariate Ursache-Wirkungsmodelle, incl. der Abbildung nicht linearer Zusammenhänge und indirekter Ef fekte 2) Predictive Analytics: Vorhersagemöglichkeiten auf Basis dieser Ursache-Wirkungsmodelle 3) Simulation: Manuelle What-if Analysen durch Variation der Inputwerte 4) Prescriptive Analytics: Automatische How-to-achieve Analysen, wie sich ein bestimmtes Ziel erreichen lässt Verfahren des maschinellen Lernens ermöglichen damit neue Unternehmenssteuerungsansätze auf Basis neuartiger, großer unverdichteter Datenräume, die nicht durch die eingangs geschilderten Limitationen traditioneller Analytics beschränkt sind. Im Sinne der Rationalitätssicherung lassen sich damit u. a. auch bisherige „Gewissheiten“ hinterfragen, wie z. B.: ▶ Was sind eigentlich die wirklichen Performance Treiber (KPI`s) für bestimmte Aktivitäten? ▶ Welche Treiber sind wie wichtig? ▶ Wie stark sind die Wechselwirkungen zwischen einzelnen Treibern? ▶ … Abb. 1: Rationalitätssicherung imKontext Künstlicher Intelligenz Modellentwicklung und -evaluation Modellverwendung Transparente Datenprozesse Simulation Root-Cause Prescription Prediction Auswahl ML Algorithmus Identifikation Einflussfaktoren/ Treiber Rationalitätssicherung

RkJQdWJsaXNoZXIy Mjc4MQ==