PERSONAL quarterly 2/2020

41 02/20 PERSONALquarterly tures haben wir in Abbildung 2 dargestellt. Die durchschnitt- liche Reduzierung der Gini-Unreinheit ist dabei ein Maß für die Bedeutung eines einzelnen Features in den Entscheidungsbäu- men des Random Forest. Der konkrete Wert dahinter ist jedoch zwischen Modellen nicht vergleichbar und nicht interpretier- bar, weshalb wir an dieser Stelle lediglich die proportionale Bedeutung der Features darstellen. Es zeigt sich in unserem Datensatz aus jungen Biotech­ unternehmen, dass sowohl Firmen- als auch Individual­ informationen in der Topliste der Features enthalten sind. Der wichtigste Indikator für den Algorithmus ist die Zeit, die ein Mitarbeiter bereits in seiner Position ist, gefolgt und abhängig von der durchschnittlichen Zeit, die ein Mitarbeiter in seiner Karriere auf einer Position verbracht hat. Aber auch die bis- herige Fluktuation in dem Unternehmen und die Güte der Be- wertung als Arbeitgeber sind starke Prädiktoren in unserem Kontext. In der Folge haben wir unterschiedliche Feature- Kombinationen getestet und weniger wichtige Features gestri- chen – das Ziel ist nämlich nicht, ein Modell genau auf den existierenden Datensatz zuzuschneiden, sondern es flexibel genug zu lassen, neuartige Daten zur Prognose zu nutzen (vgl. Shalev-Shwartz/Ben-David, 2014, S. 35f.). Um dies an einem Beispiel zu verdeutlichen: In unserem Fall hat die Information, ob ein Mitarbeiter für ein Unternehmen ein Patent geschrieben hat, nur einen geringen Informationswert und kann gestrichen werden. Möglicherweise liegt dies an dem konkreten Biotech- kontext, in dem viele Mitarbeiter an Patenten ihres Unterneh- mens mitgewirkt haben. Die Gewichtung solcher Features kann in anderen Datensätzen und Kontexten eine andere sein, wodurch ein erneutes Anlernen des Algorithmus für andere Branchen vermutlich notwendig sein würde (z. B. wenn es wieder eine größere Varianz über die Information des Patentie- rens eines Mitarbeiters gibt). Generell gilt, wenn sich die Natur der Fragestellung insofern ändert, als dass andere grundle- gende Faktoren wirken, so ist auch ein erneutes Anlernen des Algorithmus notwendig – z. B. wird das vorliegende Modell für Unternehmen der Pharmaindustrie vermutlich valide sein, aber bei Handelsunternehmen eine deutlich geringere Progno- segenauigkeit zeigen. Gleiches gilt, wenn sich im zeitlichen Verlauf etwas strukturell verändert, z. B. weil ein Unternehmen stark gewachsen oder inzwischen an der Börse gelistet ist. Welche Faktoren bestimmen über die Abwanderung? In unserem Fall wurden nun die jeweils anderen in der Test- stichprobe enthaltenen Daten zum Testen der Prognosefähig- keit der Modelle angewendet. Dabei wurden drei Submodelle zur Veranschaulichung des Informationswertes der Features auf Firmen- und Individualebene sowie der Kombination der beiden Ebenen evaluiert. Die Ergebnisse können wir in einem sog. „Gains-Chart“ analysieren (Abb. 3; für eine detaillierte Beschreibung vgl. Bult/Wansbeek, 1995). Aktuelle Zeit in Position Durchschnittliche Zeit in Position Bisherige Arbeitserfahrung Fluktuation Mitarbeiter Anzahl Kontakte Anzahl Mitarbeiter Alter der Firma Bewertung als Arbeitgeber Hierarchieebene aktuelle Position Bildungserfahrung Abb. 2: Relative Bedeutung ausgewählter Features im Machine-Learning-Modell Quelle: Eigene Darstellung (schematisch nach durchschnittlicher Reduzierung der Gini-Unreinheit = Maß der Feature-Bedeutung) Abb. 3: Gains-Chart: Performance der Modelle basierend auf verschiedenen Datenquellen Quelle: Eigene Darstellung % erkannter Abwanderungsfälle % der Mitarbeiterschaft Komplettes Modell (Firmen- & Individualebene) Modell Individualebene Modell Firmenebene Zufällige „blinde“ Auswahl 0% 10% 20% 30% 40% 50% 60% 70% 80% 90% 100% 100% 90% 80% 70% 60% 50% 40% 30% 20% 10% 0%

RkJQdWJsaXNoZXIy Mjc4MQ==