PERSONAL quarterly 2/2020

40 PERSONALquarterly 02/20 NEUE FORSCHUNG _ANALYTICS Branchenspezifika in unserem Modell außen vor lassen zu können und weitere öffentliche Informationen wie z. B. Patent- daten zu integrieren. Ein wesentlicher Bestandteil im Zugang zu Mitarbeiterinformationen sind Daten aus Social-Media- Plattformen wie Linkedin und Xing (Tonidandel et al., 2016). Konkret haben wir online frei zugängliche Profile von Linkedin ausgewertet und die Lebenslaufdaten von Biotechmitarbeitern aus 528 Unternehmen weltweit erhoben. Unsere Stichprobe enthält zwischen 2002 und 2013 weltweit gegründete Biotech­ unternehmen und die dazu korrespondierenden Daten von 30.810 Individuen. Nicht zugängliche Daten machen je nach Unternehmen zwischen 20-80 % der Gesamtzahl der Mitar- beiter aus. In unserem Fall von jungen Biotechunternehmen überwiegend aus den USA schaffen wir es, >80 % der Mitarbei- terschaft abzubilden. Die nicht zugänglichen Daten können nur durch ein Anmelden auf den jeweiligen Plattformen eingese- hen werden, was in der Regel eine Verletzung der Allgemeinen Geschäftsbedingungen darstellen würde und deshalb nicht zulässig ist. Über den Abgleich mit anderen Firmendatenquel- len konnten wir sicherstellen, einen repräsentativen Anteil der aktuellen und vorherigen Mitarbeiterschaft abbilden zu können. Die Daten lassen sich nun auf zwei Ebenen nutzen. Zum einen, um individuelle Features zu generieren, wie z. B. die durchschnittliche Zeit, die ein Mitarbeiter eine Position innehat, den höchsten Bildungsabschluss und die bisherige Arbeitserfahrung. Des Weiteren können wir die Informationen auch auf Firmenebene aggregieren, z. B. die rollierende Mit- arbeiterfluktuation der vergangenen zwölf Monate, und das Mitarbeiterwachstum und die Struktur des Unternehmens in sechs Hierarchiestufen und sieben Funktionen betrachten. An- schließend haben wir die Rohdateninformationen in einzelne Features überführt und in einem Datenwürfel gespeichert. An dieser Stelle ist viel Kreativität und sowohl Business- als auch methodische Erfahrung gefragt. Z. B. konnten wir ein Feature generieren, das die Abweichung der Studienzeit von der durch- schnittlichen Studierdauer ähnlicher Studiengänge abbildet. Unsere Hypothese dazu ist, dass überdurchschnittliche Stu- denten auch schneller Karriere machen (wollen) und häufiger die Positionen wechseln, was sich auch in den späteren Daten- auswertungen zeigte. Neben den Social-Media-Daten sind Unternehmensinforma- tionen zu erfassen, die einen Einfluss auf die Abwanderung haben könnten, so z. B. das Alter des Unternehmens, die Profi- tabilität und die Branche. Die hierzu verwendeten Datenquellen können sowohl branchen- als auch länderspezifisch sein. Eine weitere wichtige Datenquelle ist die Bewertung von Arbeit- gebern bei Job-Portalen. Dazu haben wir in unserem Fall die Bewertungen (über Zeit) aus Glassdoor erfasst, um auf aggre- gierter und Einzelbewertungsebene die spezifischen Vor- und Nachteile der Unternehmen systematisch herauszuarbeiten. Es zeigte sich, dass vor allem die übergreifende Bewertung einen deutlichen Einfluss auf die Abwanderungswahrscheinlichkeit in unseren Daten einnimmt. Darüber hinaus können weitere Datenquellen hilfreiche Informationen liefern. Im Fall der Biotech-Start-ups haben wir Patentdaten auf Unternehmens- und Mitarbeiterebene integriert. Mithilfe dieser konnten wir ein Maß für den Innovationsgrad, die Forschungseffizienz und mögliche innovative Durchbrüche erfassen. Zusätzlich ließen wir weitere externe Anhaltspunkte wie z. B. „Auszeichnungen als Toparbeitgeber“ mit in die Datengrundlage einfließen. In Summe haben wir also durch externe, öffentlich zugängliche Datenquellen eine umfangreiche Datengrundlage für die Ana- lytik geschaffen. Die Wahl des besten Algorithmus zeigt sich empirisch Auf Basis der generierten Daten können nun interessante Analysen durchgeführt werden. Zunächst haben wir bereits deskriptiv Erkenntnisse generiert, wie durchschnittliche Ab- wanderungsraten auf Ebene einzelner Unternehmen oder so- gar auf Ebene einzelner Funktionen (wie Abwanderungsraten bei Marketingangestellten). Ebenso konnten wir Abwande- rungsraten über die Zeit darstellen. Während solche Analysen bereits vergangenheitsbezogene Eindrücke liefern, entfaltet sich das Potenzial einer solchen Datenbasis jedoch erst, wenn sich vorhersagen lässt, wie die Abwanderung in den nächsten Monaten oder sogar in den nächsten Jahren sein wird – gene- rell auf Unternehmensebene, aber insbesondere auch auf Ebe- ne einzelner Funktionen/Abteilungen oder Niederlassungen und sogar auf Ebene einzelner Mitarbeiter. Für solche Anwen- dungsfälle hält Data Analytics interessante Prognosemodelle bereit, die wir auf die beschriebene Datenbasis angewendet haben. Generell funktionieren diese Prognosemodelle so, dass auf Basis der Vergangenheitsdaten über alle Unternehmen ein Algorithmus angelernt wird. Dazu wird eine zufällige Stich- probe aus den Daten gezogen, die in eine Anlernstichprobe und eine Teststichprobe unterteilt wird. Auf Grundlage der Anlernstichprobe sucht der Algorithmus Muster in den Daten (Breiman, 2001). In unserem Fall hat sich ein „Random Forest“ Model mit binärer Klassifizierung (1 = verlässt das Unterneh- men in den nächsten 6 Monaten und 0 = verbleibt beim beste- henden Unternehmen) als besonders geeignet herausgestellt. Der Random Forest sucht dabei praktisch nach Mustern, die in der Vergangenheit unter bestimmten Umständen zu Abwande- rung einer Person in einer Abteilung mit einem bestimmten Profil geführt haben (Liaw/Wiener, 2002). Ist der Algorithmus angelernt, können die Muster auf der Evaluierungsstichprobe des gleichen Datensatzes getestet werden, um zu erfahren, wie akkurat Prognosen angestellt werden können. Das angelernte Modell gibt an, inwieweit die identifizierten Features zur Bil- dung eines Musters geholfen haben und inwieweit sie einen redundanten oder nicht relevanten Informationswert haben (Louppe et al., 2013). Eine relative Güte der wichtigsten Fea-

RkJQdWJsaXNoZXIy Mjc4MQ==