64
Sicht auf strukturierte, unstrukturierte und teil-
strukturierte Daten, aus der das Unternehmen
neue, wertvollere Erkenntnisse gewinnen kann.
Über die reine Ermittlung von Unternehmens-
Kennzahlen für eine Business-Scorecard geht
Big-Data-Analyse somit heute hinaus. Control-
ler werden in die Lage versetzt, Ergebnisse in
einen logischen Zusammenhang mit allen zu-
gehörigen Informationen zu bringen.
Die Auswertung von Text- bzw. von Menschen
generierten Daten ist zweifelsohne die größte
Herausforderung im Umfeld von Big Data. Hier-
zu bedarf es einer
tiefgehenden linguisti-
schen und semantischen Analyse
. Erst da-
durch lässt sich eine Suchanfrage wirklich ver-
stehen und die Bedeutung eines Textes erfas-
sen. So erhält der Suchende Ergebnisse, die
über den Horizont seiner ursprünglichen Key-
word-Abfrage inhaltlich weit hinausgehen.
Gleichzeitig können
Informationen über ge-
schäftsrelevante Filter kategorisiert
wer-
den. Dies hilft dem Anwender, unter allen von
der Suchmaschine als relevant angezeigten Er-
gebnissen die für ihn entscheidenden sofort zu
erfassen. Ermöglicht wird dies durch die Tech-
nik des „Natural Language Processing“ (NLP)
oder auch Computerlinguistik. Such- und Ana-
lysewerkzeuge ohne NLP-Technologie werden
den heutigen Anforderungen von Unternehmen
an Enterprise Search und Big-Data-Analyse
nicht mehr gerecht. Die Software des Herstel-
lers Sinequa etwa beinhaltet NLP-Technologie
für 20 verschiedene Sprachen, darunter solch
„schwierige“ wie Chinesisch, Japanisch, Kore-
anisch oder Arabisch.
Menschliche Sprache
oft unpräzise und zweideutig
Unter
NLP versteht man die Fähigkeit eines
Computerprogramms, menschliche Spra-
che so zu verstehen, wie sie gesprochen
bzw. geschrieben wurde
. Traditionell versteht
eine Software einen Menschen am besten,
wenn dieser eine möglichst präzise, eindeutige
und strukturierte Sprache verwendet. In der
Realität aber ist die menschliche Sprache oft
eben nicht eindeutig und genau, sondern hängt
von komplexen Variablen ab (sozialer Kontext,
regionale Spezifika …). Zum Einsatz kommen
NLP-Technologien bevorzugt im Bereich des
Enterprise Search, also der organisierten Suche
in strukturierten und unstrukturierten Daten in-
nerhalb einer Organisation.
NLP geht über bloße Sprachidentifikation,
Worttrennung und Text-Extraktion, wie sie viele
Suchmaschinen heute bieten, weit hinaus. Zu
den NLP-Aufgaben innerhalb von Software-
Programmen gehören zum einen
Techniken
wie
Satzsegmentierung und -analyse (Par-
sing)
, also das Aufteilen von Phrasen in ver-
schiedene Teile, um Beziehungen und Bedeu-
tung zu verstehen. Außerdem
Deep Analytics
(Datensammlung und -Analyse aus sehr
großen Datenpools), Named Entity-Extrak-
tion (Erkennung und Klassifizierung von
Bestandteilen eines natürlich-sprachlichen
Textes)
und Co-Referenzauflösung.
Im Rahmen linguistischer Analysen ermögli-
chen diese Techniken eine automatische Ex-
traktion von Begriffen und Navigation in begriff-
lich geordneten und nach Relevanz sortierten
Informationen.
Text Mining
(ein Bündel von Al-
gorithmus-basierten Analyseverfahren zur Ent-
deckung von Bedeutungsstrukturen aus un-
oder schwachstrukturierten Textdaten) mit
Tagging einzelner Wörter und das Erkennen
semantischer Zusammenhänge
(etwa bei
gleichzeitigem Auftreten der Begriffe innerhalb
eines Satzes) werden möglich. Das gewonnene
„Unternehmens-Wissen“ lässt sich in Form von
Wörterbüchern, Taxonomien, Ontologien etc.
aggregieren.
Gesetzestexte und Erlasse
inhaltlich erschließen
Controlling-Abteilungen sind fast tagtäglich mit
neuen Gesetzen, Regelwerken und Erlassen
auf Landes-, Bundes und europäischer Ebene
konfrontiert, deren Inhalte für ihre Arbeit eine
Relevanz haben kann. Solche Daten enthalten
üblicherweise eine Fülle von Informationen, die
nicht „kodifiziert“ sind und sich nicht in bloßen
Zahlen ausdrücken lassen. Mit Hilfe der be-
schriebenen Werkzeuge für die Big Data Analy-
se erhält der Controller Suchresultate schnell
und einfach innerhalb seiner täglichen Ar-
beitsumgebung – ohne wissen zu müssen, wo
sie genau herkommen und welches Format sie
haben.
In großen Mengen erzeugte BI-Reports, deren
Existenz oder gar Inhalt die Controlling-Abtei-
lung gar nicht im Einzelnen überblicken kann,
lassen sich mittels Big-Data-Analyse so durch-
suchen, dass der Anwender auch Fundstellen
erhält, in denen der eigentliche Suchbegriff gar
nicht vorkommt, hingegen Synonyme oder in-
haltlich ähnliche Begriffe. Auch zur
Erkennung
bestimmter Gefahren-Situationen und Ver-
haltensmuster
sind die beschriebenen Me-
thoden der semantischen Analyse und NLP
ideal geeignet. Im Versicherungsumfeld kön-
nen sie somit signifikant
zur Risikominimie-
rung
beitragen.
Einsatz im Einkauf
In Beschaffungsabteilungen lassen sich Text-
analyse-Methoden für Controlling-Zwecke gut
bei der Prüfung von Einkaufsverträgen einset-
zen. Dort verklausuliert enthaltene intranspa-
rente Preise können damit sichtbar gemacht
werden, Dashboards geben eine quantitative
wie qualitative Übersicht über die Verträge wie-
der. So lassen sich auch Einkäufe aufspüren,
die an der offiziellen Beschaffungspolitik des
Unternehmens vorbeilaufen – ein in der Praxis
häufig anzutreffender Fall. Durch Textanalyse
der Verträge entdeckt das Controlling versteck-
te Unregelmäßigkeiten, und „Ausgabenausrei-
ßer“ lassen sich schnell identifizieren.
Autor
Frank Zscheile
Presse- und Öffentlichkeitsarbeit
Bergmannstr. 26, 80339 München
Tel.: +49 89 5403 5114
E-Mail:
Big Data – Textanalyse