Wie Data Exploration Ihnen Verbesserungspotential aufzeigen kann!

Wenn Maßnahmen entwickelt werden sollen, hilft oft ein Blick in die Basisdaten - und um da durchzublicken, kann eine explorative Analyse hefen. Wir nehmen uns Walmarts Sales-Daten vor und zeigen Ihnen wie Sie vorgehen können!


Wir nehmen uns Walmart's Sales-Daten vor

Wir haben uns bereits in einigen Posts mit Maßnahmen beschäftigt.

Grundtenor: Pack das Problem an der Wurzel und los.

Doch scheinbar sind wir stillschweigend davon ausgegangen, dass die Problemsituation und -ursache bekannt ist. Das dem nicht so ist, wissen wir ehrlich gesagt auch. Doch was kann gemacht werden, wenn man nur weiß, dass etwas nicht stimmt, aber nicht so wirklich genau und überhaupt warum? Oft hilft in diesen Situationen ein Blick auf die Basisdaten und wir wollen Ihnen zeigen wie Sie vorgehen können!

Als Beispiel widmen wir uns der Mutter aller Probleme: Können wir den Umsatz steigern? Dazuhaben wir uns historische Umsatzdaten von Walmart ausgesucht – einfach weil sie öffentlich verfügbar sind (auf Kaggle… mehr dazu in einem anderen Post später).

Mit was für Daten haben wir es zu tun?

Walmart liefert uns wöchentliche Umsatzahlen für 45 Stores über drei Jahre. Moment…das sind 45 Stores mal 3 Jahre mal ca. 52 Wochen… naja, wird schon passen und los Excel. Oha…doch bisschen mehr. Denn Walmart liefert uns die Umsätze gesplittet nach Departments in der Stores. Oh man, und so richtig wochenbasiert ist es auch nicht…eher tagesbasiert…aber irgendwie nicht alle Tage.

Ganz schönes Kuddelmuddel. Willkommen im echten Leben. Resultat: Für den ersten Store gibt es bereits über 10.000 Datenpunkte - und in Summe über 400.000… Spätestens jetzt ruft vielleicht der ein oder andere nach dem Controlling und/oder fragt sich, warum Excel so verdammt langsam ist.

Was Tun wenn Excel nicht mehr weiterhilft?

Viele Excel-Poweruser würden vielleicht das Datenset aufteilen und mehrere Dateien benutzen. Aber das ist aufwendig und fehleranfällig. Nun kann man nicht verlangen, dass jeder die Zeit hat sich mal so mir nichts dir nichts in Dingen wir Python oder R einzulesen. Allerdings es gibt genügend Software, die auch mit größeren Datenmengen klarkommt und bei denen man durch Klick-and-Point auch einiges an Rückschlüssen ziehen kann (z.B. Tableau und Stata ).

Datenkuddelmuddel? Haupstraßen bauen und visualisieren!

In solchen Fällen gilt zunächst das Prinzip „Hauptstraße“. Also, auf Details verzichten und ein/zwei Ebenen vorher anfangen. So aggregieren wir bei unseren Walmart-Daten erstmal auf Monate und auf Stores. Departments, Wochen und Tage können wir uns auch noch später ansehen. Um ein Gefühl für die Daten zu bekommen, ist eine Visualisierung meist der erste Schritt. Wie wäre es hiermit: ein Scatterplot der monatlichen Umsätze je Store über die Zeit.



Relativieren Sie was das Zeug hält!

Schöne Graphik. Irgendwie alles relativ voll, aber lässt es doch auch Rückschlüsse zu. Scheinbar gibt es einige Stores, die sehr hohe Umsätze in einigen Monaten erzielen: 600.000 US-Dollar und mehr! Dann gibt es wiederum einige die eher im unteren Bereich rumkrebsen. Eins ist klar, die Varianz ist sehr groß. Daher sollten wir nicht alle Stores gleich behandeln, sondern z.B. nach Größe clustern, oder zumindest nach der Verkaufsfläche relativieren.

Alles klar, dann gucken wir uns doch die monatlichen Umsätze nach Größe der Stores an (hier in Quadratlatschen, ft²):



Nicht verwunderlich: Es scheint einen recht klaren Zusammenhang zu geben. Je größer der Laden, desto mehr Umsatz. Aber gilt das für das ganze Jahr? Oder gibt es vielleicht Stores, bei denen die Umsätze über das Jahr schwanken? Das sollten wir vielleicht prüfen. Noch etwas fällt auf: es scheint so etwas wie Gruppen oder „Store-Typen“ zu geben. Mit einem bisschen Eyeballing (des Statistikers Alptraum) können wir z.B. grobe Gruppen bei 75.000 ft², 125.000 ft² und 175.000 ft² ziehen. Dieses Vorgehen ist komplett willkürlich. Gerade die Grenze rund um 125.000 ft² ist sicherlich diskussionswürdig. Aber genau darum geht es: ohne große Analyse in die Daten „hineinfühlen“ – genaue Analysen kann man auch noch danach machen.

Gruppen bilden und vergleichen!

Wir haben jetzt also die Gruppen S, M, L und XL mal ganz grob gebastelt. Ok, gucken wir uns die Stores-Typen mal über die Zeit an und relativieren sie zur Verkaufsfläche der Stores. Ganz im Sinne der Relativierung, können wir zusätlich uns auch die Stores im Mittel ansehen – dann kann man besser vergleichen. Los geht’s:



Naja, die Graphik ist sicherlich nicht schön – aber darum geht es an dieser Stelle nicht. Es geht darum ein Gefühl für die Daten zu entwickeln - und das haben wir geschafft. Denn nun wissen wir: das Geschäft ist saisonal. Peaks im März-April, im Juni-Juli, im September-Oktober und im November-Dezember. Dafür kann es viele Gründe geben. Zum Beispiel das Wetter, oder auch Feiertage wie Labor Day im September, Thanksgiving im November und natürlich Weihnachten im Dezember. Allerdings zeigt sich, dass die kleinen Stores zwar auch saisonal unterwegs sind, aber etwas konstanter. Zudem scheinen die kleineren Stores mehr Umsatz je Fläche zu generieren.

Dennoch ist das Pattern relativ ähnlich bei allen Stores. Wir können für eine erste Analyse also alle Stores einfachheitshalber mehr oder minder über einen Kamm scheren.

Verlauf über die Zeit untersuchen!

Nun können wir endlich die Daten als das behandeln, was sie eigentlich sind: Panel-Daten. Also Daten. die Information (z.B. den Umsatz) für eine Observationseinheit (den Wallmart-Store) über die Zeit bieten. Das birgt enorme Vorteile. Denn Wir können mit recht großer Sicherheit davon ausgehen, dass die Umsätze von Monat zu Monat nicht vollkommen unabhängig voneinander sind. Sie sind sicherlich pfadabhängig.

Eine einfache Art und Weise um ein Gefühl für die Perfomance und der Pfadabhängigkeit der Stores über die Zeit zu bekommen ist die Wachstumsrate. Da wir wissen, dass die Stores unterjährlich relativ ähnliche Pattern aufweisen, können wir den jährlichen CAGR als Indikator nutzen. Um wiederum ein Gefühl zu bekommen, plotten wir die Wachstumsrate gegenüber der Größe. Um das Ganze besser einordnen zu können, ergänzen wir noch die Durchschnitte:



Wissen umsetzen und Maßnahmenpotential identifizieren!

Und schon haben wir das zum ersten Mal die Fühler Richtung „Maßnahmen“ ausgestreckt. Nun könnten wir identifizieren, warum einige Stores so unfassbar gut performen und einige eben auch nicht (alles unter CAGR=0). Insbesondere die kleineren scheinen trotz hoher Flächeneffizienz im drei Jahreszeitraum negative Wachstumsraten zu verbuchen.

Doch gibt es auch bei den ganz großen Unterschiede. Da es so wenige sind, könnte man sicherlich die Store-Manager befragen oder qualitative Vergleiche ziehen (Region, Wettbewerb, Produktportfolio, Durchschnittliches Einkommen der Abnehmer usw.). Auch eine Like-For-Like-Analyse könnte noch weiten Aufschluss geben. Natürlich könnten wir das ganze Prozedere auch wiederholen – z.B. für die einzelnen Departments oder auf Wochenbasis. Vielleicht würde uns wieder etwas auffallen.

Kann dieses Vorgehen auch Ihnen helfen?

In recht kurzer Zeit konnten wir einen ersten Eindruck zu Walmarts Stores gewinnen - trotz der recht unübersichtlichen Datenmenge. Die kausalen Zusammenhänge sind mit absoluter Sicherheit nicht ganz so einfach wie beschrieben. So sind die Stores ähnlicher Größe und Flächeneffizienz sicherlich nicht per se vergleichbar. Regionalität, Konkurrenz, Bevölkerungs- und Einkommensdichte und vielen andere Faktoren erklären bestimmt viel der hohen Varianz. Aber zumindest gibt es nun einen Startpunkt für eine mehr oder weniger fundierte Diskussion mit den Kollegen.

Wir sind zuversichtlich, dass Sie nun ein Gefühl für Wallmarts Storekonzept haben. Stellen Sie sich vor, was Sie mit diesem Vorgehen und Ihren eigenen Sales-Daten anstellen könnten! Wir wünschen Ihnen viel Spaß dabei! Und sollte eine Maßnahmen entstehen und Sie möchten Sie umsetzen: Falcon kann Ihnen dabei helfen! Wir heflen gerne! Fragen Sie uns einfach via info@nordantech.com