Gerne beraten wir Sie auch telefonisch & geben Ihnen eine kostenfreie persönliche Auskunft zu Ihrem Projekt.

X

Statistische Datenauswertung und Modellierung in Marketing: Logistische Regression mit R

In diesem Projekt haben wir die Marketingstrategie eines Unternehmens durch eine logistische Regression analysiert und ein statistisches Wahrscheinlichkeitsmodell entwickelt, um Vorhersagen zu Kundenkaufentscheidungen zu ermöglichen.

Vorbereitung und Herausforderung

Die Bedeutung von Daten in der modernen Welt kann man kaum überschätzen. Das betrifft sowohl einzelne Personen, als auch Unternehmen. Beinahe jeder Geschäftsprozess erzeugt dabei Datensätze, die gesammelt und analysiert werden können, um später den Stakeholder bei den strategischen Entscheidungen zu unterstützen.

Unsere Kunden, ein renommiertes Unternehmen der Einzelhandelsbranche mit umfangreicher Kundenbasis, haben uns mit der Optimierung ihrer Marketingstrategie beauftragt. Es sollte ein Tool entwickelt werden, um Kundenaffinität und -bindung zu den Produkten des Unternehmens besser vorhersagen zu können, und somit die Werbekampagnen kundenspezifischer zu steuern.

Projektverlauf und Auswertung

Viele Unternehmen benutzen s.g. Scorecards um Produktbindung des Kunden zu messen und ihre Werbekampagnen für die passenden Zielgruppen zu optimieren. Die Scorecards schätzen die Wahrscheinlichkeit, dass der Kunde sich für ein bestimmtes Produkt interessieren und dieses kaufen würde – je höher der Scorecardwert, desto höher die Wahrscheinlichkeit.

Aus statistischer Sicht geht es hier um die Modellierung einer logistischen Regression, wo die Wahrscheinlichkeit eine abhängige Variable ist (1 bedeutet hier positive und 0 negative Kaufentscheidung) und von verschiedenen Faktoren oder unabhängigen Variablen (wie z.B. vorherige Käufe, Alter, Einkommen, Familienstand usw.) beeinflusst wird. Eine logistische Regression unterscheidet sich von einer klassischen bi- oder multivariaten Regression dadurch, dass die -Variable dichotom ist und somit mit Hilfe einer Logit- (oder Probit-) Funktion transformiert und geschätzt werden muss:

P(y=1)=\frac{1}{1+e^{-z}}

wobei die Logit-Linkfunktion (basierend auf dem linearen Regressionsmodell) bezeichnet:

z=a+\beta_{1}x_{1}+...+\beta_{n}x_{n}

Die logistische Regression wird mit der Maximum-Likelihood-Methode geschätzt, welche in vielen statistischen Softwarepaketen implementiert ist. Der Code zur Schätzung des Modells der logistischen Regression in R sieht folgenderweise aus:

Oft wird die Stichprobe in „in-sample“ und „out-of-sample“ aufgeteilt, so dass mit der ersten Gruppe die Modellierung und mit der zweiten die Modellfitprüfung durchgeführt werden. Dabei wird berechnet, wie nah die Modellschätzungen zu den wahren Werten der abhängigen Variable liegen und somit wird die Vorhersagekraft des Modells bestimmt.

Ergebnis und Lieferung

Im Rahmen dieses Projektes haben wir für unsere Kunden eine vollständige R Programmierung zum Schätzen der logistischen Regression erstellt, die für jeden Kunden pro Produkt einen Scorecardwert berechnet und die Ergebnisse in dem von den Kunden gewünschtem Datenformat automatisch liefert.

Darüber hinaus haben wir eine Präsentation des verwendeten Modells und deren Interpretation geliefert, was die Integration des entwickelten Werkzeuges in die täglichen Aktivitäten des Unternehmens erleichtert hat. Unter anderem wurde eine Matrix erstellt, die für jeden Scorewert die Einflussfaktoren auflistete:

AlterEinkommenFamilienstandAnzahl Einkäufe im Vormonat
Scorecard_Produkt A+++
Scorecard_Produkt B+
Scorecard_Product C++++

Tab. 1: Matrix der Einflussfaktoren pro Scorecard.

Pro Scorecard wurden auch ROC (Receiver Operating Characteristics) Plots produziert. ROC schätzt die Güte des Modells und zeigt seine Vorhersagekraft: wie oft wurde mit Hilfe des Scorewertes die richtige Kaufwahrscheinlichkeit prognostiziert.

ROC für Vorhersagekraft durch logistische Regression
Abb. 1: ROC für Vorhersagekraft des Scorecard für Produkt A