Auf die Tastaturen, fertig, los! – Makeathon 2020

Wir freuen uns sehr, ein Partnerunternehmen des diesjährigen Makeathons der Lichtwerkstatt Jena sein zu dürfen. Dieser findet im Rahmen der Photonics Days 2020 am 21. und 22. September statt. Dieses Jahr ist das gesamte vom Fraunhofer IOF und der Max Planck School of Photonics organisierte Netzwerkevent komplett online, bedeutet: Jeder kann von überall aus mitmachen!

Makeathon

Der Makeathon startet am 21. September 10 Uhr und endet 22 Uhr. Die Aufgabe wird darin bestehen, originelle hard- und softwarebasierte Lösungen für eine reale Problemstellung zum Thema Optik und Photonik zu entwickeln.

Klingt interessant? Dann schnell sein: Die Anmeldefrist wurde auf den 18. September bis 12 Uhr verlängert. Hier geht’s zur Registrierung. Wir freuen uns auf euch und eure Ideen!

Photonics Days

Die Photonics Days bieten eine gute Möglichkeit für Studierende und Promovierende sich mit Vertretern innovativer Unternehmen der Optik- und Photonikbranche zu vernetzen. Das Programm hält dabei vielfältige Möglichkeiten für spannenden Input bereit: Neben verschiedenen Keynotes und Pitches können sich Teilnehmende auf der digitalen Karriere-Messe am 22. September von Vertretern renommierter Unternehmen hinsichtlich Beruf und Bewerbung beraten lassen. Um bei all diesen Informationen einen kühlen Kopf zu bewahren und alles zu verarbeiten, sind natürlich auch Mittags- und Kaffeepausen im Programm eingeplant.

Wie überwinden wir den Survivorship Bias bei der Nutzersegmentierung?

Zunächst ein Throwback: Während des 2. Weltkriegs untersuchten die Engländer vom Einsatz zurückkehrende Flugzeuge auf ihre Schäden und Einschüsse. Ziel war es, die Panzerung der Flugzeuge daraufhin an den Stellen zu verstärken, wo besonders viele Einschüsse verzeichnet wurden.

Der Mathematiker Abraham Wald stellte jedoch damals klar, dass dieses Vorgehen einem Trugschluss unterliegt. Es wurden dabei nämlich nur die rückkehrenden Flugzeuge geprüft; also die, die den Einsatz überstanden hatten. Um die Rückkehrquote der Flieger zu verbessern, müssten jedoch die untersucht werden, die nicht zurückkehrten, also die abgestürzten Flugzeuge. Natürlich war das nicht möglich. Daher legte er nahe, vielmehr die Stellen zu verstärken, die nicht getroffen wurden; denn die beschädigten Bereiche der zurückgekehrten Flugzeuge hinderten die Maschinen augenscheinlich nicht am Fliegen.

Was ist der Survivorship Bias?

Es geht also beim Survivorship Bias darum (oder besser bei der Vermeidung dieser kognitiven Verzerrung), nicht dem Trugschluss zu erliegen, dass das vermeintlich naheliegendste zweifelsfrei als das „richtige“ angenommen wird. Es geht darum, nicht direkt sichtbare Ereignisse einzubeziehen und sich darüber bewusst zu werden, dass Erfolge überbetont wahrgenommen werden. In den scheinbaren Niederlagen liegen jedoch möglicherweise viel mehr Informationen, die es zu hinterfragen gilt. Es geht um einen bewussten Perspektivwechsel.

Survivorship Bias und Nutzersegmentierung im E-Commerce
Quelle: t.ly/lDxW / CC BY-SA 4.0

Wie passt das jetzt auf den E-Commerce und das Thema Nutzersegmentierung?

Der Sachverhalt lässt sich tatsächlich sehr gut auf das Analysieren der eigenen Zielgruppe im Online Business, prototypisch im E-Commerce, übertragen. Auch hier ist das Ziel klar: Mehr Kunden gewinnen, mehr Verkäufe generieren, mehr User zur Rückkehr bewegen.

Ich schaue mir im CRM an, wie die Kunden aussehen, die ich schon gewonnen habe. Denn über sie habe ich viele Informationen. Ich kenne ihre Käufe, ihr Geschlecht, ihren Wohnort, ihr Nutzerverhalten und einige Metadaten.  

Darauf aufbauend entwickle ich dann Personas, meine Kundenprofile, die ich wiederum als Basis für das Targeting verwende. Logisch: Ich analysiere, wer meine Kunden sind und suche nach Personen, die als potenzielle Neukunden in Frage kommen. Ich baue mir also über die passenden Eigenschaften entsprechende Schablonen und versuche neue Nutzer zu finden, die in diese Schablone passen. Über Targeting-Möglichkeiten wie Lookalike Audience kann ich diese sogar durch einige ihrer Eigenschaften gezielt „vermehren“ und mit Hilfe anderer Plattformen nach ähnlichen Nutzern Ausschau halten.

Dieses Vorgehen birgt jedoch eine Reihe von Problemen:

Im „klassischen“ Vorgehen ist die Gefahr also sehr hoch, dass ich dem Survivorship Bias unterliege; zumindest, wenn ich nicht konkret auf Bestandskundenentwicklung fokussiert bin, sondern Neukunden gewinnen möchte.

Denn: Nur diejenigen zu betrachten, die kaufen, sagt mir noch lange nicht, wie ich solche konvertiere, die nicht kaufen.

Wie kann ich den Survivorship Bias im Online Business minimieren?

Die (zu) einfache Antwort: Hört auf, Nutzer in Schablonen bzw. Schubladen zu pressen! Dieser antiquierte Ansatz ist weder dynamisch, noch hat er irgendetwas mit der Realität eurer Nutzer zu tun. Schablonen haben nur einen einzigen Sinn: Sie machen die komplexe Welt einfach, verständlich, handhabbar. Andererseits steht diese fälschlicherweise verkleinerte Welt fernab der Realität, die leider sehr komplex und chaotisch ist. Menschen lassen sich in ihrem Verhalten nicht in Schablonen pressen. Ein Kunde, der heute ein bestimmtes Verhaltensprofil hat, kann morgen oder übermorgen ein ganz anderes haben, mit anderen Zielen, Intentionen und Bedürfnissen. Das „klassische“, starre Segmentierungsvorgehen bildet diese Dynamik nicht ab. Kurz gesagt lasse ich als Unternehmer viel Potenzial ungenutzt.

Der Lösungsansatz: dynamischer und kundenorientierter!

Um mir ein umfängliches Bild über meine Nutzer zu verschaffen, darf ich mir nicht ausschließlich die Käufer anschauen, sondern muss ALLE Nutzer mit im Blick haben. Und um besser zu verstehen, wie ich Nutzer konvertiere, muss ich mir die anschauen, die nicht konvertieren. Ich muss vor allem die Dynamik des Nutzerverhaltens in die Analyse mit einbeziehen. Mir muss klar sein, dass sich Kundenbedürfnisse quasi mit jedem Besuch oder sogar während eines Besuches ändern können. Und darauf muss ich in irgendeiner Form reagieren können.

Der Einbezug von Metadaten und damit der zeitlichen Perspektive ist besonders wichtig. Diese geben Aufschlüsse über den aktuellen Nutzungskontext während des Seitenbesuchs und bei der Kaufentscheidung.

Wie überwinden wir den Survivorship Bias?

Als Lösung für die o.g. Probleme haben wir sogenannte Fluide Personas entwickelt. Sie sind unser Weg, mittels Künstlicher Intelligenz objektiv und datengetrieben das Verhalten aller Nutzer zu analysieren und auch die Signale der Nicht-Kunden miteinzubeziehen. Sie zeigen dabei bspw. nicht nur, welche Seiten gern aufgerufen werden, welches technische Setup (bspw. Browser oder Betriebssystem) die User nutzen und welcher Content, wann konsumiert wird. Fluide Personas geben auch einen direkten Überblick, wie diese Eigenschaften miteinander zusammenhängen hinsichtlich der Entscheidung zum Kauf – oder eben zum Nicht-Kauf.

Darüber hinaus berücksichtigen Fluide Personas das dynamische Verhalten der Nutzer, indem Sie wechselnde Verhaltensweisen in die Analyse einbeziehen. Dieses Wissen darum, was den Nutzern objektiv wirklich wichtig ist, nutzen wir dann, um für unsere Kunden eigene prädiktive Algorithmen zu entwickeln, um z.B. Content zu personalisieren oder Strategien für die Content Kreation und dessen Distribution über verschiedene Kanäle abzuleiten.

Datengetriebene Nutzersegmentierung

Die wenigsten Agenturen und Unternehmen besitzen die richtigen Prozesse, Ressourcen und Technologien für explorative, datengetriebene Nutzersegmentierungen.

Wir ändern das.

Data Roles, same same but different?

Eine Google-Suche reicht aus, um auf schier endlose Jobbezeichnungen im Data Science Bereich a.k.a. Data Roles zu stoßen. Bei näherer Betrachtung wird deutlich: Es gibt weder einheitliche Definitionen dieser Tätigkeitsfelder noch lassen sie sich konkret voneinander abgrenzen. Um das zu verdeutlichen, stellen wir im Folgenden einige vor.

Diverse Anforderungsprofile: Data Roles

Für einen Datenmehrwert im Unternehmen braucht es sowohl die entsprechenden Data Skills als auch die jeweiligen Verantwortlichen für verschiedenste datenbezogene Aufgabenstellungen. Das Verknüpfen unterschiedlicher Infrastrukturkomponenten sowie die Bereinigung und Analyse der bestehenden Datenmengen wird erst durch das Zusammenspiel der verschiedenen Data Roles möglich.

Die Dynamik des Arbeitsmarkts, vor allem im Bereich Künstlicher Intelligenz, sorgt jedoch dafür, dass scheinbar täglich neue Jobs und Jobbezeichnungen aus dem Boden sprießen und eine trennscharfe Abgrenzung dieser gar nicht mehr so leichtfällt. Eine Methode, sich in diesem Dschungel zurechtzufinden, ist den Fokus mehr auf die Data Skills der einzelnen Akteure zu legen. Was wir damit meinen, sehen Sie hier:

In dieser Grafik lassen sich alle Data Roles entsprechend ihrer erforderlichen Skill Sets verorten. Um zu zeigen, wie nah einige dieser Data Roles beieinander liegen, folgen nun einige Beispiele:

Data Engineer

Der Dateningenieur oder auch ETL-Ingenieur (Extrahieren, Transformieren, Laden) ist in den Unternehmensdatenbanken und Verarbeitungssystemen zuhause. Hier kümmert er sich um die Dateninfrastruktur, baut Datenpipelines und stellt die komprimierten Daten für die weitere Verwertung zur Verfügung.

Wenn Sie einen tiefergehenden Einblick in die Arbeit des Data Engineers erhalten wollen, dann klicken Sie hier.

Machine Learning Operations

Machine Learning Operations (kurz MLOps) sorgen für reibungslose Abläufe innerhalb des ML-Entwicklungsprozesses. ML-Operator stellen sicher, dass alle benötigten Tools zur Verfügung stehen, die Infrastruktur und Umgebungen zugänglich sind. Damit sorgen sie auch für die reibungslose Zusammenarbeit und Kommunikation zwischen Datenwissenschaftlern und IT-Spezialisten bei der Umsetzung und Automatisierung von ML-Algorithmen.

ML-Operator stellen sicher, dass der ML-Lebenszyklus effizient, gut dokumentiert und mögliche Probleme einfach zu beheben sind. Die Anforderungen, die sie an Machine Learning stellen sind Reproduzierbarkeit, Kollaboration, Skalierbarkeit und Kontinuität. Ihre Arbeit ist dadurch mit Development Operations (DevOps) vergleichbar, jedoch konkret auf die Anforderungen von Machine Learning zugeschnitten.

Data Scientist

Neben Big Data ist Data Science wohl DAS Buzzword der letzten Jahre. Doch viele Unternehmen und Entscheider überschätzen die Kernaufgaben eines Data Scientists wahrscheinlich noch. Natürlich kann diese Stelle mit einem wahren Allrounder besetzt werden, aber das sagenumwobene Data Unicorn gibt es (leider?) trotzdem nicht.

Zum Aufgabenbereich des Data Scientists gehören bspw. die Auswahl der passenden Methoden, die Entwicklung von Vorhersagemodellen oder auch die Optimierung von Neuronalen Netzen. Mit Hilfe dieser lassen sich zukünftige Ereignisse vorhersagen und dementsprechend Entscheidungen treffen. Data Scientists sorgen also dafür, den größtmöglichen Nutzen aus den verfügbaren Unternehmensdaten zu ziehen.

Auf einem umkämpften Bewerbermarkt sind Datenwissenschaftler ein begehrtes Gut. Effektive Data Scientists sind geübt im Zusammenspiel mit Backend- und Frontend-Entwicklern, kennen agile Arbeitsmethoden und aktualisieren stetig ihren Methodenkoffer.

Data Analyst

Der Data Analyst leistet vergleichbare Arbeit wie der Data Scientist. Er behält die Unternehmensdaten stets im Blick, um schnellstmöglich Auffälligkeiten darin zu identifizieren und darauf reagieren zu können. Zudem bereinigt der Data Analyst die Daten, analysiert sie (obviously), führt Testläufe durch und leitet seine Ergebnisse an andere Unternehmensstellen weiter.

Die genaue Unterscheidung von Data Analyst und Data Scientist ist gar nicht so leicht. Ein Unterschied zwischen den beiden Data Jobformen ist aber bspw., dass der Datenanalyst geschäftskritische Fragestellungen von anderen Abteilungen (z.B. Marketing) entgegennimmt und nach einer Lösung dafür sucht. Der Data Scientist hingegen formuliert Fragestellungen an einen Datensatz in der Regel selbst.

Statistician

Der Statistiker sorgt mit Fachwissen aus der Mathematik für eine andere Perspektive auf die Daten. Dadurch kann er bspw. bestimmen, welche Methode der Datenerfassung sich für einen bestimmten Zweck am besten eignet. Mit seiner logischen Denkweise sammelt er die Daten, wandelt sie in Informationen um und liefert daraus nützliche Erkenntnisse. Zudem liegt ihm auch die Entwicklung analytischer Modelle und mathematischer Algorithmen.

Die besondere Datenkompetenz des Statistikers sorgt vor allem dafür, voreilige Schlüsse über die Daten bzw. den Datensatz zu verhindern. Nur weil bspw. eine Machine Learning Methode in einem Data Set funktioniert hat, lässt sich dies nicht automatisch auch auf andere übertragen. Statistiker helfen so Entscheidern, über die analysierten Daten hinaus zu sinnvollen Schlussfolgerungen zu kommen.

Business Analyst

Die Rolle des Business Analysts unterscheidet sich wohl am meisten von den hier bisher aufgeführten. Im Gegensatz zu den anderen Data Roles hat er weniger tiefgreifendes Technikwissen, dafür aber umso mehr Verständnis für die verschiedenen Unternehmensprozesse.

Der Business Analyst verwandelt die gefundenen Data Insights in umsetzbare Business Strategien, um das Unternehmen weiter voranzubringen. Das macht ihn zum Sprachrohr zwischen Data Unit und Entscheidungsträgern. Als Industrie-Insider erkennt er zudem die wichtigsten Trends und hält die kosteneffektivsten Lösungen für das Unternehmen bereit.

Kommen wir also zurück zur vorgestellten Grafik und schauen uns an, wo sich die einzelnen Data Roles dort verorten lassen:

Verortung der einzelnen Data Roles

Hier wird ersichtlich, wie nah die einzelnen Rollen in ihren Skill Sets beieinander liegen. Bereits bei der Beschreibung wurde deutlich, dass sich bspw. die Aufgabenbereiche von Data Scientist und Data Analyst stark ähneln. In der Grafik wird diese Similarität noch einmal mehr als deutlich.

Die Zusammenstellung des Teams

Bei der Zusammensetzung des Data Science Teams spielen vor allem die Unternehmensgröße und die umzusetzenden Ziele eine entscheidende Rolle. Sicher ist es bspw. für ein kleineres Unternehmen mit überschaubaren Ressourcen nicht sinnvoll (und vor allem nicht nötig), eine Vielzahl an Data Roles besetzen zu wollen.

Vielmehr sollte anfangs darauf geachtet werden, eher weniger Personal, dafür aber mit einem breiten Kompetenzspektrum, einzustellen; also mit breiteren Data Skills. Wächst das Unternehmen und damit auch Budget und Anforderungen an das Data Team, kann der Fokus auf einen größeren Ausbau der einzelnen Data Roles gelegt und eine stärkere Spezialisierung der einzelnen Mitglieder angestrebt werden.

Zentraler oder dezentraler Aufbau?

Für viele Unternehmen stellt sich weiterhin die Frage, ob ein zentrales oder dezentrales Data Science Team sinnvoller ist. Die zentrale Lösung steht für die Bündelung der einzelnen Team Mitglieder an einem Ort, ein sogenanntes Data Science Competence Center. Dezentral hingegen sind einzelne Data Scientists o. ä. in den verschiedenen Fachabteilungen eingesetzt. Auch hier müssen vor allem die Unternehmensgröße und die individuelle Data-Strategie des Unternehmens beachtet werden.

Möchten Sie auch ein eigenes Data Science Team aufbauen oder sind vielleicht sogar schon dabei? Egal, was Sie vorhaben:

epicinsights hilft Ihnen mit hochspezialisierten Consultants und vielen Jahren Projekt-Erfahrung. Mit einem umfassenden Tech-Stack und unserer eigenen Big Data-Infrastruktur realisieren wir für Sie maßgeschneiderte Data-Lösung und unterstützen Sie auch beim Aufbau datenzentrierter inhouse Teams und Anwendungen.

Haben wir Ihr Interesse geweckt?

Schreiben Sie uns

Unterschätztes Potenzial von Data Engineering

Für eine erfolgreiche Datennutzung im Unternehmen braucht es entsprechend kundiges Personal. Viele denken dabei vermutlich sofort an Data Scientists, da diese für eine saubere Auswertung der Daten essenziell sind. Doch nur die Zusammenarbeit mit einer anderen Teamrolle führt letztendlich zum Erfolg. Die Rede ist von Data Engineers.

Das Berufsbild eines Data Engineers

Der Data Engineer bildet quasi das erste Glied in der Data Science-Kette. Sein Arbeitsgebiet sind die Unternehmens-Datenbanken. Da die hier liegenden Daten meist in verschiedenen Formaten gespeichert sind, besteht die Hauptaufgabe des Daten Ingenieurs darin, diese zugänglich und für spätere Analysen auswertbar zu machen. Dafür baut er Datenpipelines und -plattformen, mit deren Hilfe die Daten zusammengeführt und systematisiert werden. Er stellt so die Grundlage für die Arbeit der Data Scientists her.

Drei Perspektiven auf den Daten Ingenieur

Die konkreten Aufgabenbereiche von Data Engineers variieren je nach Unternehmensgröße. So lassen sich bspw. diese drei Formen von Data Engineering unterscheiden:

Data Engineering vs. Data Science?

Grundlegend stellen Data Engineers also strukturierte Daten für die weitere Arbeit der Data Scientists zur Verfügung. Der Fokus des Data Engineers liegt auf der passenden Kombination der Software-, Hardware- und Datenbank-Architekturen des Unternehmens. Wichtige Themengebiete sind hierbei die Datensicherheit bzw. der Datenschutz, die Datenqualität und die IT-Sicherheit. Sie sorgen für die Verfügbarkeit und Verwertbarkeit der Daten innerhalb der nachfolgenden Unternehmensprozesse.

Data Engineers und Data Scientists stehen daher in enger Zusammenarbeit, teilweise überschneiden sich ihre Aufgaben auch. Die Arbeit der Data Engineers ist vom eigentlichen Ergebnis der Analysen und dem Projektbericht in der Wertschöpfung sicher weiter entfernt. Doch sie sind es, die für die erfolgreiche Vernetzung zwischen den verfügbaren Rohdaten und allen Abteilungen, die für ihre Arbeit auf diese Daten angewiesen sind, sorgen. Erst durch Data Engineers werden Use Cases ermöglicht wie die Aufnahme und Speicherung großer Datenmengen (also Big Data) und die Automatisierung der Machine Learning Modelle und Algorithmen.

Data Engineering in Ihrem Unternehmen

Die voranschreitende Digitalisierung stellt viele Unternehmen vor eine Herausforderung. Deshalb ist es wichtig, möglichst frühzeitig das große Potenzial von Data Engineers zu erkennen – besonders, wenn man im Bereich KI und Data Science noch am Anfang steht – und eine entsprechende Rolle im Team vorzustehen. Für die immer komplexer werdenden IT-Infrastrukturen, Datenanalysen und das Datenmanagement sind Entscheider auf (daten-)kompetentes Personal angewiesen.

Haben Sie das Potenzial von Data Engineering erkannt? Egal wie groß Ihr Unternehmen ist: We enable AI for your business.

epicinsights hilft Ihnen mit hochspezialisierten Consultants und vielen Jahren Projekt-Erfahrung. Mit einem umfassenden Tech-Stack und unserer eigenen Big Data-Infrastruktur realisieren wir für Sie maßgeschneiderte Data-Lösung und unterstützen Sie auch beim Aufbau datenzentrierter inhouse Teams und Anwendungen.

Haben wir Ihr Interesse geweckt?

Schreiben Sie uns eine E-Mail

Was sind 5 wichtige Methoden für Data Mining-Tools?

Auch wenn Ihnen Künstliche Intelligenz (alias KI oder AI) bereits etwas sagt; bevor wir mit der Liste der gängigsten Data Mining Methoden starten, stellt sich dann vielleicht doch noch eine andere, entscheidende Frage:

Was ist Data Mining überhaupt?

Bei Data Mining handelt es sich um die Erforschung, Analyse und Auswertung großer Datenmengen. Auf der Suche nach versteckten Mustern und Strukturen werden vor allem Big Data-Bestände „geschürft“. Mit den gewonnenen Datenerkenntnissen lassen sich Unternehmensentscheidungen automatisieren, präzise Prognosen und Vorhersagen treffen und langfristig Kosten senken. Mit Data Mining ist es möglich, die versteckten Geschichten im Datenchaos einer Marke zu lokalisieren. Die Entwicklung intelligenter Softwarelösungen steht und fällt mit dem Erschließen solcher Dark Data.

Sie suchen maßgeschneiderte Big Data Analytics-Lösungen?

Lagermanagement-Artikeldetails-Bestände-Verfügbarkeit

Data Mining Methoden

1 Clusteranalyse

Bei der Clusteranalyse wird die zumeist riesige Datenmenge in kleinere Gruppen (Cluster) eingeteilt. Dafür werden Ähnlichkeiten innerhalb der Daten analysiert und auf Grundlage dieser die Gruppen gebildet. Für eine genaue Abgrenzung der Gruppen untereinander müssen die Unterschiede zwischen ihnen möglichst groß sein.

Die Einsatzbereiche von Clusteranalysen sind vielfältig. Eine typische Marketinganwendung ist zum Beispiel die Segmentierung nach Zielgruppen. So werden Personen mit übereinstimmenden Eigenschaften entsprechenden Clustern zugeordnet, um im Folgenden die passenden Produkte oder Angebote an sie auszuspielen.

2 Klassifizierung

Die Klassifizierung oder Klassifikation ist eine der beliebtesten Data Mining Methoden in der Praxis. Im Unterschied zur Clusteranalyse sind die Gruppen, in diesem Fall die Klassen, denen die Daten auf Grund ihrer Eigenschaften zugeordnet werden, bereits vordefiniert. Die Zuordnung der sogenannten Trainingsdaten zu diesen Klassen erfolgt durch bestimmte Entscheidungsregeln. Die wesentlichen Klassifikationsverfahren sind Entscheidungsbäume, Künstliche Neuronale Netze, die Bayes-Klassifikation und das k-Nächster-Nachbar-Verfahren. Eine davon möchte ich kurz vorstellen:

Künstliche Neuronale Netzwerke (KNN)

Wie die Bezeichnung bereits suggeriert, ist dieses analytische Modell der Arbeitsweise des menschlichen Gehirns nachempfunden. Erstaunlich ist, dass das Verfahren bereits in den 1940ern entwickelt wurde, jedoch erst in den letzten Jahren große Beliebtheit erlangte. Wie beim Original handelt es sich auch hier um ein Netz unabhängiger, in Schichten (sog. Layers) aufgebauter Neuronen. Diese Schichten sind untereinander verbunden. Zumeist besteht das Netz nur aus einer Ein- und Ausgabeschicht. Manche Künstliche Neuronale Netzwerke weisen dazwischen jedoch noch weitere Schichten auf. Eine Besonderheit der KNN ist ihre Lernfähigkeit mittels Trainingsdaten.

3 Regressionsanalyse

Die Regressionsanalyse trifft Vorhersagen mit Hilfe erkannter Beziehungen innerhalb des Datensatzes. Sie deckt den Zusammenhang zwischen einer abhängigen und einer oder mehrer unabhängigen Variablen auf. Die verfügbaren Daten prognostizieren so zukünftiges Verhalten. Es gibt grundlegend zwei Arten von Regression:

4 Assoziationsanalyse

Die Assoziationsanalyse dient der Identifikation von Elementen, die häufig miteinander auftreten, also im Zusammenhang stehen. Die dafür benötigten Assoziations- bzw. Abhängigkeitsregeln resultieren aus den erkannten Häufigkeiten innerhalb der Datenmenge.

Ein einfaches Beispiel für diese Data Mining Methode ist die Warenkorbanalyse. So untersuchen bspw. Lebensmittelgeschäfte, welche Produkte häufig zusammen im Warenkorb der Kunden landen. Als Resultat könnten sie ihre Märkte so aufbauen, dass Produkte, die meist zusammen gekauft werden, möglichst weit von einander entfernt angeboten werden. Auf der Suche nach dem gewünschten Produkt müssten die Kunden erst an einer Vielzahl anderer vorbei, was ihren Warenkorb mehr füllen könnte als ursprünglich geplant.

5 Anomalieerkennung (Anomaly Detection)

Der Name ist Programm: Die Anomalieerkennung identifiziert in einem Datensatz von der Norm abweichende Muster und unvorhergesehenes Verhalten, sogenannte Outliers. Die Methode kommt bspw. bei der frühzeitigen Erkennung von Fraud-Aktivitäten zum Einsatz. Allgemein gibt es drei Anomalie-Kategorien:

Die Charakterisierung verschiedener Anomalien ist wichtig, um für ihre Erkennung den passenden Algorithmus zu wählen.

Data Mining im Unternehmen

Die Weiterentwicklung von Geschäftsprozessen basiert zunehmend auf datengetriebenen Entscheidungen. Die Wettbewerbsfähigkeit steht und fällt also mit der korrekten Applikation von Data Mining. Der Schlüssel dazu ist ein funktionales Data Science-Team. Sie kennen ihren Werkzeugkasten und die richtigen Kniffe. Doch Data Scientists allein reichen nicht aus. Eine weitere Baustelle ist die Datenbeschaffung aus verschiedenen Quellen.

epicinsights hilft Ihnen mit hochspezialisierten Consultants und vielen Jahren Projekt-Erfahrung. Mit einem umfassenden Tech-Stack und unserer eigenen Big Data-Infrastruktur realisieren wir für Sie maßgeschneiderte Data-Lösung und unterstützen Sie auch beim Aufbau datenzentrierter inhouse Teams und Anwendungen.

Von der Daten-Extraktion bis hin zur Modell-Evaluation bieten wir Ihnen nachhaltige und maßgeschneiderte Softwarelösungen.

Mensch-Profil-Treppe-Balkendiagramm

Wie erreichen wir Data Literacy, die Alphabetisierung im KI-Zeitalter?

Data Literacy, zu dt. Datenkompetenz, bezeichnet die Fähigkeit, auf kritische Art und Weise versiert mit Daten umzugehen und diese kontextuell bewusst einzusetzen. Sie unterteilt sich in verschiedene Einzelkompetenzen wie Datenerfassung, -analyse oder -visualisierung. Besonders der Bereich Big Data erfordert eine neue Form der Alphabetisierung.

Wieso sollte jeder ein Datenliterat sein?

Für unsere heutige, digital-durchdrungene Gesellschaft ist die Datenkompetenz der einzelnen Mitglieder essenziell. Nur so kann die Digitalisierung umfassend vorangetrieben werden. Im Zuge dessen wird sich auch die Arbeitswelt verändern; sie wird zunehmend datengetrieben. Somit wird Data Literacy zukünftig zur Grundkenntnis, die Arbeitnehmer brauchen, um nicht auf der Strecke zu bleiben. Immer mehr Unternehmen erkennen, wie kostbar Daten für ihren wirtschaftlichen Erfolg sind und welcher Wettbewerbsvorteil der richtigen Nutzung von Zero Party Data oder Big Data-Technologien innewohnt. Daher ist es für sie von großer Wichtigkeit, dass auch ihre Mitarbeiter, durch alle Abteilungen hindurch, den Wert von geschäftskritischen Daten erkennen und in der Lage sind, deren Informationsgehalt zielführend und kompetent für ihre Arbeit zu nutzen.

Doch auch außerhalb des Jobs ist der kritische Umgang mit Daten und Informationen im Allgemeinen zu einer wichtigen Fähigkeit geworden. In Zeiten einer alles umfassenden Digitalisierung, Fake News und Smart Devices gilt es, neue Technologien und Informationen mit einem gesunden Maß an Skepsis einzuordnen und nicht allen Heilsversprechen blind zu vertrauen.

Ein amüsantes Beispiel, wie sogar reale Daten im falschen Kontext täuschen können, zeigt die Website tylervigen.com. Hier finden sich die absurdesten (Nicht-)Korrelationen, dargestellt in professionell anmutenden Diagrammen. Auf Grundlage dessen könnte bspw. angenommen werden, dass es einen Zusammenhang zwischen der Zahl an Menschen, die in einem Pool ertranken und Filmen, in denen Nicolas Cage mitspielte, gäbe. Das lassen wir jetzt einfach mal so stehen. 😉

Datenkompetenz in Zeiten der Corona Krise

Besonders jetzt, in der unsicheren Lage der Corona Krise, wollen sich Menschen auf die vermeintlich sicheren Daten verlassen, die täglich aktualisiert und neu veröffentlicht werden. Doch warum das nicht so einfach geht, erklärt Katharina Schüller auf dem Blog des Hochschulforums Digitalisierung. So können die berechneten Modelle zur Verbreitung und Sterblichkeitsrate des Virus nur vage Aussagen über die Wirklichkeit treffen. Die vorhandenen Daten seien für eine zuverlässigere Berechnung unzureichend und nicht repräsentativ. Vor allem aber die exponentielle Ausbreitung des Virus mache eine Prognose schwer.

Ein Beispiel für die mögliche Fehlinterpretation der Daten birgt die Betrachtung von Neuinfektionen mit Covid-19. Diese mit den verhängten Ausgangsbeschränkungen allein zu korrelieren, sei falsch, meint Schüller. So lässt sich die gesteigerte Infektionsrate u.a. auf ein neuartiges Testverfahren zurückführen, das schnellere und damit mehr Tests von Verdachtsfällen ermöglicht.

Ein kritischer Blick auf diese Zahlen ist also wichtig, um nicht in Panik zu verfallen, aber den Ernst der Lage auch nicht zu unterschätzen. Erst in den nächsten Wochen wird sich wirklich zeigen, wie erfolgreich die getroffenen Maßnahmen zur Eindämmung des Virus sind.

Wie erreichen wir Data Literacy?

Datenkompetenz an Schulen und Hochschulen

Ein erster Schritt nachhaltiger Datenkompetenz innerhalb der Gesellschaft ist das entsprechende Lehr- bzw. Lernangebot, beginnend in der Schule. Um bei der Digitalisierung nicht abgehängt zu werden, müssen die Datenexperten von morgen bereits heute an das Thema herangeführt werden. Durch passende Angebote in den Schulen bzw. die direkte Integration von Data Science Aspekten in die einzelnen Fächer, würden Schüler von Anfang an für den Umgang mit Daten sensibilisiert werden. Diese Kenntnisse wären ein wichtiger Grundstein für ihren weiteren (digitalen) Werdegang.

Um dieses Ziel zu erreichen, muss jedoch noch einen Schritt weiter gedacht werden. Schüler können Datenkompetenz nur von datenkompetentem Lehrpersonal erlernen. Dafür muss es auch an Hochschulen entsprechende Studienangebote geben. Doch nicht nur angehenden Lehrern müssen die einzelnen Komponenten von Data Literacy vermittelt werden. Vielmehr müssen die entsprechenden Lehrveranstaltungen studienübergreifend sein, um Studierenden aller Fächer den kompetenten Umgang mit Daten zu vermitteln. Nur so erreicht die Digitalisierung zukünftig alle Branchen und Fachbereiche.

Datenkompetenz im Unternehmen

Auch Unternehmen müssen zunehmend data driven werden, um wettbewerbsfähig zu bleiben. Natürlich braucht es dazu ausgebildetes Fachpersonal, sprich Data Scientists. Sie wissen, wo sich die wertvollen Daten verstecken, wie sie zu interpretieren und schlussendlich als ultimativer Wettbewerbsvorteil einzusetzen sind. Doch Data Scientists allein reichen nicht aus. Auf allen Ebenen sind deshalb Datenliteraten notwendig, die genau wissen, wie sie die vorhandenen Daten für ihre Arbeit nutzen können. Weiterbildungen und Beratungsangebote sind ein guter Schritt, dieses Ziel zu erreichen.

epicinsights hilft Ihnen, in der Datenflut nicht unterzugehen. Unser Team aus hochspezialisierten Consultants und Data Scientists mit jahrelanger Projekterfahrung unterstützt Sie auf Ihrem Weg zur Digitalisierung. Aus unseren vielfältigen Angeboten entwickeln wir für Sie eine maßgeschneiderte Data-Lösung und helfen Ihnen auch beim Aufbau datenzentrierter inhouse Teams und Anwendungen.

Wir stehen Ihnen bei der Digitalisierung zur Seite.

Lassen Sie sich beraten!

Was unterscheidet schwache KI & starke KI?

Künstliche Intelligenz (im engl. abgekürzt als AI) ist bereits heute nicht mehr aus unserem Alltag wegzudenken. Privatpersonen kommen bspw. über Sprachassistenten und Produktempfehlungen tagtäglich mit Künstlicher Intelligenz in Berührung. Unternehmen profitieren vor allem bei ihrer Datenanalyse von der Schnelligkeit und Zuverlässigkeit von KI. In beiden Fällen handelt es sich um Narrow AI / Artificial Narrow Intelligence; zu deutsch: schwache KI.

Diese Form Künstlicher Intelligenz ist erst der Anfang. Die nächste Stufe wird als General AI (bzw. Artificial General Intelligence) bezeichnet. Und sogar darauffolgend soll es mit Super AI (bzw. Artificial Super Intelligence) irgendwann eine weitere KI-Evolution geben. Aber beginnen wir in der Gegenwart.

Entwicklungsstufen von AI

Narrow AI

Wir befinden uns aktuell auf der ersten Entwicklungsstufe Künstlicher Intelligenz. Hierbei wird KI in der Regel nur für eine spezifische, vordefinierte Aufgabe genutzt. Das liegt unter anderem daran, dass schwache Künstliche Intelligenzen die benötigten Informationen lediglich aus bestimmten Datensätzen entnehmen und somit an diese gebunden sind. Im Alltag sind viele mit solchen KI-Systemen bereits, bewusst oder unbewusst, in Berührung gekommen. Man findet sie z.B in Sprachassistenz-Systemen oder bei der Online-Bildersuche. Auf ihrem entsprechenden Gebiet agieren die Systeme aber in Echtzeit und übertreffen in ihrer Arbeit bereits häufig menschliche Effizienz.

General AI

Im Gegensatz zu schwacher KI kennt General AI keine Beschränkungen. Die Systeme sind imstande, ihr Wissen und ihre Fähigkeiten in den verschiedensten Kontexten anzuwenden. Sie führen jede ihnen gestellte Aufgabe aus und agieren dabei auf demselben Niveau wie ein Mensch, vermutlich sogar weitaus schneller und effizienter. Von General AIs wird erwartet, dass sie argumentieren, unter Unsicherheit urteilen, planen und sogar einfallsreich und kreativ sein können.

Diese Form Künstlicher Intelligenz ist bisher nur Science-Fiction. Bis wir künstliche Assistenten wie „Jarvis“ aus Ironman haben werden oder uns sogar in solche Systeme verlieben, wie im Film Her, dauert es wohl noch. Experten sind sich uneinig, ob und wenn ja, wann General AI Wirklichkeit wird. Die Schätzungen reichen von 2030 bis 2060.

Super AI

Artificial Super Intelligence ist vorerst die letzte Entwicklungsstufe, die wir uns mit heutigem Wissen vorstellen können. Dank dystopischer Science-Fiction-Filme fürchtet sich vermutlich ein Großteil davor. Super AI übersteigt die menschliche Intelligenz um ein Vielfaches. Kein Wunder, dass es längst unzählige düstere Zukunftsvisionen gibt, in denen Maschinen die Weltherrschaft übernehmen. Wird es wirklich soweit kommen??

Ray Kurzweil, Director of Engineering bei Google, ist sich sicher: „KI wird uns nicht verdrängen, sie wird uns verbessern„. Statt eines erbitterten Machtkampfes, würden Menschen und Maschinen viel mehr co-existieren. Vor allem die Menschheit würde von dieser Symbiose profitieren. Laut Kurzweil soll es uns bis 2045 mit Hilfe einer hybriden KI möglich sein, eine Neocortex-Verbindung zu Cloudsystemen, sogar zu anderen Menschen, herzustellen. Die Daten, auf die wir damit über unser Gehirn zugreifen könnten, wären quasi unendlich. Das würde nicht nur die technische Evolution rasant voranbringen, sondern auch unsere eigene.

Bis jetzt liegen General und Super AI noch in unerreichbarer Ferne. Niemand kann mit Sicherheit sagen, wann wir die erste der beiden Stufen wirklich erreichen werden. Experten gehen jedoch davon aus, dass der nächste Schritt zwischen den beiden KI-Formen vergleichsweise klein ausfallen wird.

In bestimmten Feldern übertrifft KI heute schon die menschliche Leistungsfähigkeit. Insbesondere dann, wenn es um die schnelle Verarbeitung von vielen Informationen in kürzester Zeit und das Erkennen von datenseitigen Mustern geht. Durch unsere Fähigkeiten, wie abstraktes, kreatives Denken, der Entwicklung von Strategien oder der Entscheidungsfindung basierend auf Erfahrungen und Erinnerungen, sind wir KI-Systemen in komplexen Situationen noch weit überlegen. Vor allem dann, wenn es um die Kombination von mehreren Wahrnehmungsebenen und nicht rein logikbasierte Aufgaben geht. Diese komplexen Strukturen künstlich in eine Maschine zu replizieren, stellt aktuell eine unüberwindbare Hürde dar. Auch die Rechenleistung, mit der unser Gehirn Daten verarbeitet, kann zu diesem Zeitpunkt kein Computer der Welt aufbringen.

epicAi

Ein Beispiel für die Leistungsfähigkeit schwacher KI ist unser hauseigenes KI-Framework epicAi. Integriert in einen Onlineshop erfasst und analysiert die Künstliche Intelligenz Verhaltensdaten und segmentiert vollkommen unbekannte Nutzer binnen Millisekunden anhand ihrer Eigenschaften und Interessen. Mit Hilfe unserer sogenannten Fluiden Personas wird die Veränderlichkeit der unterschiedlichen Nutzersegmente nachvollziehbar. Dadurch werden neue, bisher ungeahnte, Handlungsoptionen sichtbar.

Augmented Data Discovery at its best.

Zero Party Data – ein neuer Weg zur Personalisierung

Mit den Zero Party Data erscheint ein neuer Datentyp auf der Marketing-Bildfläche. Aber was hat es damit überhaupt auf sich? Um auf diese Frage eine Antwort zu finden, beginnen wir das Thema Datenanreicherung zunächst etwas allgemeiner:

Welche Consumer-Datentypen gibt es?

First Party Data

First Party Data sind Daten, die aus der Interaktion zwischen Unternehmen und Kunden stammen. Sie werden in der Regel während des Kaufprozesses generiert. Dazu zählen beispielsweise Cookies oder Klickpfade. Die auf diese Weise gesammelten Daten unterliegen den Datenschutzrichtlinien des Unternehmens.

Dieser Datentyp ist reich an wertvollen Verhaltensdaten und Informationen über frühere Käufe. Die First Party Data zeigen, wie ein Kunde mit der Marke interagiert oder wie sich sein (Kauf-) Verhalten über die Zeit hinweg verändert. Sie bilden das Fundament für den Aufbau von Kundenstammdaten. Zukünftige Kaufabsichten können über diese historischen Daten jedoch nur erahnt werden. Vorhersagen sind somit implizit und unzuverlässig. Die Erschließung neuer Zielgruppen ist allein mit diesem Datentypen nicht möglich.

Second Party Data

Diese Daten stammen aus der Hand eines anderen Unternehmens bspw. im Rahmen einer Kooperation. Meine Second Party Data sind also die First Party Data eines Geschäftspartners. Die Verwendung und Nutzung dieser Daten sind durch die Datenschutzbestimmungen beider Unternehmen limitiert.

Mit den Second Party Data überwinde ich die Beschränkungen der First Party Data. Mit dem verbesserten Datenmix habe ich unter anderem die Möglichkeit, meine Reichweite und die Effektivität von Kampagnen zu steigern. Die Vorhersage von zukünftigem Kaufverhalten ist treffsicherer als beim ersten Datentyp.

Third Party Data

Als Third Party Data werden Daten bezeichnet, die von Drittanbietern generiert werden. Meist regelt ein Kaufvertrag ihre Nutzung. Third Party Data umfassen zum Beispiel demografische Informationen von Nutzern und geben weiterhin Rückschlüsse auf deren Interessen und (Kauf-) Absichten. Mit Third Party Data kann ich meine Kundenstammdaten um relevante Informationen ergänzen.

Benötige ich spezielle Datensätze oder eine sehr große Datenmenge, sind Third Party Data hilfreich. Die schnelle Verfügbarkeit und der Umfang vorliegender Daten sind große Vorteile dieses Datentyps. Jedoch steht deren Datenqualität in Verruf, da sie oft aus einer Vielzahl nicht miteinander in Verbindung stehender und unzuverlässiger Quellen stammen. Sie können dadurch auch schnell veralten und meine Datenqualität negativ beeinflussen. Weiterhin kritisch ist der Datenschutzaspekt. Um die personenbezogenen Daten erheben und nutzen zu können, muss der Kunde darüber informiert werden, was mit seinen Daten geschieht und dem einwilligen.

Zero Party Data

Nun aber zu den Zero Party Data. Diese stellt der Kunde dem Unternehmen bereitwillig und proaktiv zur Verfügung. Marketer sammeln diese Daten, indem sie sich direkt mit den Nutzern in Verbindung setzen und deren Bedürfnisse abfragen.

Statt auf implizite und teilweise ungenaue Kundendaten zu setzen, können Marketer nun konkrete Aussagen und Informationen ihrer Zielgruppe verarbeiten. Das wirkt sich positiv auf die Personalisierung von Dienstleistungen, Angeboten und Produktempfehlungen aus.

Welche Vorteile bieten Zero Party Data?

In Zeiten von Datenschutzskandalen sind Verbraucher vorsichtiger, wie viele ihrer persönlichen Daten sie preisgeben. Weiterhin sind auch Marketer durch die DSGVO eingeschränkter, was das Sammeln und Auswerten von Verbraucherdaten betrifft. Die Zero Party Data bieten hierbei einen Kompromiss mit Vorteilen für beide Seiten.

Die konkrete Ansprache und Befragung der Kunden ermöglicht Marketern, ungefilterte Daten direkt von der Zielgruppe zu erhalten. Auch die Kundenbindung und das Vertauen in die Marke können sich so verbessern. Die Verbraucher sind aktiv in Marketingentscheidungen eingebunden und können im Umkehrschluss direkter angesprochen werden. Privatsphäre und Personalisierung müssen sich also nicht ausschließen.

Die Zero Party Data sind zudem weitaus aktueller als Drittanbieterdaten und spiegeln mit größerer Wahrscheinlichkeit die genauen Bedürfnisse der Verbraucher wider. Für Marketer bedeutet das die Steigerung ihrer Datenqualität, da sie nicht mehr nur auf implizite und veraltete Informationen setzen müssen. Zudem kommt es mit den zuverlässigen Zero Party Data zur Datenanreicherung.

Consumerdatentypen

Wie erhalte ich Zero Party Data?

Natürlich braucht es gewisse Anreize, Kunden persönliche Daten zu entlocken. Hierfür gibt es verschiedene Möglichkeiten.

Unternehmen können bspw. Gewinnspiele durchführen, die mit der Teilnahmebedingung verbunden sind, ein paar persönliche Angaben zu machen. Eine ähnliche Option sind Rabatte im Austausch gegen Daten. Auch kurze Fragebögen mit dem Ziel der Personalisierung von Produktempfehlungen sind sowohl für Kunden als auch Marketer sehr hilfreich.

Gleichwohl können auch die Kunden den ersten Schritt machen und selbst aktiv werden, zum Beispiel über Interaktionen und Beiträge auf Social Media. Diese können Unternehmen zur Orientierung für neue Marketingstrategien dienen. Auch User-Mails mit Fragen oder Kritik bzw. Dialoge mit Chatbots können für diese Zwecke ausgewertet werden.

Der Einsatz der passenden Methode liefert Ihnen möglicherweise ganz neue Informationen über Ihre Zielgruppe, deren Wünsche und Erwartungen an Ihre Marke. Dabei sollte jedoch vor allem Transparenz im Vordergrund stehen. Die Nutzer müssen darüber informiert werden, wofür sie ihre Daten zur Verfügung stellen. Dann bilden Zero Party Data einen erfolgsversprechenden Weg zur Personalisierung im Einklang mit Datenschutzrichtlinien.

Brauchen Sie Hilfe bei Ihrer Datenanreicherung?

Wir stehen Ihnen gern zur Verfügung

Mit Machine Learning Ad Fraud bekämpfen

Während Ad Fraud in den USA bereits seit Längerem eine omnipräsente Bedrohung in der Digital Marketing Welt ist, thematisieren wir es hierzulande noch vergleichsweise wenig. Doch zunehmend erreicht der kommerzielle Werbebetrug auch Deutschland. Wir geben Ihnen in diesem Artikel einen Überblick über die Arten von Ad Fraud und die passenden Gegenmaßnahmen. Machine Learning stellt hierbei eine verlässliche und vielleicht sogar entscheidende Lösung dar.

Was ist Invalid Traffic?

Eine klare und vor allem einheitliche Definition des Begriffs Ad Fraud gibt es nicht. Das führt dazu, dass die verschiedenen Anbieter von Ad Verification Systemen Ad Fraud ebenfalls unterschiedlich identifizieren. Im Ergebnis schwanken die von ihnen erhobenen und veröffentlichten Werte teilweise stark.

Die Fokusgruppe Digital Marketing Quality des BVDW führt daher zur zukünftigen Vereinheitlichung den Begriff Invalid Traffic (IVT) ein. Dieser unterteilt sich zum Einen in General Invalid Traffic (GIVT). Hierunter fallen alle Werbekontakte von „gutartigen“ Bots. Diese geben sich als solche zu erkennen und zeigen Online Marketing Systemen an, als nicht abrechnungsrelevant aus den Reportingdaten herausgefiltert werden zu können. Manche Anbieter von Ad Fraud Detection-Lösungen rechnen diese Impressions fälschlicherweise dem Sophisticated Invalid Traffic (SIVT) zu. SIVT-Werbekontakte können einerseits Non-Human, also bspw. von programmierten Bots verursacht werden. Andererseits können sie auch von Menschen stammen, dann jedoch so manipuliert, dass sie keine Werbewirkung erzielen. SIVT erfasst alle Impressions, die mit vermeintlich betrügerischer Absicht manipuliert und erzeugt werden. Aus diesem Grund kann hier von Ad Fraud die Rede sein.

Ad Fraud Methoden

Die Methoden von Online-Betrügern sind vielfältig und ausgeklügelt. Entwickeln Tech-Unternehmen neue Lösungen, sie auffliegen zu lassen, ziehen die Fraudster nur wenig später mit ebenfalls neuen Varianten des Werbebetrugs nach. Fraud Investigation wird so zu einem Wettrennen zwischen Wirtschaftskriminalität und Data Analytics.

Click Fraud

Click Fraud bzw. Klickbetrug ist die einfachste und daher häufigste Form des Anzeigenbetrugs. Traffic wird hierbei entweder durch sogenannte Click Bots oder durch Angestellte in einer Click Farm erzeugt. Die Bots sind mittlerweile technisch so ausgefeilt, dass sie menschliches Klickverhalten authentisch nachahmen können. Sie sind beispielsweise darauf programmiert, Mausbewegungen zu imitieren oder unterschiedlich lange Pausen zwischen den Klicks zu lassen. Das macht ihre Identifikation als (non-human) SIVT kompliziert.

Lead Fraud

Ein Lead-Anbieter stellt die Art und Weise, wie ein Lead generiert wird, falsch dar. Beispielsweise können die Lead-Authentizität, das Lead-Alter oder die Website-Herkunft verfälscht werden. In diesem Fall handelt es sich um Lead Fraud. Diese Faktoren können den Kaufwert eines Leads drastisch verändern. Davon profitiert natürlich der Lead-Verkäufer, wobei der Käufer der Geschädigte ist. Sein Targeting verpufft dann wirkungslos.

Impression Fraud

Impressionsbetrug bedeutet, dass die geschaltete Werbeanzeige nicht an ihre relevante Zielgruppe ausgeliefert wird, aber die Impressions trotzdem gezählt werden. Für diese Art des Werbebetrugs gibt es verschiedene Möglichkeiten. Eine der bekanntesten Methoden ist Ad-Stacking. Hier werden verschiedene Anzeigen einfach übereinander gestapelt. Ein und derselbe Werbeplatz auf einer Website kann also mehrmals verkauft werden.

Dies ist nur kleiner Auszug von Ad Fraud Methoden. Die Liste könnte zukünftig wahrscheinlich immer wieder erweitert werden. Doch wie kann ich diese immer komplexer werdenden Betrugstaktiken aufdecken und mich dagegen schützen?

Ad Fraud Detection & Prevention Methoden

Auch auf dieser Seite gibt es verschiedenste Möglichkeiten, wiederum gegen die Betrüger vorzugehen. Im Folgenden möchte ich ein paar davon nennen.

Signature-based

Signaturbasierte Methoden nutzen spezielle Aktivitätsmuster, um verdächtiges Impressions-, Traffic- oder Klickverhalten herauszufiltern. Diese Muster oder Schemata werden mit der erfassten Aktivität verglichen. Darauffolgend muss bestimmt werden, ob es sich um auffällige, also stark vom Muster abweichende, bzw. sogar betrügerische Aktivität handelt und ob weitere Schritte eingeleitet werden müssen.

Anomaly-based

Diese Methode nutzt statistische Analysen und historische Daten, um Werbeplätze, Websites und Publisher zu überprüfen und Anomalien festzustellen. Dazu zählen beispielsweise verdächtig hoher Traffic oder fragwürdige Werbeflächenplatzierungen.

Credential-based

Methoden basierend auf Berechtigungsnachweisen wägen die Möglichkeit betrügerischer Aktivitäten ab. Es wird Reverse Crawling verwendet, wobei die Berechtigungen der auffällig gewordenen Source überprüft werden, so zum Beispiel Registrierungsdaten, Ranking oder Aktivität. Anschließend wird ein Vergleich mit den Anforderungen für Impressions durchgeführt. Außerdem wird der Wert mit vertrauenswürdigen Rankings verglichen.

Honeypot-based

Hierbei wird den Werbebetrügern eine Falle gestellt, ein sogenannter Honeypot. Ein zusätzliches Feld wird in das Online-Formular eingefügt, welches jedoch für menschliche Nutzer aufgrund eines speziellen Skripts nicht sichtbar ist. Bots hingegen füllen dieses Feld aus und verraten sich selbst. Die Bot-Aktion löst einen Mechanismus aus, der zukünftige betrügerische Aktivitäten sperrt.

Machine Learning im Kampf gegen Ad Fraud

Da sich die Methoden von Werbebetrügern immer rasanter weiterentwickeln, müssen Marketer ebenso schnell mit Gegenmaßnahmen nachziehen. Eine besonders effiziente Lösung stellt Machine Learning dar.

Im Vergleich zu menschlichen Datenanalysten arbeiten Machine Learning Algorithmen deutlich zeitsparender und genauer. Sie können eine große Menge an Daten in Echtzeit analysieren, verarbeiten und die gefundenen Aktionen sofort auswerten. Ad Fraud Aktivitäten werden damit schneller identifiziert als bisher. Fortschrittliche Modelle wie Neuronale Netze aktualisieren sich sogar autonom, um die neusten Trends widerzuspiegeln. Ein weiterer Vorteil von Machine Learning ist, dass sich die Modelle mit zunehmenden Datenmengen verbessern und effektiver arbeiten. Betrügerische Aktionen können damit auch für die Zukunft zuverlässig vorhergesagt und blockiert werden.

Haben Sie auch mit Ad Fraud zu kämpfen?

Schreiben Sie uns eine E-Mail

KI bringt das Potenzial von Dark Data zum Leuchten

Bereits in der Bezeichnung Dark Data schwingt eine gewisse Bedrohlichkeit mit. Doch wie gefährlich sind diese „dunklen Daten“ wirklich? Ich möchte etwas Licht ins Dunkel bringen. Daher zunächst die Frage:

Was ist Dark Data überhaupt?

Dark Data ist ein Teilgebiet von Big Data. Zusammengefasst steht der Begriff für die Menge an Daten, die in einem Unternehmen zwar gespeichert werden, jedoch meist ungeschützt, ungenutzt und unstrukturiert auf Servern liegen. Einer Studie zufolge schätzt ein Drittel der befragten Führungskräfte die Menge von Dark Data auf 75% ihrer Gesamtdaten.

Neben Dark Data lassen sich zwei weitere Gruppen von Unternehmensdaten unterscheiden:

Die geschäftskritischen Daten bilden für den Geschäftserfolg die relevanteste Gruppe. Sie werden in Echtzeit gesammelt sowie analysiert und liefern einen unternehmerischen Mehrwert. Die geschäftskritischen Daten stellen nicht den Großteil des Datenvolumens dar. Viel mehr bilden sie einen vergleichsweise geringen Anteil an der Gesamtdatenmenge.

Die dritte Datengruppe sind die ROT-Daten. ROT steht für „Redundant, Obsolet, Trivial“. Diese Daten haben keinen Geschäftswert. Unternehmen sollten sie daher in regelmäßigen Abständen löschen. Beispiele für ROT-Daten sind Spam oder Werbung.

In dieser Kategorisierung haben Dark Data einen besonderen Stellenwert. Da die entsprechenden Daten (noch) ungenutzt bleiben, ist unklar, wie viel Potenzial wirklich in ihnen steckt. So könnten sich darunter sowohl ROT- als auch geschäftskritische Daten befinden.

Infografik

Dark Data – Gefahr oder doch Wettbewerbsvorteil?

Wie bereits angemerkt, könnte sich im Dunkeln ein wahrer Datenschatz verstecken. Daher kann es für Unternehmen von großem (Wettbewerbs-) Vorteil sein, auf ihre Dark Data aufmerksam zu werden und sich diese zu Nutze zu machen. Beispielsweise zeigen sich durch eine Analyse der schlafenden Daten Verbindungen zwischen verschiedenen Datensätzen. Unternehmen können so die Basis für genauere Prognosen legen und wertvolle Geschäftseinblicke gewinnen, die ihnen sonst verborgen geblieben wären. Und das alles mit bereits vorhandenen Daten, die nur auf ihre Verwendung warten.

Doch natürlich bergen diese meist ungeschützten Datenmengen auch ein Sicherheitsrisiko. Unternehmensinterne Daten, darunter vor allem Personendaten, könnten durch mögliche Sicherheitslücken ganz leicht Hackerangriffen zum Opfer fallen. Unternehmen sollten sich daher ihrer Verantwortung bezüglich dieser Daten bewusst werden und sie besser vor potenziellen Gefahren schützen. Eine Analyse der Dark Data würde dies vereinfachen. Die im Dunkeln verborgenen geschäftskritischen und personenbezogenen Daten würden als solche erkannt und könnten sicher verwahrt werden. Die übrigen ROT-Daten könnten, soweit es für sie keine weitere Verwendung gibt, von den Servern gelöscht werden.

Licht ins Dunkel bringen – Aber wie?

Um das versteckte Potenzial in den Dark Data nutzen zu können, müssen diese zunächst gefunden werden. Eine Möglichkeit dafür ist, eine umfassende Bestandsaufnahme aller unternehmerischen Daten zu machen, also ein Datenassessment. Außerdem bietet es sich an, mit den richtigen Tools und Methoden des Data bzw. Information Retrievals gezielt nach konkreten Informationen zu suchen.

Die weitere Analyse dieser unstrukturierten Daten stellt heute kein größeres Hindernis mehr dar, wenn Dark Analytics individuell auf das Unternehmen zugeschnitten wird. Verbesserte Tools können Datensätze miteinander verknüpfen und Unternehmensprozesse automatisieren und beschleunigen. Hier finden auch Lösungen wie Enterprise Search und die Entwicklung von flexiblen Information Governance-Strategien Anwendung.

Postskriptum: Was sind Ihre Erfahrungen mit Dark Data? Wie geht Ihr Unternehmen damit um? Berichten Sie uns doch von Ihren Erfahrungen an info@epic-insights.comWir freuen uns darauf!