Lässt sich aus der Vergangenheit die Zukunft vorhersagen? Das ist das große Thema von “Big Data“: Unternehmen weltweit versuchen, Muster in großen Datenmengen zu finden, um daraus Vorhersagen zu konstruieren.
Unsere Amazon-Top-1000 sammeln nun schon seit Monaten genau das: große Datenmengen; Informationen über Bücher, die sich zahlenmäßig erfassen lassen. Hier geht es nicht um die Qualität des Inhalts, des Covers oder der Klappentexte, sondern um all das, was der Computer erkennen und messen kann. Bei uns sind das natürlich die tagesaktuellen Rankings, aber auch Faktoren wie Preis, Kategorien, Autor, Verfügbarkeit in der Leihbücherei, Vorhandensein von DRM (Kopierschutz), Anzahl der Leser-Rezensionen und der Mittelwert der Bewertungen.
Insgesamt etwa 150.000 Datensätze sind auf diese Weise zusammengekommen, die wir nun mathematisch analysiert haben. Daraus ist ein Modell entstanden, das mit bemerkenswerter Genauigkeit künftige Platzierungen vorhersagen kann. Wir sind gerade dabei, das in die Top 1000 zu integrieren. Die Genauigkeit der Vorhersage für den kommenden Tag liegt dabei bei:
- Platz 1-10: mittlerer Fehler 0,68
- Platz 11-50: 3,47
- Platz 51-100: 6,13
- Platz 101-300: 17,31
- Platz 301-500: 29,67
Doch was heißt das für einen Einzeltitel? Mit welcher Gewichtung gehen die einzelnen Faktoren in die Prognose ein?
- Ranking Tag -1 57.34%
- Ranking Tag -2 24.54%
- Sprache 7.26%
- Kategorie 6.51%
- Ranking Tag -3 1.71%
- Ranking Tag -4 0.99%
- Preis 0.68%
- Autor 0.40%
- Leihbibliothek 0.12%
- Zahl der Bewertungen 0.12%
- Mittlere Bewertung 0.12%
- DRM 0.08%
Nimmt man mal die offensichtlichen Faktoren (Ranking der Vortage heraus), ergeben sich doch ein paar Überraschungen. Die Bewertungen etwa haben sowohl bei ihrer Anzahl als auch beim Mittelwert kaum Einfluss auf die Zukunft eines eBooks. Ob ein DRM vorhanden ist, interessiert die Käufer noch weniger. Die Kategorie ist am wichtigsten – der Preis folgt mit deutlichem Abstand.
Was heißt das für den Autor? Rankings lassen sich im Nachhinein nicht beeinflussen. Die anderen Kriterien aber schon – und selbst DRM spielt dann noch eine Rolle, weil sich die Berechnungen kumulieren. Denn der Rang von morgen ist übermorgen ja schon der Rang von gestern…
Wir werden das Modell künftig so anpassen, dass es aus den neuen Daten jeweils selbst lernt. So sollte sich die Genauigkeit noch weiter erhöhen lassen.