Big Data für eBooks: Wie sich welche Faktoren auf das Amazon-Ranking auswirken

Lässt sich aus der Vergangenheit die Zukunft vorhersagen? Das ist das große Thema von “Big Data“: Unternehmen weltweit versuchen, Muster in großen Datenmengen zu finden, um daraus Vorhersagen zu konstruieren.

Unsere Amazon-Top-1000 sammeln nun schon seit Monaten genau das: große Datenmengen; Informationen über Bücher, die sich zahlenmäßig erfassen lassen. Hier geht es nicht um die Qualität des Inhalts, des Covers oder der Klappentexte, sondern um all das, was der Computer erkennen und messen kann. Bei uns sind das natürlich die tagesaktuellen Rankings, aber auch Faktoren wie Preis, Kategorien, Autor, Verfügbarkeit in der Leihbücherei, Vorhandensein von DRM (Kopierschutz), Anzahl der Leser-Rezensionen und der Mittelwert der Bewertungen.

Insgesamt etwa 150.000 Datensätze sind auf diese Weise zusammengekommen, die wir nun mathematisch analysiert haben. Daraus ist ein Modell entstanden, das mit bemerkenswerter Genauigkeit künftige Platzierungen vorhersagen kann. Wir sind gerade dabei, das in die Top 1000 zu integrieren. Die Genauigkeit der Vorhersage für den kommenden Tag liegt dabei bei:

  • Platz 1-10: mittlerer Fehler 0,68
  • Platz 11-50: 3,47
  • Platz 51-100: 6,13
  • Platz 101-300: 17,31
  • Platz 301-500: 29,67

Doch was heißt das für einen Einzeltitel? Mit welcher Gewichtung gehen die einzelnen Faktoren in die Prognose ein?

  • Ranking Tag -1 57.34%
  • Ranking Tag -2 24.54%
  • Sprache 7.26%
  • Kategorie 6.51%
  • Ranking Tag -3 1.71%
  • Ranking Tag -4 0.99%
  • Preis 0.68%
  • Autor 0.40%
  • Leihbibliothek 0.12%
  • Zahl der Bewertungen 0.12%
  • Mittlere Bewertung 0.12%
  • DRM 0.08%

Nimmt man mal die offensichtlichen Faktoren (Ranking der Vortage heraus), ergeben sich doch ein paar Überraschungen. Die Bewertungen etwa haben sowohl bei ihrer Anzahl als auch beim Mittelwert kaum Einfluss auf die Zukunft eines eBooks. Ob ein DRM vorhanden ist, interessiert die Käufer noch weniger. Die Kategorie ist am wichtigsten – der Preis folgt mit deutlichem Abstand.

Was heißt das für den Autor? Rankings lassen sich im Nachhinein nicht beeinflussen. Die anderen Kriterien aber schon – und selbst DRM spielt dann noch eine Rolle, weil sich die Berechnungen kumulieren. Denn der Rang von morgen ist übermorgen ja schon der Rang von gestern…

Wir werden das Modell künftig so anpassen, dass es aus den neuen Daten jeweils selbst lernt. So sollte sich die Genauigkeit noch weiter erhöhen lassen.

Matthias Matting
  • Matthias Matting
  • Matthias Matting, geboren 1966, ist Physiker und Journalist und einer der erfolgreichsten deutschen Self-Publishing-Autoren. Er hat über 50 Bücher im Self-Publishing veröffentlicht und ist Autor des offiziellen Amazon-Bestsellers 2011. Für sein Buch “Reise nach Fukushima” erhielt Matthias Matting den 2011 erstmals ausgeschriebenen Buchpreis “derneuebuchpreis.de” in der Kategorie Sachbuch. Matting war als Programmleiter eBook bei der Münchner Verlagsgruppe tätig. Er arbeitet außerdem als Kolumnist für das Nachrichtenmagazin FOCUS und als Autor für SPACE, Federwelt und Telepolis. Schließlich gibt er auch Online-Kurse sowie Seminare an der Akademie der Bayerischen Presse.

12 Comments

  • Sehr gute Schätzungen, basierend auf echten Verkaufszahlen vieler Autoren.

  • Es handelt sich um ein mathematisches Modell, das kennt nur Zahlen und hat keine Ahnung von deren Bedeutung. Jede weitergehende Interpretation ist deshalb nur Vermutung, kann auch nicht mehr sein.

  • Bei der Sache gibt es ein nicht unerhebliches Problem. Das Ranking von Amazon spiegelt NICHT die reinen Verkaufszahlen wieder.

    • Hm, doch 😉 Wobei das für das Modell völlig egal ist – es bezieht die Verkaufszahlen gar nicht mit ein.

  • Wie wirkt sich die Kategorie aus? Verkauft sich eine Kategorie schlicht besser, als die andere? Wie ist das bei hoch kompetitiven Kategorien, die sich zwar insgesamt besser verkaufen, ich aber eventuell schlechter sichtbar bin, weil im Rang der Kategorie weiter hinten?

  • Schade, dass sich so wichtige Faktoren wie etwa das Coverbild nicht berücksichtigen lassen.

  • Schade, dass sich so wichtige Faktoren wie etwa das Cover nicht berücksichtigen lassen.

  • Wie wird bei den Amazon-Top-1000 die Anzahl der verkauften Titel pro Tag ermittelt? Ich gehe davon aus, dass dies Schätzungen sind?

  • Hätte mir deutlich mehr Infos zu dem Vorhersage-Modell gewünscht.

    Gerade Infos zu den Punkten Sprache, Kategorie, Preis, Bewertungen und so weiter bedürfen näherer Erläuterung. Wie soll man aus diesen Punkten berechnen können, ob ein Buch gerade am steigen oder sinken ist?

    Oder geht es um eine Änderung dieser Parameter? Die hat dann sicher Auswirkungen auf die Entwicklung des Ranking – aber gerade der Preis würde dann definitiv eine weitaus größere Rolle spielen.

    So hinterlässt der Artikel bei mir leider nur Verwirrung und eine Menge Fragezeichen.
    Würde mich über weitere Erläuterungen jedenfalls sehr freuen.

  • Also kurz gesagt: gekauft wird, was gesehen wird. Alles andere ist mehr oder minder vernachlässigbar.

  • Sag mal… Beibder höchsten Trefferrate in den top10 und dem hohen Einfluss der Kategorie muss man doch wohl feststellen, dass das sich in den Kategorietoptiteln befinden einen guten Werbeeffekt bringt… Also Kunden kaufenn gern die besten einer Kategorie… Aber vielmehr?

  • Klasse Beitrag!
    Ich habe drei eBooks bei Amazon veröffentlicht und ahnte auch, dass die Kategorie mit am wichtigsten ist. Jetzt ist es quasi “amtlich”!

Comments are closed.