Bestseller entschlüsselt?

Jodie Archer und Matthew L. Jockers behaupten, den Algorithmus gefunden zu haben, der einen Bestseller-Erfolg voraussagen lässt

Von Günther FetzerRSS-Newsfeed neuer Artikel von Günther Fetzer

Besprochene Bücher / Literaturhinweise

Wer einen Algorithmus entwickelt hat, der mit einer Trefferquote von 80 Prozent vorhersagen kann, welche Titel zu Bestsellern werden, hat wohl das Ei des Kolumbus gefunden – und müsste für den Rest seines Lebens finanziell ausgesorgt haben. Nicht mehr und nicht weniger als eine solche Trefferquote verspricht das Buch Der Bestseller-Code der amerikanischen Autoren Jodie Archer und Matthew L. Jockers. Die Übersetzung ins Deutsche erscheint in einem Verlag, zu dessen Autoren auch Donald Trump, Roberto Blanco, Harald Glööckler und Daniela Katzenberger gehören.

Das Buch geht von der Grundidee aus, dass man mit einer computergestützten Mustererkennung („Bestseller-o-Meter“) von Bestseller-Romanen im Vergleich mit Nicht-Bestsellern die entscheidenden Merkmale herauspräparieren und so die genannte Prognosequote erreichen könne. Als Beleg wird angeführt: „Unsere Computer meldeten bei 80 Prozent der tatsächlichen New-York-Times-Bestseller der letzten 30 Jahre, dass sie wahrscheinlich in der Bestsellerliste erscheinen würden.“

Kernstück des Buchs sind vier Kapitel, in denen auf gut literaturwissenschaftliche Weise Bestseller hermeneutisch interpretiert werden. Dabei werden Thema („Themenmodellierung“), Handlung („Sentiment-Analyse“), Stil („Stilometrie“) und Figuren (kein entsprechender methodischer Begriff genannt) als entscheidende Kategorien für (zeitgenössische) Bestseller beschrieben. Am Ende jedes dieser Kapitel  stehen Top-Ten-Listen, deren Relevanz sich nicht immer erschließt („Top-Ten-Bücher mit Hunden“, „Top-Ten-Bücher mit rhythmischen Takt“) oder deren Erkenntniswert gegen Null geht. Wer hätte (nicht) erwartet, dass unter den „Top-Ten-Büchern mit dem höchsten Anteil des Bestseller-Themas menschliche Nähe“ sechs Bücher von Nora Roberts zu finden sind?! Die abschließende Liste „100 Romane, die Sie laut unserem Computer lesen sollten“ zieht das Fazit aus den vorausgegangenen Analysen und ermittelt die Romane, die die Bestsellerkriterien am besten erfüllen. Auf Platz eins des Rankings erscheint The Circle von David Eggers, der damit „das Lieblingsbuch unseres Modells“  ist. Aufschlussreich ist, dass hier John Grisham und Danielle Steele, die zuvor als Muster-Bestseller ausführlich dargestellt wurden, erst auf Platz 35 (Grisham) und Platz 85 (Steel) auftauchen.

Hat man das Buch bis an diese Stelle in all seiner weitschweifigen Geschwätzigkeit gelesen, folgt nach einem wenig erhellenden Abschnitt über maschinengeschriebene Romane ein „Nachtrag oder ein wenig Hintergrund zu den Methoden“. Wer hier allerdings eine stringente Darstellung erwartet hat, wird enttäuscht. So muss man sich wichtige Basisdaten an anderen Stellen des Buchs im wahrsten Sinn des Wortes zusammenlesen. Die Analysen beruhen auf knapp 5.000 Büchern, einer „vielfältigen Mischung aus mäßig verkauften E-Books und gedruckten Romanen sowie etwas mehr als 500 Bestsellern auf der Liste der New York Times“. Dabei wurden die ursprünglich 20.000 Merkmale auf etwa 2.800 reduziert. Die Titel des Textkorpus wurden binär mit „Bestseller“ und „Nicht-Bestseller“ codiert.

Archer und Jockers stellen ihre Methoden zur Klassifizierung von Büchern unter die Schlüsselbegriffe „Textanalyse“ und „maschinelles Lernen“. „Textanalyse lässt sich relativ eng definieren als der Prozess, durch den wir textliche Merkmale in einem Buch identifizieren und extrahieren.“ Basis ist das Natural Language Processing (NLP) mit den Teilaufgaben Wort-Segmentierung, Satz-Identifizierung, Wortart-Kennzeichnung und Dependenz-Parsing (Analyse und Abbildung der grammatikalischen Strukturen von Sätzen).

„Maschinelles Lernen lässt sich, ebenfalls eng, aber ausreichend, definieren als die Art und Weise, wie wir diese Merkmale verarbeiten, um Vorhersagen darüber zu treffen, ob ein Buch zur Gruppe der Bestseller gehört oder nicht.“ Sinnvollerweise müsste hier „Buch“ durch „Manuskript“ ergänzt werden, denn es geht ja den Autoren darum zu prognostizieren, ob ein Text Bestseller-Chancen hat oder nicht – alles andere wäre ein Zirkelschluss. Bei diesen Analysen wird – basierend auf der Grundeinordnung Bestseller/Nicht-Bestseller – jeder Titel in einem Merkmalsraum abgebildet. Dabei kommen drei Computer-Klassifikatoren zur Anwendung, „KNN“ (K Nächste Nachbarn), „SVM“ (Support Vector Machines) und „NSC“ (Nearest Shrunken Centroides). Verfeinert werden die Analysen durch „zehnfache Kreuzvalidierung“ und „Hold-one-out-Validierung“. Die Klassifikatoren erzielen verschiedene Progonosewerte; der Mittelwert liegt bei 80 Prozent.

Verständlich, dass die Autoren ihre Analyseinstrumente und ihren „bahnbrechenden Algorithmus“ (wie der Untertitel des Buchs verspricht) nicht detaillierter preisgeben, aber ein bisschen mehr Nachprüfbarkeit der Ergebnisse hätte man sich schon gewünscht. Da helfen einem auch die zahlreichen pseudogenauen Grafiken nicht weiter. Nach all den Beschreibungen von Bestsellern hätte man wenigstens ein Beispiel für einen Nicht-Bestsellern erwartet, den der Computer aus der Vielzahl an Manuskripten herausgefiltert hat, die die Verlage erreichen.

Titelbild

Jodie Archer / Matthew L. Jockers: Der Bestseller-Code. Was uns ein bahnbrechender Algorithmus über Bücher, Storys und das Lesen verrät.
Übersetzt aus dem Englischen von Sascha Mattke.
PLASSEN Buchverlage, Kulmbach 2017.
244 Seiten, 19,99 EUR.
ISBN-13: 9783864704994

Weitere Rezensionen und Informationen zum Buch