Seit Juli 2010 hatte YouTube ein Programm namens Leanback genutzt, das nachfolgende Videos in die Warteschlange stellte, die geladen werden konnten, sobald das angeschaute Video zu Ende war. Anfänglich stiegen die Aufrufe, doch bald pendelten sie sich ein. Mit dem nachfolgenden KI-Programm namens Sibyl erzielten sie dieselben Ergebnisse.
YouTube tat sich mit Google Brain, Googles Maschinen-Lernsystem, zusammen, dessen KI-Entwicklung und -Werkzeuge anderen meilenweit voraus waren. Ihr Ziel bestand darin, gemeinsam mit der Google Brain-Stiftung ein System aufzubauen. Das Hauptziel war nach wie vor Zuschauerdauer (Viewer longevity). Am 15. März 2012 wechselte YouTube vom »View«-Algorithmus, bei dem der gezählte Videoaufruf belohnt wurde, zum »Watch Time«-Algorithmus, bei dem die Verweildauer des Zuschauers belohnt wurde. Diese KI folgte dem Publikum überallhin, damit sie das richtige Video finden und dem Publikum vorsetzen konnte.
Sie hatte die Fähigkeit, ihnen eher daneben liegende als geklonte Videos vorzuschlagen (»daneben liegend« im Sinne von ähnlich, aber doch unterschiedlich genug, um das Interesse aufrechtzuerhalten). »Geklonte« Videos schubsten die Viewer unvermeidlich von der Plattform, weil sie im Grunde dasselbe in Dauerschleife sahen. Und, was noch wichtiger war, Videos wurden aufgrund der Verweildauer der Zuschauer bei den Videos in die Warteschlange gestellt, anstatt aufgrund der Klicks und Views, die sie bekommen hatten.
YouTubes Ziel war, dass die Nutzer »mehr schauen und weniger klicken« sollten, was bedeutet, dass sie nicht wollten, dass die Zuschauer viele Videos anklicken mussten, bevor sie das fanden, was sie suchten. Die KI konnte sie besser mit Content verbinden, der ihnen gefiel, so dass sie mehr Zeit auf das reine Schauen verwenden konnten.
Diese Verschiebung zur Wiedergabezeit veränderte YouTubes Zuschauerschaft – Menschen blieben länger auf der Plattform. Die von einigen Creators genutzten irreführenden »Lockvogel«-Strategien wurden von der KI nicht mehr belohnt, weil die Zuschauer schnell ausstiegen, wenn der Content nicht lieferte, was Titel und Thumbnail versprachen. Viewer verweilten länger, um Videos zu schauen, die das lieferten, was sie versprachen, und die KI verfolgte diese Videos mit längerer Verweildauer und schlug sie häufiger vor. Darüber hinaus blieben Viewer, um anzuschauen, was die KI als Nächstes vorschlug, weil es einen Bezug zu den Inhalten aufwies, für die sie sich bereits interessiert hatten.
Mit anderen Worten: Die Viewer schluckten diesen neuen KI-Köder – Haken, Leine und Senkblei. Die neue YouTube-KI erreichte, dass Besucher länger verweilten, und die YouTube-Leute waren darüber ganz aus dem Häuschen. Sie hatten die Daten von der Weichenstellung peinlich genau beobachtet und warteten mit gemeinschaftlich angehaltenem Atem ab, ob es klappte oder floppte. Schon im Mai 2012, nur wenige Monate nach Integration der neuen KI, zeigten die Daten, dass die durchschnittliche Verweildauer vier Mal so hoch war wie im vorherigen Mai. Gemeinschaftlicher Seufzer der Erleichterung.
Die YouTube-KI hat sich im Laufe der Zeit verändert, um auf die jeweiligen Kunden zugeschnittene personalisierte Feeds zu erstellen. Die Homepage ist nicht länger kanaldominiert, sondern zeigt einen Mix aus Videos, die aufgrund von individuellen Aufrufmustern und Sehverhalten direkt ausgewählt werden. Jetzt wird mit verblüffender Genauigkeit angezeigt, was ein Zuschauer eventuell sehen möchte. Das ist eine große Veränderung der oberflächlichen Vorschläge von einst. Du verlässt die Seite nicht mehr, weil die Videos nur eine andere Version dessen sind, was du gerade geschaut hast – du verweilst, um das Video anzuklicken, das du nie zuvor gesehen hast, das dich aber definitiv reizt. Es ist, als ob YouTube einen Schneider eingestellt hätte, der hereinkommt und deine Maße nimmt, damit er dir ein Outfit schneidern kann, von dem du nicht einmal wusstest, dass du es haben wolltest. Wer liebt nicht das Gefühl von etwas, das wie angegossen passt? Und das auch nicht genauso aussieht wie jedes andere Outfit, das du schon besitzt?
Tief in die Deep-Learning-Maschine eintauchen
Für weitere Erklärungen lass uns zurückspulen und die Daten erneut untersuchen. Nach dem ersten Jahrzehnt im 21. Jahrhundert wurde YouTube mit einigen harten Wahrheiten konfrontiert. Zunächst schauten seine Nutzer Videos auf anderen Plattformen, anstatt direkt auf die Seite zu kommen. YouTubes Zuschauerzahlen waren hoch, aber nur, weil Menschen YouTube-Videos schauten, die mit großen Plattformen wie Facebook oder Twitter geteilt wurden. Das machte es YouTube unmöglich, Daten über seine Konsumenten zu sammeln, zu speichern und zu monetarisieren.
Eine weitere harte Wahrheit war, dass YouTube unterschiedliche Betriebsprogramme für unterschiedliche Geräte und Applikationen hatte, so dass sie die Teilchen sammeln und ein Betriebssystem an einem Ort rebooten mussten, direkt an der Quelle. Schockierenderweise hatte YouTube seinerzeit nicht einmal ein Einwahlsystem für die Analyse der mobilen Nutzung, was eine peinliche Erkenntnis war, da ein großer Prozentsatz der Viewer mobil unterwegs war. YouTubes museumsreife digitale mobile Entwicklung verlief quälend langsam und es musste etwas dagegen unternommen werden, sofort.
Die Stunde der Einführung von InnerTube im Jahr 2012: Entwicklung eines abteilungsübergreifenden Programms am Hauptsitz von YouTube zur Umgestaltung von Algorithmen und der Entwicklung von oben nach unten. InnerTube setzte das System zurück und beobachtete dessen Neustart an einem Ort zwecks Sicherstellung, dass alles korrekt und schnell Gestalt annahm. Es war unbedingt erforderlich, dass Implementierungen schnell erfolgten und vor der Anwendung in allen Bereichen getestet werden konnten. Wenn eine neue Änderung nicht funktionierte, mussten sie sie schnell runterholen, ohne die ganze Chose lahmzulegen. Dann optimierten sie sie und versuchten es erneut.
Ein weiteres essenzielles Element für den Neustart war die Nutzung von Deep-Learning-Maschinen. Googles KI hatte mehrere Entwicklungs- und Anwendungsphasen durchlaufen und wurde immer besser. Googles Deep-Learning-KI war jetzt in der Lage, gigantische neuronale Netzwerke zu nutzen, die wirklich gut in Bereichen wie Empfehlungen und Suche wurden. Deep Learning geht über das grundlegende maschinelle Lernen insofern hinaus, als dass es durch seinen Aufbau menschliche neuronale Netzwerke imitiert. Es zieht nichtlineare Rückschlüsse.
Die Eingabedaten für die Deep-Learning-Maschinen auf YouTube ergaben sich aus dem Verhalten der Nutzer. Dabei wurde nicht nur das »positive« Zuschauerverhalten (welche Videos sie mochten und bis zum Ende anschauten) beobachtet, sondern auch das »negative« Verhalten (welche Videos sie übersprangen oder sogar von ihrer maßgeschneiderten Homepage oder »Up Next«-Empfehlung entfernten). Sowohl das positive als auch das negative Verhalten der Nutzer zu verfolgen, ist für die Genauigkeit des Algorithmus unverzichtbar. Dieses Neuronennetzwerk ist so gut geworden, dass es aufgrund des aktuellen Nutzerverhaltens vorhersagen kann, wie mit neuen oder ungewohnten Videos umzugehen ist. Zu sagen: »Es hat seinen eigenen Kopf«, geht nicht zu weit. Die KI beobachtet tatsächlich nicht das gesamte Internetverhalten eines Nutzers; sie beobachtet nur, was auf YouTube geschieht. Das ist wichtig, weil das die Zielgenauigkeit der Empfehlungen aufrechterhält.
Wie?
Sagen wir, du würdest auf Google.com gehen und »Steakhäuser in Los Angeles« in die Suchleiste eintippen. Heißt das, du würdest beim nächsten Mal, wenn du auf YouTube.com gehst, Empfehlungen für Videos haben wollen, in denen gezeigt wird, wie man das perfekte Steak grillt? Oder dass du eine Video-Tour durch LA sehen möchtest? Wahrscheinlich nicht. Aber wenn du direkt in YouTubes Suchleiste eingibst: »Wie grillt man das perfekte blutige Steak?« und dann das erste empfohlene Video aufrufst, könnten als Nächstes folgende Videos vorgeschlagen werden: »Der stärkste Mann der Welt – den ganzen Tag essen«, dann »Wie reinigt man eine gusseiserne Bratpfanne?« Diese sekundären Videos haben nichts mit dem Steak zu tun, aber kannst du erkennen, dass der Zuschauer wahrscheinlich ein Kandidat für weitere Aufrufe ist? Das ist eine Deep-Learning-Maschine, die weiß, was sie tut. Und YouTube und sein Ökosystem sind unmittelbare Wohltäter, denn wenn