Schach und maschinelles Lernen - Ein spannendes Beispiel.

Wir zeigen den Bezug von Schach zu maschinellem Lernen auf und ziehen RĂŒckschlĂŒsse.

Der Artikel «Chess, a Drosophila of reasoning» von Garry Kasparov fasziniert. Er beschreibt darin AlphaZero’s Taktik beim Schachspiel, die nicht mehr der gewohnten „dummen Maschinenlogik“ folgt. Oder so wie Lee Sedols Kommentar zu Zug 37 im zweiten Spiel gegen AlphaGo: „
I thought surely AlphaGo is creative“.

So war bis jetzt

Bleiben wir beim Schach. Wie das Spiel von einem Rechner gespielt werden soll hat Claude Shannon bereits 1950 beschrieben. Die zwei zentralen Elemente sind auch heute noch dieselben geblieben. Einerseits muss das Programm die zulĂ€ssigen SpielzĂŒge kennen und anderseits muss es die Spielstellung bewerten. Letzteres um im Rahmen der Suche nach dem nĂ€chsten Zug zu beurteilen, welcher gewĂ€hlt werden soll. So haben Schachprogramme bislang auch funktioniert.

Um die KomplexitĂ€t der Rechenaufgabe zu beherrschen wurden zudem zahlreiche Optimierungen gedacht. Eine davon ist die Nutzung von Bibliotheken gespielter Spiele deren Ausgang bekannt ist. Ergebnis dieses Ansatzes beschreibt Kasparov mit dem Worten: „Much as airplanes don’t flap their wings like birds, machines don’t generate chess moves like humans do.“

Von sich selbst lernen

Der Algorithmus AlphaGo lernte im ersten Durchgang genau so, mechanistisch und auf historischem Wissen basierend. SpĂ€ter verfeinerte man seine FĂ€higkeiten zusĂ€tzlich, indem man diesen anonym online gegen Menschen spielen liess. Wenig effizient. Also lernte sein Nachfolger AlphaZero, indem das Programm nur gegen sich selbst spielte. Es brachte sich nach Aussage von Demis Hassabis, CEO von Deep Mind,  unter Nutzung massiver Rechenleistung „in a few hours“ selbst Schach bei. Zwei Aspekte fallen beim Ergebnis des Lernprozesses auf: Risikobereitschaft und der Spielstils des Programms.

Taktik der Stellungsbewertung

Bis anhin hatte sich Schachprogramme bei der Stellungsbewertung an Shannons Minimax-Algorithmus orientiert und, so wie in der Schachwelt ĂŒblich, an Materialverlust als Wertfunktion. Die Spielfiguren (und deren Beweglichkeit und Stellung) haben einen Wert, der addiert werden kann: 9 fĂŒr die Dame, 6 fĂŒr den Turm etc.

AlphaZero arbeitet mit einer Monte-Carlo-Simulation und wĂ€hlte den Weg einer holistischen Bewertung des ganzen Brettes im Bezug auf den erlernten Spielverlauf. Es probiert aus und entwickelt damit einen Spielstil, bei dem die Maschine nicht auf den Gegner reagiert, das Spiel aber aktiv gestaltet und vorantreibt. Einzelne ZĂŒge wirken, wegen der Gewohnheit des Menschen den Materialwert zu gewichten, ungeschickt. Und erst viele ZĂŒge spĂ€ter versteht dieser dessen taktische Bedeutung. Weg von deterministischem Rechnen (‚geradeaus Denken‘) und hin zu Intuition. Dieses Verhalten zeigt sich auch darin, dass AlphaZero weniger Spielpositionen bewertet als Schachprogramme wie Stockfish. Oder wie Kasparov sagt: „AlphaZero works smarter not harder“.

Die RĂŒckkehr von Blitzschach

Und auch beim Training (gegen sich selbst) fĂ€llt auf, dass AlphaZero kurze Denkzeiten bevorzugt (typische Bedenkzeit von 40ms). Dies zeigt eine erstaunliche Parallele zur Entwicklung des Schachspiels. Schach auf Wettkampfniveau wurde „verkopft“ und ist mit viel aufwĂ€ndiger Analyse versehen. FrĂŒher hingegen trainierten Grossmeister mittels Blitzschachpartien. Je mehr Fehler sie sahen, desto mehr meinten sie lernen zu können. Das hat offensichtlich auch AlphaZero rausgefunden, sein Training dahingehen optimiert und somit einen wilderen, kreativeren und einzigartigeren Stil als seine VorgĂ€nger entwickelt. Der Lernprozess von AlphaZero fĂŒr Schach dauerte rund 9 Stunden und dabei spielte das Programm rund 100 Partien pro Sekunde gegen sich selbst. AlphaZero spielt also risikoreicher und unberechenbarer als AlphaGo. Das lĂ€sst mich an den amtierenden Schachweltmeister Magnus Carlsen denken, der bei zeitbeschrĂ€nkten Spielen der stĂ€rkere Gegner ist. Beide lieben ZĂŒge, die noch nie gespielt wurden.

Maschinen beginnen zu denken

Weiter geht die Geschichte dazu im Buch „Game Changer: AlphaZero’s Groundbreaking Chess Strategies and the Promise of AI“.

Das Beispiel AlphaZero und Schach zeigt eindrĂŒcklich, wie die Wahl des algorithmischen Lösungsansatzes den Stil der Lösung beeinflusst. Zumindest bei Schach ist die Zeit gekommen, als Maschinen resp. deren Entwickler einen eigenen Stil entwickeln und nicht mehr ausschliesslich auf Rechenleistung und Pragmatismus setzen. Faszinierend.