Es gibt einige Missverständnisse darüber, was tatsächlich in verschiedenen dezentralen Trainingsläufen passiert

RL Swarm ist nicht nur verteilte Rollout-Generierung, sondern ein auf Gossip basierendes Lernen, bei dem die Kommunikation selbst ein Trainingsziel ist

Die Modelle lernen zu argumentieren UND zu sprechen