hay algunas ideas erróneas sobre lo que realmente está sucediendo en diferentes ejecuciones de entrenamiento descentralizado

RL Swarm no es solo generación de rollout distribuido, es un aprendizaje basado en rumores donde la comunicación misma es un objetivo de entrenamiento

los modelos aprenden a razonar Y hablar