hay algunas ideas erróneas sobre lo que realmente está sucediendo en diferentes ejecuciones de entrenamiento descentralizado
RL Swarm no es solo generación de rollout distribuido, es un aprendizaje basado en rumores donde la comunicación misma es un objetivo de entrenamiento
los modelos aprenden a razonar Y hablar
RL Swarm no es solo generación de rollout distribuido, es un aprendizaje basado en rumores donde la comunicación misma es un objetivo de entrenamiento
los modelos aprenden a razonar Y hablar