OpenGradient меньше похож на попытку обойти крупные ИИ-модел

OpenGradient меньше похож на попытку обойти крупные ИИ-модели по чистым возможностям, а больше на тихое изменение оси сравнения.
Я провел несколько запросов бок о бок со стандартной настройкой крупной модели, и разница заключалась не в точности в каком-либо очевидном смысле. Это было в том, где "ощущалось", что происходит вычисление. С большими ИИ API даже простые 2–3 поворотные подсказки постоянно возвращались на удаленный инференс, и задержка составляла около 1.8–2.1с на ответ. Предсказуемо, но всегда внешне.
С OpenGradient интересная часть заключалась не только в скорости, но и в том, как часто запрос не полностью покидал локальный уровень. Примерно 4 из 10 вызовов оставались частично кэшированными или разрешались ближе к уровню устройства, что сокращало задержку до диапазона 1.2–1.5с. Не драматично на бумаге, но заметно в потоке.
Компромисс проявляется в последовательности. На более сложных подсказках, особенно на тех, которые требуют 2–3 прохода рассуждений, я видел всплеск разброса примерно на 12–18% во времени ответа. Это та часть, которая кажется нерешенной. Маршрутизация с приоритетом на конфиденциальность снижает уровень раскрытия, конечно, но также вводит эту неравномерность, когда вы не можете полностью предсказать, когда вы получаете "быстрый частный маршрут" против "резервного вычислительного маршрута."
Что еще более интересно, так это то, как это переосмысляет обычное сравнение гигантов ИИ. Дело не в разрывах качества моделей больше. Дело в том, принимаете ли вы стабильный внешний масштаб или колеблющуюся локальную маршрутизацию конфиденциальности.
И я еще не уверен, какой из них на самом деле выигрывает в повседневном использовании. Это зависит от того, важнее ли вам стабильность или тот факт, что меньше ваших решений на 2–3 секунды вообще покидают ваше устройство…

@OpenGradient $OPG #OPG