Guia de Autoridade ZKML (2025)

Os sistemas de inteligência artificial estão tomando decisões que afetam o fluxo de fundos, resultados médicos e ações autônomas, mas como verificar se a inteligência artificial realmente calculou o que afirma ter calculado? Ele usou o modelo que prometeu usar? Ele vazou seus dados durante o processo?
Existem muitas maneiras de implementar inteligência artificial verificável, como hardware confiável, mecanismos de consenso e reexecução em áreas seguras, cada método tem suas vantagens, mas o mais interessante é o aprendizado de máquina de conhecimento zero (ZKML), que resolve problemas de verificação por meio de matemática pura e suposições de confiança mínimas.
Sumário
Validação sucinta: Recursos computacionais avançados para recibos pequenos.
Privacidade: A parte realmente útil do conhecimento zero
Dinheiro programável: por que os agentes precisam de provas?
Visão geral do domínio: Quem está construindo o quê?
Estágio inicial (2022-2023) Prova de conceito
Halo2 aplicado a ZKML
Explosões (2024-2025): Escolha seu guerreiro
Realidade Tecnológica
Caso de aplicação: O que realmente merece ser comprovado?
Filtro básico
DeFi: Um Centro para Fundos
Agentes não confiáveis
Saúde: Privacidade e Auditabilidade
Jogos: Justiça Comprovável
Mercado de Modelos: Validação de Aprendizado de Máquina como Serviço (MLaaS)
Memória de IA
O que ainda falta em 2025?
Previsões da ZKML para 2026
Hardware Wave
Sistemas de Prova: Matemática Aprimorada
A cobertura da operadora explode
Alterações na curva de custos levam à evolução dos casos de uso.
Em última análise
O tédio é uma coisa boa; significa que está se tornando real.
Olha, vamos pular a parte de hardware e métodos de reexecução — TEE, mecanismos de consenso e assim por diante — não porque sejam ruins, mas porque, para mim, o problema interessante é a verificação matemática pura: aplicar provas de conhecimento zero ao aprendizado de máquina — ZKML.
Há três anos, esse campo era praticamente inexistente na "indústria". Então, surgiram a Modulus Labs, a EZKL, o Dr. Daniel Kang, a Dra. Cathie So e vários outros, propondo: "Vamos tornar a IA verificável". As objeções imediatas foram óbvias: a sobrecarga de uma máquina virtual de prova de conhecimento zero (zkVM) é de 100.000 a 1.000.000 vezes maior que a de uma máquina virtual tradicional, e executar raciocínio em provas de conhecimento zero é tão difícil quanto nadar em concreto.
Então, por que precisamos fazer isso?
Existem três razões pelas quais o ZKML vale o esforço.
Validação sucinta: Recursos computacionais avançados para recibos pequenos.
O ZKML é eficaz precisamente por causa dessa assimetria: o custo computacional pode ser muito alto, enquanto o custo de verificação pode ser muito baixo.
A AWS executará seu modelo em seu cluster de GPUs por uma hora e, em seguida, enviará um recibo criptografado para o seu telefone. O processo de verificação leva apenas 50 milissegundos, e seu telefone sabe matematicamente — ou seja, tem certeza — que o cálculo foi concluído corretamente, sem necessidade de qualquer confiança.
Isso abre um campo totalmente novo: fluxos de trabalho de proxy sem confiança. O proxy no seu telefone se comunica com o proxy no data center da empresa, que por sua vez se comunica com o proxy no Ethereum e, finalmente, com o proxy no Solana. Cada proxy repassa informações criptografadas como em uma corrida de revezamento, possibilitando operações comerciais de proxy sem confiança. Toda a "cadeia" de inferência é verificável de ponta a ponta.
E se não fosse por isso? Um agente comprometido interromperia todo o fluxo de trabalho. Em sistemas autônomos, como transferências de fundos ou decisões médicas, isso não é apenas uma vulnerabilidade — é um desastre iminente.
Privacidade: A parte realmente útil do conhecimento zero
Em ZKP, ZK significa que a prova não revela nenhuma informação.
Os hospitais utilizam dados de pacientes para diagnósticos e emitem laudos. Agora, eles podem comprovar aos órgãos reguladores: "Utilizamos um modelo aprovado pelo FDA e obtivemos este resultado", sem divulgar nenhum registro de paciente. Os dados permanecem privados, enquanto os laudos são tornados públicos.
Alternativamente: um banco comprova que seu modelo de detecção de fraudes está funcionando corretamente, mas não divulga o próprio modelo (vantagem competitiva) nem os dados das transações (requisitos regulatórios). Após a verificação dos auditores, todos ficam satisfeitos.
Também estamos atentos à tendência da IA ​​migrando para os dispositivos — Gemma, os Modelos Fundamentais da Apple e toda a onda de inferência local. Esses modelos eventualmente precisarão se comunicar com o mundo externo. O zkML permite que modelos em execução no seu laptop comprovem a sistemas remotos que de fato realizaram cálculos, sem a necessidade de enviar seus dados ou pesos do modelo.
zkML possui muitos cenários de aplicação que exigem proteção de privacidade, e nem todas as bases de código oferecem essa proteção - desenvolvedores, fiquem atentos!
Dinheiro programável: por que os agentes precisam de provas?
Até 2025, as provas criptográficas serão capazes de controlar a moeda corrente, o que é mais importante do que as pessoas imaginam.
Estão surgindo padrões como o X402 e o ERC-8004 para pagamentos interinstitucionais, e estamos caminhando para uma era de economia autossuficiente, na qual:
Os agentes compram dados dos fornecedores.
Inferência em múltiplos modelos
Entregar resultados para os clientes
Liquidação total do pagamento - sem necessidade de intervenção humana durante todo o processo.
Cada etapa exige comprovação: você usou dados pagos? Você executou o modelo que alegou ter? O resultado foi realmente derivado desse cálculo? O zkML responde a essas perguntas por meio da criptografia.
Quando os negociadores lidam com dinheiro real – não com tokens de teste – mas com valor concreto, mecanismos de segurança baseados em matemática tornam-se essenciais. Você precisa de provas ou precisa de confiança. Se estiver construindo um sistema sem confiança, a escolha é óbvia.
2025 - O ZKML ainda é caro e existem despesas, mas elas estão diminuindo (1 milhão de vezes → 100.000 vezes → 10.000 vezes), e sua proposta de valor está se tornando mais clara.
O zkPyTorch foi lançado em março de 2025, reduzindo instantaneamente o tempo de prova para inferência do VGG-16 para 2,2 segundos. O DeepProve de Lagrange resolveu o problema da inferência em larga escala do modelo LLM em agosto. No outono, também observamos acelerações semelhantes no código-fonte do JOLT Atlas, e essas acelerações foram alcançadas para múltiplos modelos sem o uso de GPUs.
Em 2025 – muito além da fase experimental – alguns modelos poderão ser verificados em segundos usando a tecnologia de prova de conhecimento zero (ZKP). Com o aprimoramento contínuo das ferramentas de desenvolvimento, podemos esperar ver essa infraestrutura inovadora sendo aplicada na prática em mais projetos em 2026.
O custo computacional é um pagamento único, que garante verificabilidade, proteção da privacidade e a capacidade de coordenar agentes além das fronteiras de confiança, sem intermediários. Em um mundo onde agentes de IA estão prestes a começar a transferir bilhões de dólares, isso não é um luxo, mas uma infraestrutura essencial.
Visão geral do domínio: Quem está construindo o quê?
De "potencialmente alcançável" em 2022 a "lançamento real" em 2025, veja como chegamos a este ponto e quem está fazendo o quê.
Estágio inicial (2022-2023): Prova de conceito
A Modulus Labs liderou o movimento, e Daniel Shorr e sua equipe na Universidade de Stanford publicaram "O Custo da Inteligência" – o primeiro benchmark verdadeiramente significativo para sistemas de prova de conhecimento zero para inteligência artificial. O argumento deles é que, se a agregação de conhecimento zero pode reduzir o custo computacional do Ethereum, então também pode ser possível trazer a inteligência artificial para o blockchain.
Alerta de spoiler: Isso é absurdamente caro. Só verificar a menor parte de um contrato inteligente custa US$ 20 por transação. Mas é um sucesso. Eles desenvolveram o RockyBot (um jogo de luta com IA on-chain) e o Leela vs the World para validar o conceito. Mais importante ainda, provaram que o GPT-2 e os algoritmos de recomendação do Twitter podem ser verificados mesmo sem nenhum conhecimento prévio.
A tecnologia subjacente que eles usam é um protocolo chamado GKR. Vitalik escreveu recentemente um tutorial sobre ele, então não entrarei em detalhes aqui. Se você estiver interessado em GKR, pode conferir o artigo. A ideia central do GKR é permitir que você ignore as etapas criptográficas na camada central, e as operações de aprendizado de máquina "parecem" naturais e fluidas nesse ambiente.
Descobriu-se que a multiplicação de matrizes e algumas outras operações-chave são mais eficientes quando se utilizam protocolos especializados (como o protocolo sumcheck e parâmetros de pesquisa), e Thaler explicou a principal razão para isso de forma muito completa há muitos anos em seu livro (Proofs, Arguments, and Zero Knowledge):
Prévia: Outros protocolos para MATMULT. Outro protocolo interativo para MATMULT é obtido aplicando o protocolo GKR (que será apresentado na Seção 4.6) ao circuito C para calcular o produto C de duas matrizes de entrada A e B. O verificador neste protocolo tem um tempo de execução de O(n^2) e o provador tem um tempo de execução de O(S), onde S é o número de portas no circuito C.
As vantagens do protocolo MATMULT descrito nesta seção são duplas. Primeiro, ele não se preocupa com a forma como o provador encontra a resposta correta, enquanto o protocolo GKR exige que o provador calcule a matriz de resposta C de uma maneira prescrita, ou seja, avaliando o circuito C porta por porta. Segundo, o provador neste protocolo só precisa encontrar a resposta correta e, em seguida, realiza uma operação adicional de O(n²) para provar sua correção. Supondo que não exista um algoritmo de multiplicação de matrizes de tempo linear, esse termo O(n²) representa uma sobrecarga aditiva de baixa ordem. Em contraste, o protocolo GKR introduz pelo menos um fator constante de sobrecarga ao provador. Na prática, isso se manifesta como o provador executando muitas vezes mais lentamente do que o algoritmo MATMULT (não verificável), enquanto a velocidade de execução do provador é apenas menos de um por cento mais lenta.
Thaler também foi um dos primeiros a defender que o protocolo sumcheck fosse um elemento fundamental do ZK! (@SuccinctJT #tendeestarcerto)
Halo2 aplicado a ZKML
Quase na mesma época, Jason Morton criou o EZKL, cuja abordagem era única: ele aceita qualquer formato ONNX (um padrão aberto para redes neurais), o converte em um circuito Halo2 e, em seguida, gera uma prova. Seu grande diferencial é que você não precisa ser um criptógrafo; basta exportar seu modelo PyTorch, lê-lo com o EZKL e obter a prova.
Explosões (2024-2025): Escolha seu guerreiro
* Por favor, me avise se o seu projeto deve ser incluído na lista ou se as informações mudarem em 2025!
* As declarações a seguir são da autoapresentação da equipe do projeto em suas postagens no blog e, às vezes, podem ser um pouco exageradas! 😬😬
EZKL (2023 até o presente)
ONNX → Circuito Halo2
Testes de desempenho mostram que ele é 65 vezes mais rápido que o RISC Zero e 3 vezes mais rápido que o Orion.
Economiza 98% de memória em comparação com o RISC Zero.
Desvantagens: Atualmente, apenas alguns operadores ONNX são suportados (mais operadores estão sendo adicionados).
Principal desafio: quantização, pois haverá alguma perda de precisão ao passar de operações de ponto flutuante para operações de ponto fixo.
Pode proteger a privacidade ✅
Lagrange DeepProve (lançado em 2024, validado pelo GPT-2 no início de 2025)
Chegou muito rápido, supostamente de 54 a 158 vezes mais rápido que o EZKL.
Primeiro, precisamos provar que o GPT-2 consegue realizar raciocínio completo – não apenas raciocínio parcial, mas raciocínio integral.
Resultados da validação: a velocidade da MLP aumentou 671 vezes, a velocidade da CNN aumentou 521 vezes (tempo de validação reduzido em meio segundo).
Utilizando o protocolo sumcheck + parâmetros de pesquisa (logup GKR)
O suporte para LLAMA está em desenvolvimento - GPT-2 e LLAMA são arquiteturalmente semelhantes, portanto estão muito próximos em termos de compatibilidade.
Possui uma rede descentralizada de provadores (executada em EigenLayer).
É improvável que proteja a privacidade ❌
zkPyTorch (Polyhedra Network, março de 2025)
Trata-se de um avanço inovador na deformação moderna.
Primeiro, prove Llama-3 - 150 segundos por ficha.
O VGG-16 levou 2,2 segundos.
Otimização em três camadas: pré-processamento, quantização compatível com ZK e otimização de circuitos.
Aproveitando DAGs e execução paralela entre núcleos
Integração com o mecanismo de verificação Expander
É improvável que proteja a privacidade ❌
ZKTorch (Daniel Kang, julho de 2025)
Um compilador "universal" - capaz de lidar com qualquer tarefa.
GPT-J (6 bilhões de parâmetros): levou 20 minutos para ser executado em 64 threads.
GPT-2: 10 minutos (anteriormente mais de 1 hora)
Arquivo de prova ResNet-50: 85 KB (o Mystique gerou um arquivo de prova de 1,27 GB)
O método de acumulação de provas é usado para combinar múltiplas provas em uma única prova concisa.
Esta é atualmente a versão mais rápida do zkML para uso geral.
Objetivos acadêmicos, não da indústria
Atlas Jolt (NovaNet / ICME Labs, agosto de 2025)
JOLT zkVM baseado em a16z, com modificações para ONNX.
O método zkVM, mas na realidade, é muito rápido.
Principal conclusão: As cargas de trabalho de aprendizado de máquina frequentemente usam tabelas de consulta, e o próprio JOLT oferece suporte a tabelas de consulta.
Sem polinômios quocientes, sem decomposição em bytes, sem produtos grandes - apenas verificações de pesquisa e soma.
Suporte flexível à quantização - Nenhuma tabela de consulta completa é gerada, portanto, você não está restrito a um esquema de quantização específico.
Em teoria, pode ser estendido a operações de ponto flutuante (enquanto a maioria das outras operações ainda se limita a operações de ponto fixo).
Ideal para casos de uso de agentes que exigem tanto verificação de identidade quanto proteção de privacidade.
A computação de conhecimento zero verdadeira pode ser suportada por meio de esquemas de folding (HyperNova / BlindFold). ✅
Realidade Tecnológica
O dilema da quantização: os modelos de aprendizado de máquina usam operações de ponto flutuante, enquanto as provas de conhecimento zero usam operações em campos finitos (que são essencialmente números inteiros). É necessário realizar uma conversão, o que resulta em perda de precisão. A maioria dos modelos de aprendizado de máquina de conhecimento zero (ZKML) são quantizados, portanto a precisão diminuirá ligeiramente. No entanto, por outro lado, muitos modelos de aprendizado de máquina usados ​​em dispositivos pequenos e ambientes de produção são modelos quantizados.
Cada framework lida com isso de forma diferente. Alguns frameworks usam larguras de bits maiores (mais precisos, porém mais lentos), alguns usam tabelas de consulta e alguns utilizam, de forma inteligente, representações de ponto fixo. O Jolt Atlas gosta da nossa abordagem porque não precisamos instanciar tabelas de consulta para muitos operadores de aprendizado de máquina.
Ninguém encontrou ainda uma solução perfeita. Só podemos aumentar gradualmente os cenários de aplicação por meio de iterações contínuas, e esse é um dos motivos pelos quais permanecemos otimistas em relação às perspectivas de desenvolvimento do ZKML a curto prazo.
Cobertura de operadores: O ONNX possui mais de 120 operadores, enquanto a maioria dos frameworks zkML suporta apenas de 50 a 200. Isso significa que algumas arquiteturas de modelos não estão funcionando corretamente no momento, e as equipes estão correndo para adicionar mais operadores, mas essa não é uma tarefa fácil.
Seu modelo de produção utiliza operadores que o framework zkML não suporta, o que é mais comum do que você imagina.
A especificação ONNX contém mais de 120 operadores, enquanto a maioria dos frameworks zkML suporta apenas 50 ou menos. A diferença reside em:
Camada personalizada que você escreveu para um caso de uso específico: Não
Métodos especiais de normalização (variantes de GroupNorm e LayerNorm): talvez
Fluxo de controle dinâmico (instrução if, loop): geralmente não
Mecanismo de atenção: Previsto para ser adicionado à estrutura principal em 2024-2025.
Inovações recentes (atração na tela inicial, incorporação rotativa): improváveis
Você encontrará esse problema ao tentar exportar o modelo: a conversão ONNX é bem-sucedida, mas a importação do framework falha com a mensagem de erro "Operador não suportado: [qualquer operador]".
Agora você está reescrevendo seu modelo para usar apenas operadores suportados, o que não é um obstáculo trivial — é uma limitação arquitetural da qual você deve estar ciente antes de começar o treinamento, e uma das razões pelas quais gostamos da abordagem zkVM… porque cada operador é mais fácil de implementar com funcionalidade plug-and-play, enquanto uma abordagem centrada em pré-compilados requer mais intervenção manual 🫳🧶.
Função de ativação: Escolha com cuidado. No aprendizado de máquina tradicional, as funções de ativação são livres: ReLU, sigmoide, tanh, GELU - escolha qualquer uma que seja eficaz.
Em zkML, as funções de ativação são operações dispendiosas que podem causar falhas nos circuitos.
Por que as funções de ativação são computacionalmente caras? Os circuitos ZK são baseados em operações polinomiais – adição e multiplicação sobre corpos finitos – que são baratas porque podem ser mapeadas diretamente para as restrições do circuito. No entanto, as funções de ativação são não lineares e não podem ser bem decompostas em operações de corpo.
A função ReLU exige o cálculo de "se x > 0, então x é 0, caso contrário" - essa comparação requer múltiplas restrições para ser representada. A função sigmoide requer 1/(1 + e^(-x)) para realizar a exponenciação em um campo finito, o que é muito trabalhoso, exige muitas operações de multiplicação e geralmente requer tabelas de consulta. A função softmax combina operações de exponenciação, soma e divisão e as aplica a todo o vetor, transformando o que originalmente era uma operação simples em um circuito complexo onde cada neurônio requer centenas ou até milhares de restrições.
Barato:
Linear (sem necessidade de ativação): Gratuito
Adição de escala: basicamente grátis
O do meio:
ReLU: Requer comparação, fácil de gerenciar
Função degrau: custo semelhante ao da ReLU
Caro:
Função sigmoide: Operações exponenciais em circuitos são complicadas.
Tanh: Pior ainda
Softmax: Exponenciação + Divisão + Normalização, a verdadeira dor de cabeça.
GELU / SwiGLU: Vamos deixar isso para depois (ainda temos trabalho a fazer).
Os Transformers modernos tendem a usar GELU e suas variantes, enquanto os Transformers zkML só podem usar algoritmos aproximados ou alternativas mais simples.
É por isso que a estrutura constrói tabelas de pesquisa não lineares, pré-calcula valores usados ​​com frequência e os referencia diretamente em vez de recompilar, o que é mais rápido, mas ao custo de maior uso de memória e opções de quantização limitadas.
Caso de aplicação: O que realmente merece ser comprovado?
Você acabou de ler sobre custos indiretos 10.000 vezes maiores, o inferno dos cálculos quantitativos e curvas de custo exponenciais, e uma pergunta muito razoável é: por que alguém se submeteria a esse tipo de sofrimento?
A resposta não é "tudo deveria usar zkML". A resposta é: alguns problemas exigem verificabilidade com urgência, então pagar o custo extra vale a pena.
Filtro básico
Antes de analisarmos os casos de uso, vamos realizar um teste: o custo de não confiar é maior do que o custo de provar que se confia?
Se o seu algoritmo de recomendação for usado para exibir vídeos de gatos, uma falha de confiança não causará nenhuma perda. Basta exibir os vídeos de gatos; ninguém se importará se o seu modelo é realmente o que você afirma que ele é.
Se você administra um robô de negociação com US$ 10 milhões em ativos, uma crise de confiança seria catastrófica. O robô ficaria fora de controle, as posições seriam liquidadas à força e você teria que explicar aos investidores por que confiou em uma API opaca.
O zkML é aplicável nas seguintes situações:
Alto risco: dinheiro, saúde, decisões legais, segurança
Falta de confiança: Desconfiança mútua entre várias partes
Restrições de privacidade: Dados sensíveis não podem ser compartilhados.
Requisito de auditabilidade: Órgãos reguladores ou partes interessadas exigem evidências.
Ambiente hostil: Algumas pessoas têm motivação para trapacear.
Se o seu caso de uso não atender a pelo menos dois dos critérios acima, então você pode não precisar do zkML por enquanto.
DeFi: Um Centro para Fundos
DeFi é um habitat natural para o zkML, caracterizado pelas seguintes características: transações de alto valor exigem execução sem confiança e verificação simples na blockchain, mantendo a transparência para os usuários, e forças hostis tentarão explorar todas as vulnerabilidades!
Oráculo de Preços
O primeiro produto zkML verdadeiramente significativo foi o zkPredictor da Upshot + Modulus. O problema era: como podemos confiar nas informações de preço quando a avaliação de NFTs é calculada por modelos proprietários de aprendizado de máquina?
Oráculos tradicionais: "Confie em nós, este é o resultado do nosso modelo." Oráculo zkML: "Aqui está uma prova criptográfica de que este preço provém deste modelo, operando sobre estes dados específicos (que podem ser dados privados)."
Essa prova significa que você pode criar produtos financeiros (empréstimos, derivativos) com base nesses preços sem confiar na Upshot. Eles não podem manipular os preços sem violar a prova; os dados permanecem privados, mas o processo de cálculo é verificável.
Este modelo é universal: sempre que um protocolo DeFi precisar de dados derivados de aprendizado de máquina (estimativas de volatilidade, pontuações de risco, previsões de rendimento), o zkML pode comprovar os resultados dos cálculos sem revelar o modelo.
Robôs e agentes de negociação
Imagine o seguinte: você implementou um agente otimizado para rendimento em vários protocolos DeFi, gerenciando posições de liquidez na Uniswap, minerando na Curve e rebalanceando na Aave.
Como você pode garantir que sua estratégia está sendo executada corretamente? Como você pode provar aos investidores que seus fundos estão sendo gerenciados de acordo com o algoritmo que você anuncia?
Usando o zkML, o agente gera uma prova para cada operação: "Transferi 50 ETH do pool A para o pool B porque meu modelo prevê retornos maiores, e esta é a prova de que usei a estratégia que você aprovou."
A Giza construiu essa funcionalidade sobre a Starknet. Seu framework LuminAIR (que utiliza o provador STWO da StarkWare) permite criar proxies verificáveis ​​para DeFi. Um proxy capaz de rebalancear posições na Uniswap V3 pode provar que cada decisão de rebalanceamento se origina de um modelo comprometido, com os pesos do modelo e as estratégias de negociação mantidos em segredo, enquanto o processo de prova é público.
Isso possibilita a interação entre agentes inteligentes, permitindo que seu agente colabore com outros agentes sem a necessidade de confiança mútua, já que ambas as partes geram resultados computacionais verificáveis ​​sem a necessidade de um intermediário confiável, envolvendo apenas operações matemáticas puras.
Modelos de risco e pontuação de crédito
Os bancos usam aprendizado de máquina para decisões de crédito, e os protocolos DeFi usam aprendizado de máquina para definir índices de garantia. A questão é: como provar que seu modelo de risco é aplicado de forma consistente?
Sistema tradicional: "Confie no banco." Sistema zkML: "Cada decisão de empréstimo vem com a comprovação de que o modelo específico avaliou os dados do solicitante de acordo com esses parâmetros fixos."
Isso é importante porque:
Conformidade regulamentar: Comprovando que você não está discriminando.
Auditoria de equidade: comprovando que o mesmo modelo se aplica a todos.
Resolução de Disputas: Se alguém contestar uma decisão, você pode fornecer provas criptografadas do ocorrido.
O modelo pode permanecer proprietário, os dados podem permanecer privados, e as evidências sugerem que todo o processo é justo.
Agentes não confiáveis
Você se lembra do começo? Os agentes passavam o código como numa corrida de revezamento?
Imagine um cenário como este – um ecossistema de agentes inteligentes, no qual:
O agente A, no seu telefone, analisou sua agenda e determinou que você precisa reservar um voo.
O agente B (serviço de reservas de viagens) encontra voos e preços.
O agente C (processador de pagamentos) executa a transação.
O Agente D (Controle de Despesas) registrará isso para uso contábil da sua empresa.
Cada etapa requer a verificação da etapa anterior. Se a análise do Agente A for fraudulenta, o Agente B não executará a operação. Se a cotação do Agente B for adulterada, o Agente C não efetuará o pagamento. Se a transação do Agente C for suspeita, o Agente D não a registrará.
Sem o zkML: ou cada agente é executado em uma zona confiável, ou todos os agentes confiam uns nos outros, e nenhuma dessas opções é escalável.
Usando zkML: Cada agente gera uma prova, o agente B verifica a prova do agente A, o agente C verifica a prova do agente B, todo o processo é confiável, um agente pode rodar na AWS, outro no seu celular e outro ainda no Ethereum, não importa - princípios matemáticos os conectam.
O futuro do x402 e do ERC-8004
Esses padrões emergentes definem como os agentes de IA podem pagar uns aos outros diretamente, sem intervenção humana, mas o pagamento requer confiança.
Se o Agente A afirma: "Eu fiz esta análise, me pague", o Agente B precisa de provas. Se o Agente B administra os fundos e o Agente A mente, isso é roubo. O zkML fornece a camada de provas.
Estamos caminhando para uma era de economia de agentes autônomos, onde os agentes contratam uns aos outros para concluir subtarefas, comprovam os resultados do seu trabalho por meio de tecnologia criptográfica e os pagamentos são feitos automaticamente com base na conclusão verificada, sem nenhuma instituição centralizada controlando todo o fluxo de trabalho.
O Jolt Atlas da NovaNet foi projetado para esse propósito, equilibrando privacidade e verificação. Esse agente pode comprovar a correção de seus cálculos sem revelar entradas, saídas ou estados intermediários, tornando-o a escolha perfeita para agentes comerciais onde todas as informações são altamente sensíveis.
Saúde: Privacidade e Auditabilidade
O setor de saúde está sendo inundado pelo aprendizado de máquina, mas teme violações de privacidade devido a regulamentações como HIPAA, GDPR e outras regionais — cada jurisdição tem suas próprias regras em relação aos dados dos pacientes.
Modelo de diagnóstico
Um hospital está utilizando um modelo de diagnóstico por aprendizado de máquina que foi aprovado pelo FDA e totalmente validado. Após a admissão do paciente, o modelo analisa os dados de imagem e fornece recomendações de tratamento.
A agência reguladora perguntou: "Vocês estão usando o modelo aprovado pelo FDA ou um modelo modificado? Podem comprovar isso?"
Resposta tradicional: "Confie em nossos registros." Resposta zkML: "Aqui está uma prova criptográfica de que este modelo (com os pesos determinados) foi executado nos dados deste paciente e produziu este resultado."
Os dados dos pacientes nunca sairão do hospital e os pesos do modelo são estritamente confidenciais (protegidos por direitos de propriedade intelectual), mas a documentação relevante será fornecida às agências reguladoras, seguradoras e quaisquer outras organizações que exijam verificação.
Pesquisa colaborativa carece de compartilhamento de dados
Diversos hospitais desejam usar seus próprios dados de pacientes para treinar um modelo, mas não podem compartilhar os dados devido às leis de privacidade, e também não conseguem construir confiança uns com os outros por causa da concorrência.
A vantagem do zkML é que cada hospital pode comprovar que seu treinamento local foi realizado corretamente com dados válidos. Ao combinar todas as comprovações, todos podem obter um modelo melhor. Além disso, ninguém tem acesso aos dados dos outros hospitais.
Jogos: Justiça Comprovável
Os jogos não precisam de zkML para exibir imagens de gatos, mas e os jogos competitivos onde há dinheiro real envolvido? Aí a história é outra.
adversários de IA
Você está jogando pôquer contra uma IA (inteligência artificial). Como você sabe que a IA não está trapaceando olhando suas cartas fechadas? Como você sabe que realmente pagou pelo nível de dificuldade "Difícil" e não apenas por um nível "Médio" renomeado?
zkML: O servidor de jogos comprova que cada decisão da IA ​​provém do modelo submetido, não pode ser burlada e não pode ser substituída por um modelo mais fraco. Essa comprovação é gerada para cada partida e verificada pelo cliente.
A Modulus desenvolveu o RockyBot (um jogo de luta com IA) e o Leela vs the World (um jogo de xadrez on-chain) como provas de conceito, demonstrando que o comportamento da IA ​​é verificável e que os jogadores podem confirmar que estão enfrentando uma IA genuína.
Emparelhamento justo
Os sistemas de matchmaking ranqueados usam aprendizado de máquina para emparelhar jogadores e, se o algoritmo for opaco, surgirão teorias da conspiração: "Eles estão me colocando com companheiros de equipe ruins de propósito!" "Eles estão manipulando os jogos!"
zkML: Isso prova que o algoritmo de correspondência funciona corretamente e que cada jogador é avaliado pelo mesmo modelo, refutando assim as teorias da conspiração.
Mercado de Modelos: Validação de Aprendizado de Máquina como Serviço (MLaaS)
Você pagou pelo acesso à API de nível GPT-4, então como você sabe que realmente recebeu o GPT-4 e não o GPT-3.5 renomeado?
Agora: Confie no fornecedor.
Ao usar zkML, cada resposta da API vem com uma prova: "Esta saída vem do modelo X com o parâmetro Y." Se o provedor tentar usar um modelo mais barato, a prova se torna inválida.
Isso possibilitou a formação de um mercado de modelos altamente competitivo, já que os fornecedores não podem trapacear no nível do modelo! Os usuários podem verificar a conformidade dos Acordos de Nível de Serviço (SLAs), e o preço está vinculado à capacidade computacional verificada (você paga apenas pela capacidade computacional que realmente recebe).
Memória de IA
Um dos principais casos de uso do ICME Labs são os modelos embarcados que podem ser executados em um navegador. Este é atualmente um alvo de aplicação prática para o ZKML. Imagine um usuário navegando pelo código-fonte em inglês, enquanto um consumidor está comprando e consultando informações em japonês – eles não podem verificar as informações, portanto, a confiança criptografada é necessária.
Ou alugue uma memória – acredite em mim, cara, “Eu tenho isso na minha memória de IA…” Os modelos de classificação agora podem ser usados ​​para resolver esse problema de confiança e criar uma nova economia de memória de IA™️.
O que ainda falta em 2025?
Sejamos honestos sobre onde as coisas ainda não estão funcionando:
Implementar um modelo de linguagem grande como o GPT-5 no zkML? Impossível: o GPT-2 poderia ser usado como demonstração (o zkPyTorch demonstrou o desempenho do Llama-3, mas leva 150 segundos por léxico), mas a inferência de modelos de linguagem grandes e de ponta é realmente possível... porém seria muito lenta e consumiria muita memória.
Sistemas em tempo real: Se você precisa de velocidades de inferência inferiores a 100 milissegundos e precisa fornecer provas, então só pode optar por modelos menores ou modelos de classificação mais simples. Os veículos autônomos precisam comprovar a correção de cada decisão? O zkML atual não consegue fazer isso.
Em relação ao treinamento: podemos comprovar a capacidade de inferência, mas não podemos comprovar a capacidade de treinamento em larga escala. Se você precisa verificar se um modelo foi treinado usando dados e métodos específicos, o ZKML não atende às suas necessidades no momento.
Arquiteturas complexas: Mecanismos de atenção acabaram de se tornar possíveis; modelos híbridos especializados? Redes neurais gráficas? Modelos de difusão? Essas ainda são áreas de pesquisa.
Previsões da ZKML para 2026
Aqui estão algumas previsões básicas sobre o aumento de 10 vezes no desbloqueio de conteúdo no restante de 2026.
Hardware Wave
Desbloquear chips de silício é justo.
Aceleração por GPU (já disponível): Todas as principais estruturas zkML já oferecem suporte a GPU ou estão adicionando suporte a GPU, incluindo EZKL, Lagrange, zkPyTorch e Jolt — todas executadas em CUDA. No entanto, o suporte a GPU em 2025 significará simplesmente "pode ​​ser executado em uma GPU", enquanto em 2026 significará "está otimizado para GPUs".
A distinção é crucial. A implementação atual adaptou o algoritmo da CPU para a GPU, enquanto a implementação da próxima geração redesenhará o algoritmo em torno de primitivas da GPU, realizará processamento massivamente paralelo, transferirá dados através da memória da GPU e usará fusão de kernels para gerar provas.
Impacto esperado: As cargas de trabalho existentes serão de 5 a 10 vezes mais rápidas. Um modelo que antes levava 30 segundos poderá ser concluído em apenas 3 a 5 segundos. Essa é a diferença entre "adequado para processamento em lote" e "adequado para aplicações interativas".
Verificação multi-máquina (camada de coordenação)
A versão mais recente do zkML: gere sua prova usando apenas uma máquina potente.
2026 zkML: A geração de provas é paralelizada em um cluster, os circuitos são divididos, distribuídos para múltiplos provadores (múltiplas dobras) e os resultados são agregados.
A Lagrange já começou a trabalhar nesse problema, e a Polyhedra também o mencionou em seu roteiro para o zkPyTorch. As tecnologias relevantes já existem (prova recursiva, agregação de provas, continuação). Nossa camada de infraestrutura, NovaNet, concentra-se em como provadores colaborativos (por meio de esquemas de folding) podem lidar com essa tarefa, que é muito difícil do ponto de vista da engenharia (alocação de trabalho, tolerância a falhas, otimização de custos).
Quando essa tecnologia for colocada em prática, demonstrará que, ao ser executada simultaneamente em 10 máquinas, o tempo de computação do GPT-2 pode ser reduzido de 10 minutos para 1 minuto, e que o Llama-3 passará da "curiosidade" para a "utilidade real".
Sistemas de Prova: Matemática Aprimorada
O hardware ajuda, mas algoritmos melhores ajudam ainda mais.
Aritmética de Campo
A maioria dos esquemas atuais de prova de conhecimento zero (ZKML) utiliza campos grandes como o BN254, enquanto algumas equipes estão explorando campos Mersenne-31 e outros campos menores que podem ser mais rápidos. Estima-se que a simples troca de campos possa proporcionar uma melhoria de desempenho de até 10 vezes. Sistemas baseados em curvas elípticas continuam a se beneficiar da esparsidade (por exemplo, Twist e Shout).
Os esquemas de prova de conhecimento zero baseados em reticulados permitem aproveitar esses campos menores, beneficiando-se também da esparsidade e do homomorfismo. O reticulado também suporta preços por bit e pode ter recursos de segurança pós-quântica. Por fim, um destaque é a capacidade de gerar parâmetros públicos dinamicamente.
Importância: As operações de domínio são o laço mais interno na geração de provas. Um aumento de 10 vezes na velocidade das operações de domínio significa que a velocidade de todos os processos de prova pode ser aumentada em 10 vezes. Um modelo que originalmente levava 10 segundos para concluir uma prova agora pode ser concluído em apenas 1 segundo.
O Jolt Atlas se beneficiou disso – sua arquitetura centrada em pesquisas funciona bem com dados esparsos – e algumas operações de aprendizado de máquina são altamente dependentes de dados esparsos.
Demonstre o esquema cumulativo/de dobramento.
O ZKTorch emprega esta abordagem: em vez de gerar provas independentes para cada camada, ele mescla várias provas em um único acumulador, resultando em uma prova muito pequena que é independente da profundidade do modelo.
Este é o reino das novas / supernovas / novas de nêutrons ⭐💥, SNARKs recursivos que permitem provar "Eu provei A, depois provei B e depois provei C" sem causar uma explosão no tamanho da prova.
Previsão para 2026: Isso se tornará o padrão, com todas as estruturas zkML adicionando funcionalidade de dobramento. O tamanho do arquivo de prova para ResNet-50 diminuirá de 1,27 GB (antigo Mystique) para menos de 100 KB (novos sistemas baseados em dobramento). Modelos do tipo GPT se tornarão viáveis, pois o tamanho do arquivo de prova não aumentará mais com o comprimento da sequência.
O folding também ajuda a resolver o problema da memória de prova insuficiente. Você pode executar o ZKML em diversos dispositivos e escolher um tamanho de passo que corresponda às especificações da máquina.
Por fim, o folding também pode ser usado para revitalizar protocolos de conhecimento zero (ZK) que não possuem recursos de proteção de privacidade, e há um ótimo truque no artigo da HyperNova que demonstra como fazer isso.
Prova de streaming
Limitação atual: Para provar um LLM que gera 100 tokens, é necessário provar primeiro o token 1, depois o token 2, depois o token 3 e assim por diante. Cada prova é independente, o que leva a um aumento acentuado no uso de memória. É possível controlar o crescimento da memória usando folding ou streaming.
Atualmente encontra-se em fase de pesquisa, mas será lançado em 2026. Nessa altura, a inferência LLM no zkML passará de "provar numa máquina de grande dimensão" para "provar em qualquer lugar".
A cobertura da operadora explode
Lembre-se: o ONNX possui mais de 120 operadores, enquanto a maioria dos frameworks suporta apenas cerca de 50.
A diferença está diminuindo rapidamente, não porque os frameworks estejam implementando operadores um a um, mas porque estão criando compiladores de operadores e primitivas genéricas do zkVM para lidar com um grande número de operadores em escala.
Transformador primitivo
Os mecanismos de atenção serão praticamente impossíveis de implementar em 2024, mas até o final de 2025, diversas estruturas os suportarão e, até 2026, eles estarão otimizados.
Circuito dedicado:
Escala do produto escalar Atenção
atenção multi-cabeça
Codificação de localização
Normalização de camadas (um recurso que eliminava os Transformers nas primeiras versões do zkML)
Combinado com provas em fluxo contínuo, isso significa que os modelos baseados em Transformers se tornam cidadãos de primeira classe no zkML, o que significa não apenas "podemos provar o GPT-2 lentamente", mas também "podemos provar arquiteturas Transformers modernas a um custo razoável".
Isso desbloqueará conversores visuais, modelos de áudio, modelos multimodais e todas as arquiteturas que suportam o aprendizado de máquina moderno, todos agora verificáveis.
Alterações na curva de custos levam à evolução dos casos de uso.
Os avanços tecnológicos em si não são importantes; o que importa são os resultados que eles trazem.
Proxy DeFi: Do processamento em lote ao tempo real
2025: O agente reequilibrará seu portfólio a cada hora, gerando um certificado em segundo plano para cada reequilíbrio. O certificado anterior estará pronto quando a próxima negociação for executada.
2026: O agente reequilibra em tempo real com base nas condições de mercado. O tempo de geração da prova é de 1 a 5 segundos. O agente opera em um ciclo contínuo: observa o mercado → calcula a decisão → gera a prova → executa a transação. A prova pode ser obtida antes da confirmação do próximo bloco.
Isso muda tudo; você pode criar proxies responsivos, não apenas proxies temporizados, com proteção contra falhas extremas, defesa contra MEV e arbitragem automatizada com garantias criptográficas.
Saúde: Dos registros de auditoria à validação em tempo real
2025: Os hospitais realizam diagnósticos, os modelos geram resultados e, em seguida, os hospitais enviam a documentação de apoio às agências reguladoras. A geração da documentação leva apenas alguns minutos e pode ser concluída offline.
2026: A velocidade de geração dos resultados de validação é suficientemente rápida para ser concluída no fluxo de trabalho clínico. Os médicos emitem pedidos de exames, o modelo é executado e os resultados de validação são gerados em paralelo. Quando os médicos revisam os resultados, os resultados de validação são enviados juntamente com os resultados dos exames.
Isso possibilita: auditoria de conformidade em tempo real, verificação instantânea da pré-autorização do seguro e fluxos de trabalho interdepartamentais, nos quais cada etapa é verificada antes de prosseguir para a próxima.
Agentes sem confiança: da demonstração à produção
2025: O fluxo de trabalho por meio de proxy é viável, mas complexo. Cada interação com o proxy exige a geração de provas, o que leva de alguns segundos a vários minutos. O fluxo de trabalho complexo é lento.
2026: Para modelos simples, a velocidade de comprovação pode atingir níveis abaixo de um segundo; para modelos complexos, a velocidade de comprovação pode ser paralelizada; as interações entre os agentes serão mais naturais e fluidas. O agente A chama o agente B, aguarda 0,5 segundos para a verificação da comprovação e, em seguida, continua a execução. Embora o atraso seja incômodo, é muito melhor do que a operação manual 🤪.
É nesse momento que as redes de agentes sem confiança podem realmente escalar, não em projetos de pesquisa, mas em sistemas de produção onde centenas de agentes colaboram, cada um autenticando seu trabalho de forma criptográfica.
A visão do x402/ERC-8004 tornou-se realidade: agentes contratam agentes, pagamentos são feitos em criptomoeda e tudo isso é intermediado por prova de identidade.
Jogos: De jogos de turno a jogos em tempo real
2025: A aplicação do zkML em jogos ficará limitada a cenários baseados em turnos, como bots de pôquer, engines de xadrez e jogos de estratégia que podem tolerar de 1 a 5 segundos de comprovação por jogada.
2026: Velocidade suficiente para atender aos requisitos de IA em tempo real de certos tipos de jogos, como jogos de luta onde cada decisão tomada pelo oponente de IA precisa ser validada, e jogos de RTS onde decisões estratégicas (não o direcionamento de unidades, mas táticas de alto nível) precisam ser validadas.
Para jogos de tiro em primeira pessoa ou mecânicas de jogo que exigem velocidade de reação, a velocidade ainda não é suficiente, mas o espaço de design viável foi ampliado consideravelmente.
Modelo de Mercado: Do ​​Mercado de Nicho ao Mercado Convencional
2025: Verificar respostas de API é interessante, mas sua aplicação é limitada, e apenas aplicações de alto valor justificam o custo adicional.
2026: Os custos cairão significativamente e a verificação se tornará o procedimento padrão para qualquer API que cobre mais de US$ 0,01 por chamada. Os provedores de modelos se diferenciarão com base na verificabilidade e a "inferência não verificada" se tornará um serviço básico.
Isso possibilita: fornecer prova de trabalho para serviços de IA, aplicando acordos de nível de serviço (SLAs) por meio de criptografia, e um sistema de reputação baseado no histórico de computação verificado.
Memória de IA verificável: criando valor compartilhado
2025: Já demonstramos funcionalidades de incorporação e classificação de bases de dados vetoriais utilizando ZKML em 2025, e este caso de uso será ampliado para uma escala massiva em 2026.
2026: A memória compartilhada de IA sem necessidade de confiança entra em operação, e seu assistente de IA não terá mais uma única fonte de memória – ele coordenará múltiplas fontes de memória verificadas, incluindo memória pessoal, memória corporativa e conhecimento especializado.
Em última análise
Desenvolva um plano gradual e, ocasionalmente, dê saltos revolucionários – inscreva-se para saber mais sobre esses saltos!
A era ZKML começou – provamos que é viável verificar aprendizado de máquina usando provas de conhecimento zero (ZKP), e agora estamos entrando em uma fase um pouco tediosa: engenheiros e pesquisadores estão trabalhando arduamente para torná-la mais rápida, mais barata e mais confiável.
Em um evento, ouvi um investidor de capital de risco em criptomoedas dizer: "ZK está chato este ano!"
O tédio é uma coisa boa; significa que está se tornando real.
Autor: Wyatt Benno (Fundador da Kinic)
Tradução por: Catherine
#KINIC #zkml  #ICP生态  #AI 
Conteúdo de IC que lhe interessa
Avanços Tecnológicos | Informações sobre o Projeto | Eventos Globais
Siga e adicione aos favoritos o canal IC Binance.
Mantenha-se atualizado com as informações mais recentes.
Guia de Autoridade ZKML (2025)

Últimas Notícias