Prova de Trabalho Paralela com Votação em Estilo DAG e Desconto de Recompensa Direcionado: Análise e Design de Protocolo

1. Introdução & Visão Geral

Este artigo apresenta um novo protocolo de criptomoeda baseado em Prova de Trabalho (PoW) que aborda limitações fundamentais do Bitcoin e de sua variante recente, o Tailstorm. A inovação central reside na combinação do consenso de Prova de Trabalho Paralela (PPoW) com votação em estilo DAG e um esquema de desconto de recompensa direcionado. O protocolo visa fornecer garantias de consistência superiores, maior throughput de transações, menor latência de confirmação e resiliência aprimorada contra ataques baseados em incentivos, como a mineração egoísta.

O trabalho é motivado pela dependência circular nos sistemas PoW entre algoritmos de consenso e esquemas de incentivo. Embora as propriedades do Bitcoin sejam bem compreendidas, muitos protocolos mais recentes carecem de uma análise completa tanto da consistência quanto dos incentivos. O Tailstorm melhorou o Bitcoin, mas apresentava deficiências: sua votação estruturada em árvore deixava alguns votos não confirmados, e seu desconto de recompensa uniforme punia mineradores inocentes junto com os infratores.

Principais Insights

DAG em vez de Árvore: Estruturar os votos como um Grafo Acíclico Direcionado (DAG) em vez de uma árvore permite que mais votos sejam confirmados por bloco e possibilita uma punição precisa e direcionada.
Desconto Direcionado: As recompensas são descontadas com base na contribuição individual de um voto para a não linearidade (ex.: causar forks), e não uniformemente em todo um bloco.
Resiliência a Ataques: Buscas de ataques baseadas em aprendizado por reforço mostram que o protocolo proposto é mais resiliente a ataques de incentivo do que tanto o Bitcoin quanto a PPoW básica.
Descoberta Crítica: A PPoW sem desconto de recompensa pode ser menos segura do que o Bitcoin sob certas condições de rede.

2. Design Central do Protocolo

2.1 Fundamentos da Prova de Trabalho Paralela (PPoW)

A PPoW, conforme introduzida em trabalhos anteriores, requer que um número configurável $k$ de "votos" (ou blocos) de PoW sejam minerados antes que o próximo bloco principal possa ser anexado. Isso cria uma estrutura de blocos paralelizada. Cada voto contém transações. Este design fornece inerentemente garantias de consistência mais fortes do que a cadeia linear do Bitcoin, porque finalizar um bloco requer múltiplas provas de suporte.

2.2 De Árvore para DAG: Estruturação de Votos

O Tailstorm estruturou esses $k$ votos como uma árvore, onde cada novo voto referencia um único pai. Isso cria um dilema: os mineradores devem escolher qual ramo estender, deixando alguns ramos—e suas transações—não confirmados até o próximo bloco.

O protocolo proposto estrutura os votos como um Grafo Acíclico Direcionado (DAG). Um novo voto pode referenciar múltiplos votos anteriores como pais. Isso aumenta a conectividade e permite que mais votos sejam incluídos no conjunto de consenso para um determinado bloco, melhorando as taxas de confirmação de transações e reduzindo a latência.

2.3 Mecanismo de Desconto de Recompensa Direcionado

O Tailstorm descontava recompensas proporcionalmente à profundidade da árvore de votos, punindo igualmente todos os mineradores em uma árvore profunda (não linear). O novo protocolo implementa um esquema de desconto direcionado. A recompensa pelo voto de um minerador é calculada com base em seu papel específico no DAG:

$Reward_v = BaseReward \times (1 - \alpha \cdot C_v)$

Onde $C_v$ é uma medida da contribuição do voto $v$ para a não linearidade ou criação de forks (ex.: quantos votos concorrentes ele referencia que não estão conectados entre si). O parâmetro $\alpha$ controla a força do desconto. Isso garante que apenas mineradores cujas ações prejudiquem diretamente a linearidade do consenso sejam penalizados.

3. Análise de Segurança & Incentivos

3.1 Garantias de Consistência vs. Bitcoin

O artigo afirma que, após uma janela de confirmação de 10 minutos, a probabilidade de um ataque de gasto duplo bem-sucedido é aproximadamente 50 vezes menor do que no Bitcoin, sob suposições realistas de rede. Isso decorre do requisito de $k$ votos na PPoW, o que torna estatisticamente mais difícil para um atacante reverter um bloco confirmado.

3.2 Busca de Ataques com Aprendizado por Reforço

Uma contribuição metodológica significativa é o uso de Aprendizado por Reforço (RL) para buscar sistematicamente estratégias de ataque ótimas contra o protocolo. O agente de RL aprende a manipular o momento da publicação de votos e a seleção de pais para maximizar o lucro. Esta abordagem é mais rigorosa do que a análise de ataques ad-hoc e revelou que a PPoW pura (sem desconto) é vulnerável.

3.3 Resiliência Contra Ataques de Incentivo

A combinação da votação em DAG e do desconto direcionado cria um poderoso desincentivo para a mineração egoísta. Ataques que envolvem reter blocos ou criar forks tornam-se menos lucrativos porque as recompensas do atacante são diretamente descontadas. A análise baseada em RL confirma a resiliência superior do protocolo proposto em comparação com o Bitcoin e o Tailstorm.

4. Avaliação de Desempenho

4.1 Throughput & Latência de Transações

Ao empacotar transações em cada um dos $k$ votos por bloco, o protocolo alcança um throughput maior do que o modelo de bloco único por intervalo do Bitcoin. A estrutura DAG reduz ainda mais a latência ao permitir que mais votos (e, portanto, suas transações) sejam confirmados no bloco atual, em vez de serem adiados.

4.2 Comparação com o Tailstorm

O artigo aborda diretamente as duas falhas do Tailstorm: 1) Votos Não Confirmados: O DAG mitiga isso ao permitir múltiplas referências de pais. 2) Punição Coletiva: O desconto direcionado substitui a punição uniforme baseada na profundidade da árvore. O resultado é um protocolo que mantém os benefícios do Tailstorm enquanto supera suas fraquezas.

5. Detalhes Técnicos & Formulação Matemática

A função de desconto de recompensa é central. Seja $G$ o DAG de votos para um bloco. Para um voto $v \in G$, define-se sua "pontuação de conflito" $C_v$. Uma medida proposta é:

$C_v = \frac{|\text{Pais Não Conectados}(v)|}{|\text{Total de Pais}(v)| + \epsilon}$

Onde "Pais Não Conectados" são votos pais que não estão ligados ancestralmente entre si. Um $C_v$ alto indica que $v$ está referenciando ramos conflitantes, aumentando a não linearidade. A recompensa final é descontada por esta pontuação. O objetivo do agente de RL é aprender uma política $\pi$ que maximize a recompensa descontada cumulativa $\sum \gamma^t R_t$, onde $R_t$ é a recompensa (potencialmente descontada) da publicação de um voto no tempo $t$ com seleções específicas de pais.

6. Resultados Experimentais & Descobertas

O artigo provavelmente inclui simulações comparando taxas de sucesso de ataques e lucratividade entre Bitcoin, Tailstorm, PPoW básica e a DAG-PPoW proposta com desconto direcionado. Os principais resultados esperados, apresentados em gráficos ou tabelas, mostrariam:

Gráfico 1: Probabilidade de Gasto Duplo vs. Tempo de Confirmação: Um gráfico mostrando a curva do protocolo proposto caindo muito mais rápido que a do Bitcoin.
Gráfico 2: Receita Relativa do Atacante: Um gráfico de barras comparando a receita de um atacante otimizado por RL sob diferentes protocolos. A barra da DAG-PPoW deve ser a mais baixa, possivelmente até abaixo de 1.0 (mineração honesta).
Gráfico 3: Taxa de Confirmação de Transações: Mostrando a porcentagem de transações confirmadas dentro do primeiro bloco, destacando a vantagem do DAG sobre a estrutura em árvore.

Descoberta Crítica: Os experimentos presumivelmente confirmam a afirmação marcante do artigo de que "a prova de trabalho paralela sem desconto de recompensa é menos resiliente a ataques de incentivo do que o Bitcoin em alguns cenários realistas de rede." Isso ressalta a absoluta necessidade de acoplar novos mecanismos de consenso com esquemas de incentivo cuidadosamente projetados.

7. Estrutura de Análise: Exemplo de Caso

Cenário: Um minerador (M) controla 25% do poder de hash da rede e quer executar um ataque de mineração egoísta.

No Bitcoin/Tailstorm: M retém um bloco encontrado para criar um fork privado. Se bem-sucedido, M pode orfanar blocos honestos e reivindicar uma recompensa desproporcional. O agente de RL aprenderia essa estratégia.

Na DAG-PPoW com Desconto Direcionado:

M encontra um voto $V_m$. Para lançar um ataque, M retém $V_m$ e o publica mais tarde, referenciando múltiplos votos antigos e conflitantes para tentar criar um fork dominante.
O protocolo analisa o DAG. $V_m$ tem um $C_v$ alto porque referencia votos não conectados, aumentando deliberadamente a não linearidade.
A recompensa de $V_m$ é fortemente descontada: $Reward_{V_m} = BaseReward \times (1 - \alpha \cdot 0.8)$.
Mesmo se o fork de M vencer, a recompensa descontada torna o ataque menos lucrativo do que a mineração honesta. O agente de RL aprende a evitar essa estratégia.

Este caso mostra como a mecânica do protocolo altera diretamente o cálculo de lucro do atacante.

8. Aplicações Futuras & Direções de Pesquisa

Modelos de Consenso Híbridos: O conceito DAG-PPoW poderia ser integrado a outros mecanismos de consenso como Prova de Participação (PoS) ou sistemas delegados para criar modelos de segurança em camadas.
Ajuste Dinâmico de Parâmetros: Trabalhos futuros poderiam explorar tornar $k$ (número de votos) e $\alpha$ (força do desconto) dinâmicos, ajustando-se com base nas condições da rede e nos padrões de ataque observados.
Aplicação em Outros Domínios: A ideia central de usar a estrutura de grafo para atribuir e penalizar "mau comportamento" poderia ser aplicada além do blockchain, em consenso de bancos de dados distribuídos e sistemas colaborativos de detecção de falhas.
Verificação Formal: Um próximo passo crítico é a verificação formal das propriedades de segurança e vivacidade do protocolo usando ferramentas como TLA+ ou Coq, seguindo o precedente estabelecido por análises rigorosas de protocolos como o Tendermint.
Desafios de Implantação no Mundo Real: É necessária pesquisa sobre inicialização (bootstrapping), suporte a clientes leves e o comportamento do protocolo sob partição extrema de rede (cenários de "split-brain").

9. Referências

Nakamoto, S. (2008). Bitcoin: A Peer-to-Peer Electronic Cash System.
Garay, J., Kiayias, A., & Leonardos, N. (2015). The Bitcoin Backbone Protocol: Analysis and Applications. EUROCRYPT.
Sompolinsky, Y., & Zohar, A. (2016). Bitcoin’s Security Model Revisited. arXiv:1605.09193.
Eyal, I., & Sirer, E. G. (2014). Majority is not Enough: Bitcoin Mining is Vulnerable. Financial Cryptography.
[Referência do Tailstorm] - A citação específica para o Tailstorm do PDF.
[Referência da Prova de Trabalho Paralela] - A citação específica para a PPoW do PDF.
Sutton, R. S., & Barto, A. G. (2018). Reinforcement Learning: An Introduction. MIT Press. (Para metodologia RL).
Buchman, E., Kwon, J., & Milosevic, Z. (2018). The Latest Gossip on BFT Consensus. arXiv:1807.04938. (Para comparação com protocolos BFT).

10. Análise Especializada & Revisão Crítica

Insight Central

Este artigo não é apenas mais um ajuste incremental na Prova de Trabalho; é um ataque cirúrgico ao loop fundamental incentivo-consenso que assombra o design de blockchain. Os autores identificam corretamente que a maioria dos protocolos "melhorados" falha porque otimiza a vivacidade ou o throughput de forma isolada, ignorando como essas mudanças distorcem a economia dos mineradores. Seu insight principal é que a segurança não é uma propriedade apenas do algoritmo de consenso, mas de seu acoplamento estreito com um sistema de penalidades que pode atribuir culpa com precisão. Passar da árvore do Tailstorm para um DAG não é sobre eficiência—é sobre criar a granularidade forense necessária para a punição direcionada.

Fluxo Lógico

O argumento se constrói impecavelmente: 1) Os limites do Bitcoin são bem conhecidos, 2) O Tailstorm fez progresso, mas introduziu novos problemas (punição imprecisa, confirmações adiadas), 3) Portanto, precisamos de uma estrutura (DAG) que forneça dados mais granulares sobre o comportamento do minerador, e 4) Devemos usar esses dados para aplicar desincentivos cirúrgicos. O uso do Aprendizado por Reforço para testar a proposta é particularmente elegante. Ele espelha como atacantes do mundo real operam—não seguindo scripts estáticos, mas buscando lucro de forma adaptativa—e, portanto, fornece uma avaliação de segurança mais realista do que os modelos probabilísticos tradicionais. A descoberta chocante de que a PPoW pura pode ser menos segura que o Bitcoin é um testemunho do valor deste método; ele expõe superfícies de ataque ocultas.

Pontos Fortes & Fracos

Pontos Fortes: A estrutura conceitual é robusta. O mecanismo DAG+desconto direcionado é elegante e aborda falhas claras em trabalhos anteriores. O rigor metodológico (busca de ataques baseada em RL) estabelece um novo padrão para avaliar criptoeconomia. O artigo também desmistifica de forma útil o termo frequentemente superestimado "DAG", aplicando-o a um propósito específico e mensurável dentro de um contexto PoW, ao contrário de projetos baseados em DAG mais especulativos.

Falhas & Questões em Aberto: O elefante na sala é a complexidade. O protocolo requer que mineradores e nós mantenham e analisem um DAG, calculem pontuações de conflito e apliquem descontos personalizados. Isso aumenta a sobrecarga computacional e de implementação em comparação com a bela simplicidade do Bitcoin. Há também o risco de os parâmetros de desconto ($\alpha$) se tornarem uma fonte de conflito de governança. Além disso, como em muitas propostas acadêmicas, a análise provavelmente assume um minerador um tanto racional e maximizador de lucro. Ela não aborda totalmente atores bizantinos cujo objetivo é a perturbação, e não o lucro—um modelo de ameaça considerado na literatura BFT tradicional, como a de Castro e Liskov (1999).

Insights Acionáveis

Para designers de protocolos: A análise de incentivos é não negociável. Qualquer mudança de consenso deve ser modelada com ferramentas como RL para descobrir incentivos perversos. A descoberta "PPoW-menos-segura-que-Bitcoin" deve ser um alerta. Para desenvolvedores: O padrão DAG-para-responsabilização é uma ferramenta poderosa que vale a pena explorar em outros contextos de consenso, talvez até em arquiteturas fragmentadas (sharded) ou redes de camada 2. Para a comunidade de pesquisa: Este trabalho destaca a necessidade urgente de estruturas RL padronizadas e de código aberto para atacar criptoeconomia, semelhante a como a comunidade de IA tem conjuntos de dados de referência. Finalmente, a maior lição é que a segurança do blockchain está se movendo da criptografia pura para uma disciplina híbrida de criptografia, teoria dos jogos e aprendizado de máquina. Sistemas seguros futuros precisarão de expertise nas três áreas.