結合DAG式投票與目標性獎勵折扣的平行工作量證明：分析與協定設計

1. 簡介與概述

本文提出一種新穎的工作量證明加密貨幣協定，旨在解決比特幣及其近期變體Tailstorm的關鍵限制。核心創新在於結合平行工作量證明共識、DAG式投票以及目標性獎勵折扣方案。該協定旨在提供更優異的一致性保證、更高的交易吞吐量、更低的確認延遲，並增強對基於激勵的攻擊（例如自私挖礦）的韌性。

此研究的動機來自於PoW系統中共識演算法與激勵方案之間的循環依賴性。雖然比特幣的特性已被充分理解，但許多新協定缺乏對一致性與激勵機制的全面分析。Tailstorm雖改進了比特幣，但仍存在缺陷：其樹狀結構投票導致部分投票未被確認，且其統一的獎勵折扣機制在懲罰違規者的同時也懲罰了無辜的礦工。

關鍵見解

DAG優於樹狀結構：將投票結構化為有向無環圖而非樹狀結構，使得每個區塊能確認更多投票，並實現精準、目標性的懲罰。
目標性折扣：獎勵是根據單一投票對非線性（例如導致分叉）的貢獻度進行折扣，而非對整個區塊進行統一折扣。
攻擊韌性：基於強化學習的攻擊搜尋顯示，所提議的協定比比特幣和基礎PPoW更能抵抗激勵攻擊。
關鍵發現：在特定網路條件下，沒有獎勵折扣的PPoW可能比比特幣更不安全。

2. 核心協定設計

2.1 平行工作量證明 (PPoW) 基礎

如先前研究所介紹，PPoW要求挖出可配置數量 $k$ 個PoW「投票」（或區塊）後，才能附加下一個主區塊。這創造了一種平行化的區塊結構。每個投票都包含交易。此設計本質上提供了比比特幣線性鏈更強的一致性保證，因為最終確定一個區塊需要多個支援證明。

2.2 從樹狀結構到DAG：投票結構化

Tailstorm將這些 $k$ 個投票結構化為樹狀，每個新投票引用單一父節點。這造成了一個困境：礦工必須選擇擴展哪個分支，導致某些分支及其交易直到下一個區塊才能被確認。

所提議的協定將投票結構化為有向無環圖。一個新投票可以引用多個先前的投票作為父節點。這增加了連通性，並允許更多投票被納入給定區塊的共識集合中，從而提高交易確認率並降低延遲。

2.3 目標性獎勵折扣機制

Tailstorm根據投票樹的深度按比例折扣獎勵，平等地懲罰深度（非線性）樹中的所有礦工。新協定實施了目標性折扣方案。礦工投票的獎勵是根據其在DAG中的特定角色計算的：

$Reward_v = BaseReward \times (1 - \alpha \cdot C_v)$

其中 $C_v$ 是衡量投票 $v$ 對非線性或分叉創建貢獻度的指標（例如，它引用了多少個本身未相互連接的競爭投票）。參數 $\alpha$ 控制折扣強度。這確保了只有其行為直接損害共識線性的礦工才會受到懲罰。

3. 安全性與激勵分析

3.1 與比特幣的一致性保證比較

本文宣稱，在現實的網路假設下，經過10分鐘的確認視窗後，成功雙重支付攻擊的機率大約比比特幣低50倍。這源於PPoW中 $k$ 個投票的要求，這使得攻擊者在統計上更難逆轉一個已確認的區塊。

3.2 強化學習攻擊搜尋

一個重要的方法學貢獻是使用強化學習來系統性地搜尋針對該協定的最佳攻擊策略。RL代理學習操縱投票發布時機和父節點選擇以最大化利潤。這種方法比臨時性的攻擊分析更為嚴謹，並揭示了未經折扣的基礎PPoW是脆弱的。

3.3 對抗激勵攻擊的韌性

DAG投票與目標性折扣的結合，為自私挖礦創造了強大的抑制因素。涉及隱藏區塊或創建分叉的攻擊變得不那麼有利可圖，因為攻擊者的獎勵會被直接折扣。基於RL的分析證實了所提議的協定相較於比特幣和Tailstorm具有更優異的韌性。

4. 效能評估

4.1 交易吞吐量與延遲

透過將交易打包到每個區塊的 $k$ 個投票中，該協定實現了比比特幣單一區塊每間隔模型更高的吞吐量。DAG結構進一步降低了延遲，它允許更多投票（及其交易）在當前區塊中被確認，而非被延遲。

4.2 與Tailstorm的比較

本文直接解決了Tailstorm的兩個缺陷：1) 未確認的投票： DAG透過允許多個父節點引用來緩解此問題。2) 集體懲罰： 目標性折扣取代了統一的樹深懲罰。結果是一個保留了Tailstorm優點，同時克服了其弱點的協定。

5. 技術細節與數學公式

獎勵折扣函數是核心。令 $G$ 為一個區塊的投票DAG。對於一個投票 $v \in G$，定義其「衝突分數」 $C_v$。一個提議的衡量方式是：

$C_v = \frac{|\text{未連接的父節點}(v)|}{|\text{總父節點}(v)| + \epsilon}$

其中「未連接的父節點」是指本身沒有祖先連結關係的父投票。高的 $C_v$ 表示 $v$ 正在引用衝突的分支，增加了非線性。最終獎勵會根據此分數進行折扣。RL代理的目標是學習一個策略 $\pi$，以最大化累積折扣獎勵 $\sum \gamma^t R_t$，其中 $R_t$ 是在時間 $t$ 發布具有特定父節點選擇的投票所獲得的（可能被折扣的）獎勵。

6. 實驗結果與發現

本文可能包含模擬比較比特幣、Tailstorm、基礎PPoW以及所提議的帶有目標性折扣的DAG-PPoW之間的攻擊成功率和獲利能力。圖表或表格中呈現的關鍵預期結果將顯示：

圖表1：雙重支付機率 vs. 確認時間： 顯示所提議協定的曲線比比特幣的曲線下降得快得多。
圖表2：攻擊者相對收益： 比較不同協定下經RL優化的攻擊者收益的條形圖。DAG-PPoW的條形應該是最低的，甚至可能低於1.0（誠實挖礦）。
圖表3：交易確認率： 顯示在第一個區塊內確認的交易百分比，突顯DAG相對於樹狀結構的優勢。

關鍵發現： 實驗很可能證實了本文引人注目的主張：「在某些現實的網路情境下，沒有獎勵折扣的平行工作量證明比比特幣更不具備抵抗激勵攻擊的韌性。」 這強調了將新的共識機制與精心設計的激勵方案緊密結合的絕對必要性。

7. 分析框架：案例範例

情境： 一名礦工控制網路25%的算力，並想執行自私挖礦攻擊。

在比特幣/Tailstorm中： M隱藏一個找到的區塊以創建一個私有分叉。如果成功，M可以孤立誠實區塊並獲得不成比例的獎勵。RL代理將學會此策略。

在帶有目標性折扣的DAG-PPoW中：

M找到一個投票 $V_m$。為了發動攻擊，M隱藏 $V_m$ 並稍後發布它，引用多個較舊的、衝突的投票，試圖創建一個主導分叉。
協定分析DAG。$V_m$ 具有高的 $C_v$，因為它引用了未連接的投票，故意增加了非線性。
$V_m$ 的獎勵被大幅折扣：$Reward_{V_m} = BaseReward \times (1 - \alpha \cdot 0.8)$。
即使M的分叉獲勝，折扣後的獎勵也使得攻擊的獲利低於誠實挖礦。RL代理學會避免此策略。

此案例顯示了協定的機制如何直接改變攻擊者的利潤計算。

8. 未來應用與研究方向

混合共識模型： DAG-PPoW概念可以與其他共識機制（如權益證明或委託系統）整合，以創建分層安全模型。
動態參數調整： 未來工作可以探索使 $k$（投票數量）和 $\alpha$（折扣強度）動態化，根據網路狀況和觀察到的攻擊模式進行調整。
跨領域應用： 使用圖結構來歸因和懲罰「不良行為」的核心思想，可以超越區塊鏈，應用於分散式資料庫共識和協作式故障檢測系統。
形式化驗證： 關鍵的下一步是使用TLA+或Coq等工具，對協定的安全性和活性屬性進行形式化驗證，遵循對Tendermint等協定進行嚴謹分析所樹立的先例。
實際部署挑戰： 需要研究啟動過程、輕客戶端支援，以及協定在極端網路分割下的行為。

9. 參考文獻

Nakamoto, S. (2008). Bitcoin: A Peer-to-Peer Electronic Cash System.
Garay, J., Kiayias, A., & Leonardos, N. (2015). The Bitcoin Backbone Protocol: Analysis and Applications. EUROCRYPT.
Sompolinsky, Y., & Zohar, A. (2016). Bitcoin’s Security Model Revisited. arXiv:1605.09193.
Eyal, I., & Sirer, E. G. (2014). Majority is not Enough: Bitcoin Mining is Vulnerable. Financial Cryptography.
[Tailstorm Reference] - PDF中Tailstorm的具體引用。
[Parallel Proof-of-Work Reference] - PDF中PPoW的具體引用。
Sutton, R. S., & Barto, A. G. (2018). Reinforcement Learning: An Introduction. MIT Press. (用於RL方法學)。
Buchman, E., Kwon, J., & Milosevic, Z. (2018). The Latest Gossip on BFT Consensus. arXiv:1807.04938. (用於與BFT協定比較)。

10. 專家分析與評論

核心見解

本文不僅僅是對工作量證明的又一次漸進式調整；它是對困擾區塊鏈設計的根本性激勵-共識循環的一次精準打擊。作者正確地指出，大多數「改進」的協定之所以失敗，是因為它們在真空環境中最佳化活性或吞吐量，忽略了這些改變如何扭曲礦工經濟學。他們的關鍵見解是，安全性不僅僅是共識演算法的屬性，更是其與能夠精準歸咎責任的懲罰系統緊密耦合的結果。從Tailstorm的樹狀結構轉向DAG，不僅是為了效率，更是為了創造進行目標性懲罰所需的細粒度鑑識能力。

邏輯脈絡

論證的建構無懈可擊：1) 比特幣的限制眾所周知，2) Tailstorm雖有進展但引入了新問題（懲罰機制粗放、確認延遲），3) 因此，我們需要一種能提供更細粒度礦工行為資料的結構，以及4) 我們必須利用這些資料實施精準的抑制措施。使用強化學習來壓力測試提案尤其巧妙。它反映了現實世界的攻擊者如何運作——並非遵循靜態腳本，而是適應性地搜尋利潤——因此提供了比傳統機率模型更真實的安全性評估。基礎PPoW可能比比特幣更不安全的驚人發現，證明了此方法的價值；它揭露了隱藏的攻擊面。

優點與缺陷

優點： 概念框架穩健。DAG+目標性折扣機制優雅，並解決了先前技術的明顯缺陷。方法學的嚴謹性為評估加密經濟學樹立了新標準。本文也有助於揭開常被過度炒作的「DAG」術語的神秘面紗，將其應用於PoW背景下的特定、可衡量的目的，這與更多投機性的DAG專案不同。

缺陷與開放性問題： 最顯著的問題是複雜性。該協定要求礦工和節點維護並分析DAG、計算衝突分數並應用自訂折扣。與比特幣優美的簡潔性相比，這增加了計算和實作開銷。折扣參數也可能成為治理衝突的來源。此外，與許多學術提案一樣，分析很可能假設礦工是理性且利潤最大化的。它並未完全解決目標是破壞而非獲利的拜占庭行為者——這是Castro和Liskov等傳統BFT文獻中考慮的威脅模型。

可操作的見解

對於協定設計者：激勵分析是不可妥協的。 任何共識變更都必須使用RL等工具進行建模，以發現不良激勵。「PPoW比比特幣更不安全」的發現應是一個警鐘。對於開發者：用於問責的DAG模式是一個強大的工具，值得在其他共識情境中探索，例如分片架構或第二層網路。對於研究社群：這項工作突顯了對標準化、開源的加密經濟學攻擊RL框架的迫切需求，類似於AI社群擁有基準資料集。最後，最重要的啟示是，區塊鏈安全正從純密碼學轉向密碼學、賽局理論和機器學習的混合學科。未來的安全系統將需要這三方面的專業知識。