Louis's 程式筆記本: PFN_LIST

一、前言

就在去年，手頭上有個舊案子，為了與時俱進並且符合客戶的需求，在徵得老闆同意後修改了驅動的架構。為了優化網路傳輸，我將TDI client加入舊有的驅動層，但在開發過程中也因此產生了一些問題，由於狀況並不容易重現，加上除錯的過程也不是相當順利，雖然最後順利的解決，但還是值得紀錄留存。

二、問題分析

1. !analyze -v

問題初判為PFN_LIST_CORRUPT,根據官網得知，參數1可以代表不同的原因。這裡我的問題0x9A表示: 驅動試圖去釋放一個分頁，但這個分頁此時正在進行IO操作。或是說分頁被鎖在實體記憶體分頁中，在未解鎖(Unlock)的情況下，驅動試圖去釋放這個分頁，就會產生BSOD。參數2表示Page frame number. 參數4表示reference count, reference count為0才能被記憶體回收。

2. !pfn Arg2 (PFN)
查看PFN，遇到了問題，我手裡的為small dump，能得到的資訊有限，PFN看不到阿。只能再跟QA要個Complete dump繼續分析。Small dump就拿來判別問題的型態，但整體來說對問題並沒有太多的用途，畢竟連call stack都看不到什們蛛絲馬跡。

過了幾天，QA複製出了問題，要了以後再檢查看看，但映入眼簾的只有傻眼二字。這代表我輸入的指令因為符號沒有正確的載入，所以還是無法查看。

不放棄，輸入!sym noisy，重新讀取symbols，看看問題出在哪裡。恩，看起來本地端symbol位址是沒錯的，但不知道為什們從symbol server下載的symbol並不符合這個dump所要的版本。

3. !verifier 03

現在回想之前得到的各方資訊，(1.)重現機率低，只有再移除驅動以後才會有機率發生 (2.)分頁釋放問題。重現機率低，可能是有一些異常行為沒有考慮到，所以重現問題不能用正規的方式，分頁的問題可能就是在異常的情況下未能釋放分頁，導致裝置節點(Device node)有個未釋放的記憶體，所以才會在移除驅動後發生系統崩潰。從新打開驅動驗證，除了低資源模擬以外全開，不停的測試直到藍屏再度發生。