|
最近需要在板子上加上一塊WatchDog,以確保在系統(tǒng)出錯(cuò)時(shí)自動(dòng)重啟,所以看了一些在嵌入式系統(tǒng)中使用看門狗的資料,現(xiàn)在總結(jié)如下: 一、看門狗原理 在產(chǎn)品化的嵌入式系統(tǒng)中,為了使系統(tǒng)在異常情況下能自動(dòng)復(fù)位,一般都需要引入看門狗。 看門狗其實(shí)就是一個(gè)可以在一定時(shí)間內(nèi)被復(fù)位的計(jì)數(shù)器。當(dāng)看門狗啟動(dòng)后,計(jì)數(shù)器開始自動(dòng)計(jì)數(shù),經(jīng)過(guò)一定時(shí)間,如果沒(méi)有被復(fù)位,計(jì)數(shù)器溢出就會(huì)對(duì)CPU產(chǎn)生一個(gè)復(fù)位信號(hào)使系統(tǒng)重啟(俗稱“被狗咬”)。系統(tǒng)正常運(yùn)行時(shí),需要在看門狗允許的時(shí)間間隔內(nèi)對(duì)看門狗計(jì)數(shù)器清零(俗稱“喂狗”),不讓復(fù)位信號(hào)產(chǎn)生。如果系統(tǒng)不出問(wèn)題,程序保證按時(shí)“喂狗”,一旦程序跑飛,沒(méi)有“喂狗”,系統(tǒng)“被咬”復(fù)位。 這就好比你的身邊有一只時(shí)刻饑餓的狗,你不按時(shí)給它肉吃,它就會(huì)吃你的肉,你被吃了......掛了,投胎轉(zhuǎn)世,徹底重新做人了。不幸的是來(lái)世你還得喂狗-_-!!
二、看門狗的種類 在現(xiàn)在的嵌入式系統(tǒng)中主要可以分為兩種類型的看門狗: 1、CPU內(nèi)部自帶的看門狗:此類看門狗一般是將一個(gè)芯片中的定時(shí)器來(lái)作為看門狗,通過(guò)程序的初始化,寫入初值,設(shè)定溢出時(shí)間,并啟動(dòng)定時(shí)器。程序按時(shí)對(duì)定時(shí)器賦初值(或復(fù)位),以免被咬。這種看門狗是可以被禁用的(只要停止這個(gè)定時(shí)器即可),好比對(duì)那只要咬你的狗來(lái)個(gè)“葵花點(diǎn)穴手”。大部分CPU都內(nèi)置看門狗,硬件原理可參考各芯片數(shù)據(jù)手冊(cè)。 優(yōu)點(diǎn):可以通過(guò)程序改變溢出時(shí)間;可以隨時(shí)禁用 缺點(diǎn):需要初始化;如果程序在初始化、啟動(dòng)完成前跑飛或在禁用后跑飛,看門狗就無(wú)法復(fù)位系統(tǒng),這樣看門狗的作用就沒(méi)有了,系統(tǒng)恢復(fù)能力降低。
2、獨(dú)立的看門狗芯片:這種看門狗主要有一個(gè)用于喂狗的引腳(一般與CPU的GPIO相連)和一個(gè)復(fù)位引腳(與系統(tǒng)的RESET引腳相連),如果沒(méi)有在一定時(shí)間內(nèi)改變喂狗腳的電平,復(fù)位引腳就會(huì)改變狀態(tài)復(fù)位CPU。此類看門狗一上電就開始工作,無(wú)法禁用?,F(xiàn)在常用的芯片有:CAT705/CAT706、IMP706等等,溢出時(shí)間在1.6秒左右。 硬件原理可以參考各芯片數(shù)據(jù)手冊(cè)和《基于Linux的嵌入式系統(tǒng)全程喂狗策略》。 優(yōu)點(diǎn):無(wú)須配置,上電即用。無(wú)法禁用,系統(tǒng)必須按時(shí)喂狗,系統(tǒng)恢復(fù)能力高。 缺點(diǎn):無(wú)法靈活配置溢出時(shí)間,無(wú)法禁用,靈活性降低。 ------------------------------------------------
- 當(dāng)然還有所謂的軟件看門狗,這其實(shí)是也是一種監(jiān)控軟件。
- 一些重要的程序,必須讓它一直跑著;而且還要時(shí)時(shí)關(guān)心它的狀態(tài)——不能讓它出現(xiàn)死鎖現(xiàn)象。(當(dāng)然,如果一個(gè)主程序會(huì)出現(xiàn)死鎖,肯定是設(shè)計(jì)或者編程上的失誤。首要做的事是Debug。)但如果時(shí)間緊迫可以用軟件看門狗,暫時(shí)應(yīng)急。
- 這種監(jiān)控軟件運(yùn)行不出現(xiàn)界面窗口,具有一定的隱蔽性;它定時(shí)判斷目標(biāo)進(jìn)程是否運(yùn)行在當(dāng)前系統(tǒng)中,如果沒(méi)有則啟動(dòng)目標(biāo)進(jìn)程;判斷目標(biāo)進(jìn)程是否“無(wú)響應(yīng)”,如果是則終止目標(biāo)進(jìn)程;如果目標(biāo)進(jìn)程“無(wú)響應(yīng)”的次數(shù)超過(guò)一定的數(shù)量,則重啟整個(gè)系統(tǒng)。它的目的也是復(fù)位,但是它主要市復(fù)位進(jìn)程,實(shí)在不行才復(fù)位CPU。
- 這種軟件屬于監(jiān)控軟件,不在本文的敘述范圍之內(nèi)。
------------------------------------------------ 三、看門狗的選擇 在一般的民用產(chǎn)品,對(duì)系統(tǒng)的穩(wěn)定性沒(méi)有太高要求的場(chǎng)合,可以使用內(nèi)置看門狗,可以簡(jiǎn)化軟件開發(fā)和硬件成本。 在工控產(chǎn)品和對(duì)系統(tǒng)的穩(wěn)定性有較高要求的關(guān)鍵場(chǎng)合,基本都選用硬件獨(dú)立看門狗,確保系統(tǒng)在面對(duì)嚴(yán)重錯(cuò)誤時(shí)的恢復(fù)能力。增加了硬件成本,稍微加大了軟件的開發(fā)難度(必須確保在正常情況下的不斷喂狗)。
---------------------------------------------------------- 四、在bootloader下的使用 如果是CPU內(nèi)置的看門狗,一般在這階段可以禁用,所有沒(méi)什么特殊的操作。 但是如果是獨(dú)立的看門狗芯片就必須喂了?;蛘邽榱吮kU(xiǎn),你在bootloader中就啟動(dòng)了看門狗,也得喂了。 bootloader有很多,基本原理都是一樣的,喂狗的過(guò)程也基本一樣,在這里以u(píng)boot為例講解如何喂狗。 u-boot的運(yùn)行分為以下幾個(gè)階段:
- 最早的簡(jiǎn)單初始化,代碼重定位的自拷貝階段
- 系統(tǒng)詳細(xì)初始化階段
- 控制臺(tái)階段(如果使用了自動(dòng)啟動(dòng),則跳過(guò))
- OS內(nèi)核拷貝(可能帶有解壓過(guò)程),跳入操作系統(tǒng)
(待完善)
五、在Linux下使用 在bootloader加載了內(nèi)核之后,系統(tǒng)就開始由Linux內(nèi)核接管。而喂狗的工作自然也開始由內(nèi)核來(lái)承擔(dān)。在bootloader將控制權(quán)給內(nèi)核之后,時(shí)間上可以分為以下幾個(gè)部分:
- 內(nèi)核自解壓階段(壓縮內(nèi)核才有:zImage或bzImage)
- 內(nèi)核啟動(dòng)到看門狗驅(qū)動(dòng)加載之前
- 看門狗驅(qū)動(dòng)加載后到根文件系統(tǒng)啟動(dòng)前
- 根文件系統(tǒng)啟動(dòng)后到看門狗守護(hù)進(jìn)程啟動(dòng)前
- 看門狗守護(hù)進(jìn)程啟動(dòng)后
對(duì)于使用CPU內(nèi)置的看門狗,在1~4階段,看門狗一般都沒(méi)有啟動(dòng),無(wú)需喂狗。只有在看門狗守護(hù)進(jìn)程啟動(dòng)后,由守護(hù)進(jìn)程打開看門狗,并根據(jù)配置文件監(jiān)控其他進(jìn)程的狀態(tài)來(lái)開始喂狗。如果被監(jiān)控進(jìn)程出現(xiàn)不可修復(fù)的問(wèn)題,守護(hù)進(jìn)程停止喂狗,CPU復(fù)位。
對(duì)于獨(dú)立的看門狗芯片,系統(tǒng)一上電就必須不斷喂狗,接過(guò)bootloader的接力棒繼續(xù)喂狗。 首先在第1階段,內(nèi)核的自解壓一般時(shí)間較長(zhǎng),必須在自解壓的循環(huán)過(guò)程中加入喂狗代碼(可能還要是匯編形式的)。一旦在這過(guò)程中跑飛,就不會(huì)喂狗,CPU復(fù)位。
在第2階段,這段時(shí)間一般不會(huì)很長(zhǎng),可以不用喂狗。但是這也和你的內(nèi)核有關(guān),如果在這個(gè)階段正好有比較耗時(shí)的模塊啟動(dòng)的話,你可以在這個(gè)模塊的初始化函數(shù)或者比較耗時(shí)的循環(huán)和等待中添加喂狗代碼。具體在哪些模塊中加,要嘗試啟動(dòng)幾次就知道了,靠實(shí)驗(yàn)和經(jīng)驗(yàn)。
在看門狗驅(qū)動(dòng)加載時(shí),一般會(huì)在模塊初始化代碼中喂一次狗。
在第3階段,和第2階段類似,如果在這個(gè)階段正好有比較耗時(shí)的模塊啟動(dòng)的話,你可以在這個(gè)模塊的初始化函數(shù)或者比較耗時(shí)的循環(huán)和等待中添加喂狗代碼。但是在根文集系統(tǒng)掛載時(shí),根據(jù)文件系統(tǒng)的性質(zhì)和大小,可能需要在文件系統(tǒng)代碼中添加喂狗指令。
第4階段是一個(gè)比較耗時(shí)的階段,一般會(huì)在系統(tǒng)啟動(dòng)腳本中添加一些簡(jiǎn)單的喂狗的shell命令,例如:“echo V > /dev/watchdog”,加的位置根據(jù)系統(tǒng)的啟動(dòng)過(guò)程而異。
在第5階段,一切都由看門狗守護(hù)進(jìn)程來(lái)實(shí)現(xiàn)喂狗了。 ----------------------------------------------------------------------------- 內(nèi)核看門狗的框架分析 (待續(xù)) ------------------------------------------------------------------------------ 其實(shí)對(duì)于看門狗在Linux系統(tǒng)中的使用還有一種形式是雙狗: 在內(nèi)核中用內(nèi)核線程硬件的看門狗,這個(gè)硬件看門狗的作用在于保證內(nèi)核宕機(jī)時(shí)可以復(fù)位。 在內(nèi)核產(chǎn)生軟件看門狗,用守護(hù)進(jìn)程或者需要監(jiān)控的進(jìn)程去喂狗,這個(gè)看門狗保證關(guān)鍵進(jìn)程可以復(fù)位。 推薦參考資料: 看門狗驅(qū)動(dòng):
linux/drivers/watchdog :其中包含所有看門狗驅(qū)動(dòng): watchdog_core.c、watchdog_dev.c和watchdog_dev.h是內(nèi)核看門狗的框架核心,看門狗的驅(qū)動(dòng)當(dāng)然最好是在這個(gè)框架下編寫比較好。但是好像其中的驅(qū)動(dòng)并不都只這樣。、 linux/Documentation/watchdog/watchdog-kernel-api.txt 內(nèi)核看門狗框架API說(shuō)明文檔 內(nèi)核看門狗驅(qū)動(dòng)官網(wǎng) 《ARM-Linux驅(qū)動(dòng)--Watch Dog Timer(看門狗)驅(qū)動(dòng)分析》(沒(méi)有使用內(nèi)核看門狗框架) --------------------------------------------------------------------------- 看門狗守護(hù)進(jìn)程: 源碼下載:http://www./pub/Linux/system/daemons/watchdog/ 《使用 watchdog 構(gòu)建高可用性的 Linux 系統(tǒng)及應(yīng)用》 --------------------------------------------------------------------------
|