|
歡迎來(lái)到醫(yī)科研,這里是白介素2的讀書筆記,跟我一起聊臨床與科研的故事, 生物醫(yī)學(xué)數(shù)據(jù)挖掘,R語(yǔ)言,TCGA、GEO, SEER數(shù)據(jù)挖掘。 臨床大數(shù)據(jù)研究系列文獻(xiàn)分享第4篇,由浙江大學(xué)章仲恒老師撰寫的臨床大數(shù)據(jù)系列專欄文章發(fā)表在 Annals of Translational雜志,這篇文章主要介紹的是處理大數(shù)據(jù)中的缺失值的單純插補(bǔ)。這里只做學(xué)習(xí)交流,版權(quán)歸原作者所有。 摘要完整案例分析,也就是把缺失數(shù)據(jù)都刪掉,只保留完整數(shù)據(jù),廣泛用于處理丟失的數(shù)據(jù),它是許多統(tǒng)計(jì)軟件包中的默認(rèn)方法。但是,此方法可能會(huì)引入偏差,并且一些有用的信息將從分析中省略。因此,開(kāi)發(fā)了許多插補(bǔ)方法來(lái)消除間隙。本文重點(diǎn)介紹單一插補(bǔ)。帶有均值,中位數(shù)和眾數(shù)的插補(bǔ)很簡(jiǎn)單,但像完整的案例分析一樣,可能會(huì)導(dǎo)致均值和偏差出現(xiàn)偏差。此外,他們忽略了與其他變量的關(guān)系。回歸估算可以保留缺失值和其他變量之間的關(guān)系。存在許多復(fù)雜的方法來(lái)處理縱向數(shù)據(jù)中的缺失值。本文主要關(guān)注如何實(shí)現(xiàn)R代碼以執(zhí)行單純插補(bǔ)single imputation,同時(shí)避免復(fù)雜的數(shù)學(xué)計(jì)算。 介紹缺失數(shù)據(jù)在大數(shù)據(jù)臨床試驗(yàn)中無(wú)處不在。盡管許多研究沒(méi)有明確報(bào)告它們?nèi)绾翁幚韥G失的數(shù)據(jù),但統(tǒng)計(jì)軟件中使用了一些隱式方法。結(jié)果,不同的軟件包可能以不同的方式處理丟失的數(shù)據(jù)(或默認(rèn)方法不同),并且可能無(wú)法通過(guò)使用不同的統(tǒng)計(jì)軟件包來(lái)精確復(fù)制結(jié)果。有時(shí)這可能不會(huì)導(dǎo)致顯著不同的結(jié)果,但是研究的科學(xué)可靠性受到了損害。最佳做法是明確說(shuō)明如何處理缺失值。為簡(jiǎn)單起見(jiàn),許多研究人員僅刪除不完整的案例(按列表刪除),這也是許多回歸軟件包中的默認(rèn)方法(3)。僅當(dāng)缺失值的數(shù)量不大且缺失模式完全隨機(jī)缺失(MCAR)或MAR缺失時(shí),此方法才能獲得可靠的結(jié)果。完整案例分析的另一個(gè)缺點(diǎn)是信息丟失。當(dāng)存在大量變量(列)時(shí),這可能是一個(gè)大問(wèn)題。由于刪除是基于一個(gè)或多個(gè)變量的缺失,因此可以刪除大量案例。此外,完整的案例分析可能會(huì)導(dǎo)致無(wú)法預(yù)測(cè)的偏差。解決這個(gè)問(wèn)題的方法是數(shù)據(jù)插補(bǔ)。缺失值將替換為估算值。由于插補(bǔ)是一個(gè)活躍的研究領(lǐng)域,因此為數(shù)據(jù)插補(bǔ)開(kāi)發(fā)了許多方法和軟件包。本文旨在介紹一些用于丟失數(shù)據(jù)的基本插補(bǔ)方法。大數(shù)據(jù)臨床試驗(yàn)系列的后續(xù)文章將討論多重插補(bǔ)。 參考文獻(xiàn)Cite this article as: Zhang Z. Missing data imputation: focusing on single imputation. Ann Transl Med 2016;4(1):9. doi: 10.3978/j.issn.2305-5839.2015.12.38 One more thing |
|
|