公衛(wèi)體檢系統(tǒng)的數(shù)據(jù)質(zhì)量直接影響分析結(jié)果的可靠性,而數(shù)據(jù)清洗與去噪是剔除 “臟數(shù)據(jù)” 的關(guān)鍵步驟。以下是一套簡(jiǎn)潔易懂的操作流程,幫助系統(tǒng)高效凈化數(shù)據(jù):
一、明確清洗目標(biāo):先定標(biāo)準(zhǔn),再動(dòng)手
數(shù)據(jù)清洗不是 “一刀切”,需先根據(jù)業(yè)務(wù)需求設(shè)定清洗規(guī)則:
基礎(chǔ)規(guī)則:如年齡需>0 歲且<150 歲,血壓收縮壓需在 90-180mmHg 之間,超出范圍直接標(biāo)記為 “待處理”。
業(yè)務(wù)定制規(guī)則:例如糖尿病分析中,空腹血糖>11.1mmol/L 且糖化血紅蛋白>6.5% 才判定為 “疑似糖尿病”,單一指標(biāo)異常需復(fù)核。
關(guān)鍵邏輯:先通過規(guī)則過濾 “明顯錯(cuò)誤”,再處理 “模糊異?!?,避免過度清洗導(dǎo)致數(shù)據(jù)失真。
二、六步清洗法:從粗到細(xì),層層過濾
1. 缺失值處理:補(bǔ)漏或舍棄
小范圍缺失:
數(shù)值型數(shù)據(jù):用均值 / 中位數(shù)填充;
分類數(shù)據(jù):用眾數(shù)填充。
大范圍缺失:直接剔除該字段或樣本。
2. 異常值識(shí)別:用醫(yī)學(xué)邏輯 “抓 outliers”
統(tǒng)計(jì)法:
繪制箱線圖,剔除超出 Q3+1.5IQR 或 Q1-1.5IQR 范圍的數(shù)據(jù);
計(jì)算Z-score,絕對(duì)值>3 的標(biāo)記為異常。
醫(yī)學(xué)常識(shí)法:
直接排除矛盾數(shù)據(jù):如 “年齡 18 歲,診斷為前列腺癌”;
核查邏輯沖突:如 “身高 170cm,體重 50kg,BMI=17.3,但標(biāo)注‘肥胖’”。
3. 重復(fù)值處理:去重留一
按唯一標(biāo)識(shí)字段篩選重復(fù)記錄,保留最新或完整度最高的一條。
4. 數(shù)據(jù)一致性校準(zhǔn):統(tǒng)一 “語(yǔ)言”
單位統(tǒng)一:如血壓?jiǎn)挝挥械挠?“mmHg” 有的用 “kPa”,需全部轉(zhuǎn)換為 mmHg(1kPa≈7.5mmHg);
分類統(tǒng)一:如 “吸煙史” 字段存在 “是 / 否 / 偶爾 / 經(jīng)?!?,需映射為 “吸煙(是 / 否)”,“偶爾 / 經(jīng)?!?歸為 “是”。
5. 邏輯校驗(yàn):用規(guī)則鏈排除隱性錯(cuò)誤
建立多層規(guī)則校驗(yàn):
第一層:基礎(chǔ)格式校驗(yàn);
第二層:指標(biāo)關(guān)聯(lián)校驗(yàn);
第三層:跨表校驗(yàn)。
6. 人工復(fù)核:機(jī)器之外的 “最后防線”
對(duì)機(jī)器標(biāo)記的異常數(shù)據(jù),由公衛(wèi)人員人工核查原始表單:
例:某條記錄 “年齡 25 歲,血壓 220/110mmHg”,機(jī)器標(biāo)記為異常,人工核對(duì)紙質(zhì)表發(fā)現(xiàn)實(shí)為 “120/80mmHg”,系錄入時(shí)誤觸鍵盤。
三、清洗效果評(píng)估:用指標(biāo)檢驗(yàn)成果
清洗后需驗(yàn)證數(shù)據(jù)質(zhì)量是否提升,核心指標(biāo):
缺失率:目標(biāo)<3%;
異常值占比:目標(biāo)<1%;
邏輯沖突率:目標(biāo)<0.3%。
四、自動(dòng)化與標(biāo)準(zhǔn)化:讓清洗可持續(xù)
建立清洗模板:將常用規(guī)則固化為系統(tǒng)默認(rèn)規(guī)則,新數(shù)據(jù)導(dǎo)入時(shí)自動(dòng)觸發(fā)清洗流程;
記錄清洗日志:詳細(xì)記錄每條數(shù)據(jù)的清洗操作,便于追溯和審計(jì);
定期更新規(guī)則:根據(jù)醫(yī)學(xué)指南變化,及時(shí)調(diào)整清洗規(guī)則,避免 “刻舟求劍”。