請用此 Handle URI 來引用此文件:
http://tdr.lib.ntu.edu.tw/jspui/handle/123456789/43809
標題: | 迴歸模型的驗證與模型診斷─以下背痛的危險因子為例分析其相關性 Regression Model Checking and Diagnosis on Associations between Risk Factors and Low Back Pain |
作者: | Yi-Chian Wang 王薏茜 |
指導教授: | 陳秀熙(Tony Hsiu-Hsi Chen) |
關鍵字: | 下背痛,流行病學,危險因子,代謝症候群,血壓,糖尿病,空腹血糖異常, low back pain,epidemiology,risk factors,metabolic syndrome,blood pressure,diabetes mellitus,impaired fasting glucose, |
出版年 : | 2011 |
學位: | 碩士 |
摘要: | 本論文論述內容乃針對二元式反應變項(binary response variable)建立一迴歸模型(regression model),並使用模型殘差診斷(model diagnostics using residuals)的方法來改善模型的配適度及預測力。本研究內容的資料庫來源為民國88年到93年間,台灣某社區的大型篩檢計畫,利用此一橫斷面的篩檢資料(cross-sectional screening data),來分析下背痛與其他解釋變項之間的相關性。利用此一資料庫中的”下背痛與否”作為二元式反應變項,另收集23個解釋變項,來作為模型建立的標準。共蒐集了76545個篩檢個案,使用AIC值(Akaine Information criterion)來進行不同模型間的選擇(model selection),最後得到12個有顯著相關的解釋變項,其中危險因子(risk factor)包含了:較高的年齡、女性性別、較高的身高、較大的身體質量指數(Body mass index)、女性已停經、總膽固醇過高等6項,而保護因子(protective factor)則有:未曾結婚、女性未停經、較高的血管收縮壓、空腹血糖異常(impaired fasting glucose)、未曾吸煙、以及未曾嚼檳榔等6項。血管收縮壓以及空腹血糖異常對於下背痛的保護力,由於從未在文獻上被報告過,本發現值得醫界關注並持續研究。
雖然各參數值都有顯著意義,但是模型的Receiver Operating Characteristic值僅有0.671,不甚理想。使用殘差模型診斷法繪製半常態機率圖(Half-normal probability plot)可以發現,多數的殘差值位於模擬封套(simulated envelope)之內。使用殘差值對線性預測公式(Linear predictor)作圖可以發現,因為反應變項為二元式分布,因此殘差值也分成兩群,但大致上仍分布在0的附近,限制在+2及-2的區間內。由於變項[三酸甘油脂]以及[體重] 有邊緣性顯著(borderline significance),因此使用增加變數圖(added variable plot)來診斷此二潛在解釋變項是否需要線性預測公式,結果發現,圖點呈不規則散布,因此決定不納入。最後納入的解釋變項,都已經經過轉換成為類別變項,僅剩下[身高]、[身體質量指數]以及[血管收縮壓]三個變項為連續變項,因此使用部分殘差圖(partial residual plot)來檢驗這三個變項是否需要經過變數轉換(variable transformation),結果診斷效果不佳,因此改用建構變數圖(constructed variable plot)來檢驗連續性變項的變數轉換方式。使用建構變數圖檢驗[身高]的結果發現,[身高]應該進行-6個乘方的變項轉換,並不合理,因此決定不予轉換。使用建構變數圖檢驗[身體質量指數]的結果發現,[身體質量指數]應進行-1.5乘方的轉換,轉換過後重新繪製的建構變數圖斜率由-2.66改善為-1.19,然而此一轉換卻沒有提升模型的ROC值。使用建構變數圖來進行[血管收縮壓]的檢定可以發現,[血管收縮壓]應該進行平方的轉換,轉換過後重新繪製的建構變數圖斜率由1.15改善為0.66,然而模型的ROC值也一樣沒有變動,仍為0.671。若應用增加變數殘差圖的概念來診斷連結函數,可以發現邏輯斯連結函數並不非常完美,因此改用互補雙對數連結函數,可以使模型配適度更好,然而模型的ROC值依然停留在0.671。由於這是一個巨大的資料庫,因此,使用殘差圖來檢定本資料庫的離群點(Outlier)以及影響點(influential point),發現並沒有單一特定的觀察值有足夠大的能力會顯著地影響整體模型配適度、線性預測公式或解釋變數的參數值。整體模型診斷的結果顯示,本回歸模型是合理的,然而,模型的預測力不夠,使用現行的資料庫沒有辦法更加改善模型的預測力,可能是因為資料庫本身離散度較高,或仍有其他重要解釋因子,尚未被納入本資料庫的解釋變項收集之中。 This article focuses on establishing a regression model for a binary response variable and also on model diagnostics. The data were derived from a cross-sectional screening program conducted from 1999 to 2004 with 76545 screening subjects in a Taiwan county. The binary outcome was “the presence of low back pain”, and 23 independent variables included explanatory variables on epidemiological, biological, and medical factors. We use Akaine Information Criterion (AIC) for stepwise model selection, and finally identified 12 significantly correlated explanatory variables. Risk factors included older age, female gender, higher body stature, larger body mass index (BMI), menopaused women, and higher serum total cholesterol level. Protective factors included negative marriage history, women not yet reaching menopause, higher systolic blood pressure, impaired fasting glucose level, negative smoking history, and negative betel nuts consumption. The significant protective power of systolic blood pressure and impaired fasting glucose has never been published in previous research yet, and warrants further investigation. Although all parameters showed significance influence, the predictive power of the model was only moderate with receiver operating characteristic (ROC) value 0.671. The model then underwent a series of model diagnostics for half normal probability plot with simulated envelope, linear predictor, potential variables (body weight, triglyceride level), explanatory variables transformation (body height, systolic blood pressure, body mass index), link function, outliers, and influential points. Though some modification could improve the model fitting, such as transformation of systolic blood pressure to its power of 2, transformation of body mass index to its power of -1.5, and changing link function to complimentary log-log function, the predictive power was still unsatisfactory. The overall model diagnostics reported that model fitting was fair, but ROC value could not be improved through model modification. Therefore, there might be still some other important explanatory variables that are necessary to be ruled in further study, such as social status, income, work satisfaction, etc. |
URI: | http://tdr.lib.ntu.edu.tw/jspui/handle/123456789/43809 |
全文授權: | 有償授權 |
顯示於系所單位: | 流行病學與預防醫學研究所 |
文件中的檔案:
檔案 | 大小 | 格式 | |
---|---|---|---|
ntu-100-1.pdf 目前未授權公開取用 | 5.9 MB | Adobe PDF |
系統中的文件,除了特別指名其著作權條款之外,均受到著作權保護,並且保留所有的權利。