漫談「統計」科學
文?圖/王婉倫(母校統計學系教授)
隨著電腦資訊科技、雲端運算能力與全球物聯網的快速演進,促使大數據(Big Data)時代的來臨,許多研究者開始重視如何以科學的技術來處理巨量資料的儲存、捕捉、彙整、截取與管理等工作,以及如何將分析結果應用在各領域的決策。這些已成為21世紀受關注的議題。如何運用與實踐這些工作,將有賴於「統計」方法。
統計是一門實用的科學,其應用範疇包羅萬象,包含生物醫學、基因遺傳學、公共衛生、財務經濟、教育、政府政策、自然環境與地球科學等領域,與生活息息相關。例如:在醫學層面,研究影響遺傳疾病的重要基因、造成癌症死亡的影響因子等;在自然環境層面,如蒐集影響大氣層破壞的因素;在財務經濟層面,如消費者行為、生活產品需求、食衣住行育樂等的市場滿意度調查,股價金融市場趨勢分析與預測等;在教育層面,教師教學成效、學生競爭優勢、學生學習表現預測未來就業成就,以及世界大學排名等;在政府政策層面,對候選人的支持度、政府施政滿意度調查等等。生活中的實際問題,都能藉由問卷調查、臨床試驗研究、或機構既有資料進行數據分析,了解分析結果並將之運用於決策上。無疑地,在許多領域中,均有對資料蒐集、分析與處理的強烈需求,面對資料量龐大且屬性多元,多變量及高維度資料分析的資料採礦(Data Mining)技術,將成為未來發展最為蓬勃之重要學科之一。
以下列舉統計模型在實務的應用:
迴歸模型–生物醫學資料(Biomedical Data)
「小孩的身高和父母親的身高是否有關聯性」、「父母親的社經背景和家庭環境是否影響或能預測小孩的未來成就」等,是日常生活中時常被討論的話題。其實要回答這些問題,可仰賴統計學上迴歸分析的概念,意即透過簡單線性迴歸模型探究家庭收入(單一解釋變項)是否能影響和預測小孩未來的成就(反應變項)。透過複迴歸模型探究父母社經背景、家庭環境、及生活習慣等(多個解釋變項)是否影響小孩未來的成就。再者,在醫學臨床試驗中,受測個體(病患)會被指派服用不同的藥物療法,並在病患回診時觀察測量有關身體健康的相關指數,不同療程的病患群在一段治療期間內其身體健康的反應指數成長曲線也會有所差異(如圖1),統計學家曾透過混合迴歸模型對此類型資料進行配適,了解重複觀測值的演化情形、以及不同療程和反應值演化間的關聯性,並用以預測影響生物生長的主要因素。
高斯混合模型–微陣列基因資料(Microarray Gene-expression Data)
在DNA微陣列晶片上,統計學家能將晶片上所傳達的基因影像顏色與亮度,轉換成大量數據訊息,並了解極微細的細胞內少數幾個製造蛋白之RNA訊息之變化,再利用統計分析工具,例如:高斯混合模型,來找尋影響致癌或遺傳疾病的因子,將組織細胞分成正常和帶有致癌或疾病基因的兩群,最後判斷哪些是有腫瘤或疾病的組織。由於現代飲食習慣與生活環境的改變,加上基因改造食品充斥市面,致使基因與健康的議題逐漸被重視,若能將「統計學」、「基因組學」、和「遺傳學」等知識和技術加以結合運用,讓生物科技相關工作者能更快速及更精確地發現致病基因,俾利發現與解決醫療問題,創造更健康的下一代。
因子分析模型–數位影像重建(Digital Image Reconstruction)
生活上,我們在電腦螢幕所看到的影像或圖片都是由許多細微小格點元素所組成,包含圖像元素、影像元素、點和像素,而每一個元素都有其特定的位置和數值,其可被定義為二維函數的數值矩陣,一張影像通常可被量化成一組高維度的資料集。然而,當影像受到外在因素,如:光源不足或傳輸線不良導致封包遺失而產生雜訊和假影,統計學家曾運用因子分析模型來處理具有遺失訊息的影像資料,經由統計程式運算將遺失之影像進行還原重建的工作,獲得模糊影像之優良還原結果(如圖2)。同時,因手機與攝影科技的發展,影像處理、衛星圖傳輸及監視器畫面回復的需求,也為了持續改善與提升影像品質,數位影像的修復、強化、切割、壓縮及重建等工作皆可由統計模型工具來完成,此將帶動新的研究方向。
總而言之,統計的應用範疇甚廣,將在大數據時代中扮演亮眼角色,並帶動科學研究新方向及就業市場新契機。統計相關學系,其透過問題導向的訓練與跨領域的合作,培育學生投入職場不可或缺的「使用資訊科技解決問題」之知識和能力,並提供學子未來在升學與就業上的多元出入,相當值得學子加入。可預期的是,具有「數據分析」能力者必定成為未來就業市場的新寵兒。