首頁>專題>委員故事>委員故事
陳松蹊:萬物皆可統計
陳松蹊:全國政協委員,中國科學院院士。
人人都用統計學。
從出門前查看的天氣預報、根據做過的試卷歸納整理的錯題本、網絡購物時對比商品的銷量和評價,到科學研究、政策制定、經濟發展,每個人都主動或者被動地將統計學的知識和思維應用于生活、學習、工作當中,也就是根據歷史數據學習歸納出事物的規律。
但卻并非人人都了解統計學。
“統計學是指導數據收集、數據分析和基于數據做科學推斷的學科。”這是作為統計學家的陳松蹊,用最淺顯的語言闡釋的統計學概念。
看,即便摒棄了晦澀拗口的專業術語,如果不與生活、不與應用相連接,我們依然很難從概念中真正了解這個學科的內涵和外延。也正因如此,已經成為中國科學院院士的陳松蹊,依然會擠出時間投身于最基礎的科普工作中,他想要讓更多的人知道統計學是什么、統計學能夠做什么。而在做科普時,最醒目的永遠是幻燈片上一個個圖文并茂的故事,無論是坐在飛機上觀測海洋里的藍鰭金槍魚,還是新冠疫情初期做出的一份份疫情分析日報,都能輕而易舉地引發臺下觀眾的陣陣掌聲。
“統計學應該是鮮活的。”陳松蹊說。
坐標
10年,11份《空氣質量評估報告》。
這是陳松蹊和他的團隊研究時間最長的課題。
2013年,正是我國大氣污染形勢嚴峻之時,多座城市空氣質量指數“爆表”的新聞一經報道就引發了國內外的強烈關注。這導致陳松蹊在邀請一位國際統計學者來華訪問時,被對方以“空氣不太好”的理由婉拒。
“原來,北京的污染已經嚴重到這種程度了。”意識到這一問題的陳松蹊,第一反應就是:“是不是可以分析一下污染數據,從數據中獲得污染排放信息?”
2014年3月,從未涉足過大氣污染領域的陳松蹊,帶著團隊里的7位師生一起從零開始。經過一年的數據收集、分析、研究,次年3月,《空氣質量評估報告:北京城區2010-2014年PM2.5污染狀況研究》正式發布。他們使用大數據統計方法,去除大氣監測數據中的氣象因素干擾,評估污染的嚴重程度,為防治空氣污染、維護生態環境、制定減排政策提供建議。
為了更多人能夠理解這份報告,復雜專業的統計學方法,也被團隊簡化成通俗易懂的“人努力-天幫忙”指數。
而在發布的每一份《空氣質量評估報告》封面上,都會寫一句話:“為了藍天,讓我們用數據解讀污染。”
這句話的背后,是陳松蹊和團隊為了能夠讓數據“說話”的努力和堅持。在陳松蹊看來,統計學是指導數據收集和分析的學科,更是一個方法論的學科,承載起多學科的交叉研究。手持統計學這把“萬能鑰匙”,就能夠打開通向各個學科的大門。“哪里有數據,哪里就有統計學。”陳松蹊笑稱。
然而,僅僅打開大門還遠遠不夠。進行交叉學科的研究,既需要扎實的統計學基礎,也需要不斷涉足新領域、新專業的激情,花費大量的時間學習、了解新領域的新知識。陳松蹊身上,恰恰二者皆有。在他的學生眼中,陳老師有著強烈的好奇心與求知欲,他從不停留在舒適區,而是不斷地向前探索。這么多年來,他總是在辦公室、圖書館、食堂、宿舍之間幾點一線,晚上10點多才下班是他的工作常態。
“做研究總是需要解決各種各樣的困難,有理論層面的,有思想層面的。我的方法就是在運動中、在前進中克服瓶頸,在不斷尋求新的解決方法中,瓶頸可能就消失了。”陳松蹊說。
而推動他不斷嘗試、探索新理論與新領域的,是作為學者的責任感,更是對家國大事的深深關切。這也成為他游走于各個學科時,最重要的坐標。
就像如今,距離陳松蹊開展大氣污染研究已有10年,藍天白云已經成為北京的常態,但他們的研究依然在進行中。因為他覺得,“空氣質量比以前好了很多,但還沒有足夠好,距離人民健康所需要的空氣質量還有一定差距。”
是的,人民需要的,就是陳松蹊研究的方向。同樣的使命感,也是陳松蹊履職的動力。
連續兩年,陳松蹊都為大氣污染發聲。他提出,提高空氣質量標準,實施更嚴格的空氣質量標準,降低重污染預警的門檻,促使人民群眾實行更有效的保護措施。他還提出,用更科學的方法評估空氣質量,調動地方環保人員的積極性,持續提高生態環境質量。
以科學家的視角,以國家需要、社會需要、人民需要的使命感,觀察我們所生活的這個世界,并在第一時間將研究成果轉化為高質量建言,這是陳松蹊履職的不變坐標。
變量
變量,是數學、統計學中一個基本概念,指不確定的或變化的量。
對陳松蹊而言,走上統計學這條道路,也由諸多變量交織而成。
學生時代,陳松蹊的數學成績很好,但在高考后選擇專業時,他卻聽從了家里的安排,填報了醫學和生物學專業。陰差陽錯的是,他的檔案到了北京師范大學后,因為數學成績好,他被數學系老師看中,成為一名數學系學生。
“如果我到醫學院,可能也會成為好的醫生,也說不準。”陳松蹊回憶起自己與數學結緣的伊始。
1983年,中國改革開放初期,經濟建設成為社會熱點。此時,大學畢業后已經在北京一所高校任教的陳松蹊,也有了繼續深造的念頭,他想要攻讀計量經濟的研究生。然而,由于他所在學校的要求,他只能讀數學相關的專業。就這樣,陳松蹊又成為北京師范大學數理統計專業的研究生,從此走上了統計學的道路。
因為生活中存在許多不可預測和變化的因素,人生才有了更多的不確定性和機會。而回到統計學本身,陳松蹊也覺得,不確定才是統計學的魅力所在,“統計學給出的不是一個確定的值,而是一個數值分布。通過對歷史數據的分析,對未來進行預測,透過紛雜的數字發現規律,這是一個很有意思的過程。”
沉浸在統計學的魅力中,讓陳松蹊覺得,研究的過程雖然辛苦,卻也快樂。他的研究領域很寬泛,他在超高維假設檢驗方法和非參數經驗似然方法方面取得了豐碩成果,推動了統計學的關鍵性發展。
在前進中,陳松蹊也如同一個關鍵的“變量”,深深地影響著許多人的人生軌跡。很長一段時間,他的團隊向所有對統計學感興趣的學生開放,發給他的每一封郵件,他也會認真回復。
博士生孫浩軒就是這樣來到團隊的。大一時,拿著當年的空氣質量報告來做講座的陳松蹊就讓他印象深刻,所以后來,孫浩軒也毫不猶豫。“進入團隊后,陳老師會因材施教,看你有哪些合適的課題和科研項目。”孫浩軒說。
“陳老師嚴謹的治學風格是我們的動力和榜樣。在他身上,我感受到了‘言傳身教’這個詞的真正含義。”另一位博士生陳涵玥對此也深有感觸。
不久前,陳松蹊到南京、武漢、南昌等地的學校,以“統計學所攜帶的交叉學科研究經歷”為題開展科普講座,從自身求學、研究的經歷談起,向同學們展示了統計學在不同交叉學科研究中的妙用。在一所高中,陳松蹊給高一的學生們講完后,當地的老師說,這一屆估計有好多學生要學統計學了。
除了奔赴各地開展講座,陳松蹊還在全國兩會上接連呼吁。去年,他聯名51位委員提交了一件《關于加強“統計學”基礎研究人才培養工作的提案》,希望有關部門重視我國統計學基礎人才培養工作,盡快解決統計學基礎人才培養的各種障礙,給予政策支持。今年,他又將思考延伸到加強數據分析人才培養上,建議加大數據分析人才培養力度。
陳松蹊希望,能有越來越多的人了解統計學。他更希望,更多的人能夠走進統計學、學習統計學。因為他深知,對于一個學科的發展來說,“人”才是其中最積極、最重要的變量。
“統計學的未來,是屬于年輕人的。”陳松蹊說。
曲線
如果把中國統計學的發展做成曲線圖,那么1978年后,特別是1979年中國統計學會成立后,這條曲線才進入相對陡峭的上揚階段。
陳松蹊記得,上世紀80年代,他到內蒙古赤峰市阿魯科爾沁旗進行教育經濟考察,做一個關于人口數據的統計。因為沒有計算機,他們就用一張大大的紙,一個人負責一行,遞推地算下去。整整兩周時間,他們哪里都沒去,一直在計算。
2008年,陳松蹊加入北京大學,擔任光華管理學院商務統計系主任,他想要為中國統計學的發展盡一份力。2010年,他著手建立北京大學統計科學中心,加強了北大的統計學力量建設。從去年開始,在陳松蹊的推動下,全國統計與數據科學聯合會議召開,為促進統計與數據科學領域國內外學術交流發揮重要作用。最近,陳松蹊又圍繞中國統計學科開展調查研究,希望對統計學科做一個全方位的普查。
陳松蹊還致力于推動統計學列入基礎學科當中。“統計學是數據分析的基礎,但我們對統計學科的重視程度仍然不夠,這顯然不利于我國統計學基礎研究人才的培養,也不利于依賴統計學支持的其他學科的長遠發展。”
“我知道這件事推動起來很不容易,但這事關大數據和人工智能的數理基礎,所以我們要付諸更多努力。”陳松蹊說,政協委員的身份為他提供了更廣闊的平臺,為統計學科發展建言。
如今,陳松蹊更是清楚地看到,信息技術的飛速發展也為統計提供了更廣闊的舞臺,統計學學科發展的這條曲線,隨著與時代發展的連接,有了更為明顯的上揚趨勢。
“現在我們生活在一個數據的時代,數據越來越多,對數據的解讀、分析也就越來越重要。”陳松蹊說,世界進入了數字化的新時代,無疑是統計與數據科學發展的重要機遇。“人工智能的基礎,一個是計算機,一個就是統計學。人工智能大模型,就是基于大量的、無序的、有偏差的數據,應用統計思想、統計分析方法,構建的分析決策模型。”
陳松蹊認為,加強統計分析來挖掘數據生產力。除了硬件條件的投入,還需要補齊數據分析能力,基于行業特點判斷數據的質量和價值,摸索出數據賦能的路徑,才能釋放數據的生產力。他深知,中國需要走出自己的路,不然總是跟在別人后面。
深耕行業數十年,陳松蹊也關注到大數據發展給統計學提出新的研究問題。為此,他將研究專業與履職思考相結合,盡專業所長和委員所能,接連提出推動數據文化傳播、加強公共數據共享、構建高質量科學數據集等建議,回應著時代設下的命題。
他是提案者、倡議者,更是踐行者、推動者。
未來已至,統計學的發展正逢其時,也必將大有可為。而已然站在山巔的陳松蹊,有著更廣闊、更清晰的視角,也給自己定下了更宏大、更高遠的目標。
編輯:崔姝音