星火論文網,覆蓋經濟、管理、教育、醫學、建筑、藝術等700余專業30余萬篇碩士畢業論文和職稱論文免費參考!

大數據在計量經濟學中的應用與簡析

所屬欄目:經濟統計學論文 發布日期:2019-05-28 02:12:50 論文作者:佚名

關鍵詞:大數據 計量經濟學 機器學習 預測

一、處理大數據的工具

歷史上,經濟學家一直在處理電子表格中顯示的數據,如果電子表格中有超過100萬行數據,那就需要將其存儲在諸如MySQL之類的關系數據庫中。由于計算機中介交易的興起,許多公司發現有必要開發每天處理數十億筆交易的系統。例如,谷歌已經完成過30萬億次網址抓取,平均每天超過200億次,每個月響應1000億個搜索查詢。雖然為了方便學習與交流,這些工具可以在一臺計算機上運行,但一般真正的用途是應用于大型計算機集群,例如亞馬遜、谷歌、微軟和其他云計算提供商的計算機群。公司可以通過租賃而非購買來獲取數據存儲和處理的能力,將以前處理大數據的固定成本轉變為可變成本,降低了處理大數據的門檻。

二、處理大數據的方法

一般而言,如果提取的數據量非常大,可以選擇一個子樣本進行統計分析。一旦數據集被提取出來,通常需要進行一些附帶著數據統一和數據清理任務的探索性數據分析,這是一門只有通過實踐才能學會的藝術。

統計學和計量經濟學中的數據分析可以分為四大類:預測、總結、估算、假設檢驗。在大數據處理中,與預測相關聯的技術一般是機器學習;而和總結相關的技術一般為數據挖掘,比如挖掘其中有趣的模型。計量經濟學家、統計學家和數據挖掘專家一般都在尋找可以從數據中提取的深刻見解。機器學習專家通常主要關注開發高性能計算機系統,這些系統能夠在具有挑戰性的計算約束條件下提供有用的預測。應用計量經濟學的大部分內容是檢測和總結數據中的關系,最常用的總結工具是(線性)回歸分析。機器學習提供了一套可以有效地總結數據中的各種非線性關系的工具。這些工具是現在最為常見也是最為普遍的,因為它們是與實際經濟情況最符合的。

三、預測的一般考慮事項

預測的目的通常是獲得良好的樣本外預測。大多數人從經驗中可以知道,構建一個在樣本內工作良好但在樣本外失敗的預測非常容易。機器學習專家將這種現象稱為“過度擬合”現象,并提出了幾種解決方法。

首先,選擇較為簡單的模型。由于簡單的模型更適合樣本外預測,機器學習專家提出了各種方法來否認過于復雜的模型,在機器學習世界中,這被稱為“正則化”。同樣的,經濟學家也傾向于選擇簡單的模型。

其次,測試-訓練循環和交叉驗證。為了訓練、測試和驗證,將數據劃為不同的集合。使用訓練數據來評價模型,使用驗證數據來選擇模型,使用測試數據來評估所選模型的性能。

最后,利用調優參數。如果我們對模型的復雜性有一個直觀的數值,我們可以將它看作一個參數,可以“優化”它以產生最佳的樣本預測。即使沒有合適的調優參數,也應當謹慎的報告已有參數所反映出擬合程度的好壞,因為這個參數反映的是樣本外性能,更具有參考意義。

四、計量經濟學與機器學習

計量經濟學和機器學習之間在許多領域都存在著有效的結合。其中最為重要的領域是因果關系預測。當我們想要評估某些處理方式的因果影響時,需要將有干預的結果與不加干預可能發生的情況進行比較,但大多數情況下不加干預所產生的反事實是無法觀測到的,因此必須通過某種模型來預測。你對反事實的預測模型越好,就越能估計出因果關系。比如經濟學家經常在外界干預發生時利用它預測接下來的經濟類數據走勢,再根據預測做出相關應對。

五、結束語

由于計算機已經滲透了經濟交易系統,大數據只會越來越大。為小型數據集開發的數據處理工具和方法將越來越不足以應付新的問題。機器學習的研究人員已經開發出了處理大數據集的工具、研究出了處理大數據時特有的方法,未來也會有越來越多的相關技術出現,對此有興趣的人應該盡早意識到對學習這方面技術的投資。

參考文獻

[1]程學旗,靳小龍,王元卓,等。大數據系統和分析技術綜述[N].軟件學報, 2014(9):1889-1908.

文章標題:大數據在計量經濟學中的應用與簡析

文章地址:http://www./jingjitongjixuelunwen/118215.html

27926090