Type of Credit: Elective
Credit(s)
Number of Students
由於各行各業越來越重視數據做為決策的依據,因此資料科學最近變得非常熱門,而在資料科學出現之前,統計學已經幫助我們描述資料以及找出變數之間的關係。學好統計學能避免被龐大的資料所困惑。不論是從事公部門或者私部門的行業,都需要培養基本的技能,才能透視資料後面的故事。
就社會科學而言,統計可以運用在許多重要的研究問題,例如有多少國家採用內閣制或總統制,而他們的政黨數目又有多少?有哪些國家的投票率比較高、哪些國家比較低?經濟發展、社會不平等或者其他因素影響投票率?現任者是否在下一次選舉中真的比較有優勢?那些社群媒體會影響民眾對於政治的看法?
如果針對中國研究,社會團體所支持的非正式機構,是否彌補原本有限的公共投資?威權政體如何讓民眾滿足現狀,不會支持過於困難的改革?雖然這些問題不容易回答,但是學者盡力收集資料來驗證甚至發展新的理論。
本課程一開始將教授因果關係,然後進入描述統計,包括兩個變數之間的關係,再探討迴歸方法。迴歸教完後,將探討與母體推論的基礎--機率分佈,接著是假設檢定。如果時間允許,本課程將探討非線性迴歸模型以及時間序列的因果推論模型。
本課程目的是用R
實作統計,讓修課者同時學習統計以及操作R
,未來能夠進一步延伸到其他的領域。我們假設修課的同學已經有使用R
的經驗,所以第一節課講解R
的基本介面與功能之後,請同學自行參考相關的語法講義。上課以及作業都會用R
來處理。
能力項目說明
不論是統計或者資料分析,背後都需要有嚴謹的研究設計,本課程希望達到下列目標,但是也會時時提醒修課者培養看問題以及回答問題的敏銳度:
R
描述資料R
整理資料R
進行資料視覺化R
進行相關分析R
進行線性迴歸模型R
進行非線性迴歸模型R
分析加權資料R
進行實驗設計教學週次Course Week | 彈性補充教學週次Flexible Supplemental Instruction Week | 彈性補充教學類別Flexible Supplemental Instruction Type |
---|---|---|
週次 | 日期 | 主題 | 說明 | 參考書籍 |
---|---|---|---|---|
1 | 2/25 | 課程簡介、安裝R | 介紹本課程,以及R 的特點,以及說明如何安裝R 與RStudio ,以及安裝套件 |
蔡(Ch.1, 2) |
2 | 3/4 | 資料型態、資料讀取 | 將說明R 的資料型態,包括數值、字串等等,以及R 的向量、因子、列表、矩陣等等結構,以及資料框與資料表 |
蔡(Ch.3, 4, 5),Verzani(Ch. 1) |
3 | 3/11 | 條件判斷、迴圈 | 將解釋如何設定條件讓R 依照邏輯計算答案,以及如何設定迴圈 |
蔡(Ch.7),Verzani (Ch.6) |
4 | 3/18 | 資料視覺化 | 介紹ggplot2以及ggpubr等套件的圖形 | 課堂上投影片 |
5 | 3/25 | 研究設計 | 討論研究設計以及迴歸模型應注意的變數之間的關係 | James等人(Ch. 2) |
6 | 4/1 | 描述統計:集中趨勢、離散程度 | 介紹描述統計的集中趨勢以及離散程度,例如平均值、中位數、標準差等等 | 蔡 (Ch.7) ,Verzani (Ch.2),林與陳(Ch.3-4) |
7 | 4/8 | 統計估計、假設檢定、 平均數分析 | 點估計的意義以及信賴區間的計算 | Verzani (Ch. 8, 11),林與陳(Ch. 10, 11) |
8 | 4/15 | 相關分析、卡方檢定 | 介紹兩個非連續變數之間的關聯,以及卡方檢定 | 蔡(Ch.7),Verzani (Ch.9),林與陳(Ch.12) |
9 | 4/22 | 平均數分析、變異數檢定 | 說明連續變數與非連續變數之間的變異數分析 | Verzani (Ch. 8, 11) |
10 | 4/29 | 線性迴歸原理 | 說明線性迴歸的原理以及假設檢定 | 蔡(Ch.8, 10),Verzani (Ch.10),林與陳(Ch.9-10) |
11 | 5/6 | 單迴歸 | 說明信賴區間以及如何以圖形詮釋迴歸 | James等人(Ch. 3),林與陳(Ch. 14) |
12 | 5/13 | 複迴歸、虛擬變數、交互作用 | 說明有兩個以上的自變數時的迴歸模型,以及其中有一個是類別變數,以及兩個自變數之間有交互作用時的估計方式 | James等人(Ch. 3) |
13 | 5/20 | 校運會 | 停課 | 停課 |
14 | 5/27 | 最大概似法、二元勝算對數迴歸模型 | 介紹最大概似法與非線性迴歸模型應用在依變項為二元而非連續變數 | Verzani (Ch. 12),James等人 (Ch. 4) |
15 | 6/3 | 時間序列分析 | 介紹時間數列分析原理及應用 | 林與陳(Ch.16) |
16 | 6/10 | 實驗設計原理 | 介紹因果推論原理 | 課堂上投影片 |
17 | 6/17 | 實驗設計應用 | 介紹配對法 | 課堂上投影片 |
18 | 6/24 | 期末課堂報告 | 每位同學須以投影片報告即將繳交的期末報告內容 | 無 |
R
描述資料型態,並且說明變數之間可能的關係,最後以線性或者非線性迴歸模型檢證假設,但是在這個階段不一定要有非常顯著的發現。報告字數約在8000字以內,請說明每一位組員的分工。評分標準為:R
以下介紹幾個線上的資源: 長庚大學資訊管理系的曾意儒教授所撰寫的資料科學與R語言(http://yijutseng.github.io/DataScienceRBook/index.html),結構分明,值得參考。 輕鬆學習R語言一書 (http://www.learn-r-the-easy-way.tw/chapters/1) 介紹的也很詳盡,還有習題。 同時鼓勵參考Hastie等人之前寫的有關統計與機器學習的書:Trevor Hastie, Robert Tibshirani, and Jerome Friedman, 2008. The Elements of Statistical Learning: Data Mining, Inference, and Prediction (https://web.stanford.edu/~hastie/Papers/ESLII.pdf) listendata這個網站介紹好幾種軟體,如果有空可以參考(https://www.listendata.com/p/r-programming-tutorials.html)。 UCLA 的統計資源中心–IDRE有非常多的統計軟體的運用介紹,其中R的部分在(https://stats.idre.ucla.edu/r)。