Type of Credit: Elective
Credit(s)
Number of Students
本課程為碩士班課程,主要帶領學生實作,建立資料分析的基礎,以及了解文字探勘或者更進階的資料分析途徑。本課程主要目的為讓學生擁有資料分析的思維,並且將來可以應用相關分析與視覺化方法,作為豐富其研究與論文寫作之基礎,加上當前資訊時代的來臨,以及赴陸田野調查不如既往方便的情況,此課程冀圖以資料科學研究方式,讓學生可以用資料分析思維豐富可用方法途徑。本課程主要由教師進行授課,由淺到深以實作方式讓學生對相關途徑有一個基本了解。
能力項目說明
為因應新資訊時代的來臨,以及赴陸田野調查不如既往方便的情況,因此此課程希望透過文字探勘等資料科學研究方式,在研究方法上增添新的途徑。此課程目標讓同學建立資料分析基礎,了解文字探勘以及進階的專題實作演練。修習此課程的同學預計可建立資料分析的思維,以及掌握基本的python與R統計軟體的使用,並且可以將之用在研究分析上。在python學習上,同學預計可以學習基本的語法以及資料視覺化,在R學習上,同學預計可以從實作中習得1.R語言基本語法、2.與文本探勘相關的R語言套件學習、3.資料視覺化、4.文本探勘與社會科學統計的結合。
教學週次Course Week | 彈性補充教學週次Flexible Supplemental Instruction Week | 彈性補充教學類別Flexible Supplemental Instruction Type |
---|---|---|
週次 Week |
課程主題 Topic |
課程內容與指定閱讀 Content and Reading Assignment |
教學活動與作業 Teaching Activities and Homework |
學習投入時間 Student workload expectation |
|
課堂講授 In-class Hours |
課程前後 Outside-of-class Hours |
||||
1 |
課程簡介 |
參考閱讀: 莊文忠,2020,大數據的政策敘事分析:基本框架與案例演示,T&D飛訊,268: 1-34;黃從仁,2020,大數據與人工智慧在行為與社會科學的應用趨勢,調查研究-方法與應用,第45期,11-42。 |
*1-5周由曾偉峯老師授課 資料分析基本概念與python程式語言介紹與安裝 |
2-3 |
2 |
2 |
社會科學方法論與資料分析 |
參考閱讀:洪錦魁,2022, |
Python程式語言介紹與軟體安裝與Python基礎操作指令介紹 |
2-3 |
2 |
3 |
探索性資料分析與視覺化 |
介紹資料分析視覺化 參考閱讀:洪錦魁,2022, |
Python資料分析與視覺化,介紹pandas、numpy、matplotlib、seaborn等函式庫 |
2-3 |
2 |
4 |
網路爬蟲簡介與文字分析視覺化 |
介紹網路爬蟲與文字作為資料 參考閱讀:,李翰文,2022,中國官腔進入香港用語 分析形容再證北京政治影響,BBC中文網,https://www.bbc.com/zhongwen/trad/chinese-news-60672295;激化情緒對立的口水戰,PTT八卦版疫情輿論分析,2021,國防安全研究院,https://indsr.org.tw/focus?uid=11&pid=182&typeid= Pu et al., 2023. "Censor and Sensitivity: How China Handles US Embassy’s |
Python文字處理與分析基礎 |
2-3 |
2 |
5 |
實作與討論 |
驗收基礎應用成果 |
分組繳交一份簡要資料分析成果,並進行簡報 |
2-3 |
2 |
6 |
社會科學中的文本探勘(Text-mining & text analytics in social science research ) |
1.社會科學中的文本探勘。(text-mining in social science research) 2.R語言基本介紹。(R introduction ) 3.RStudio作業環境基本介紹。(Rstudio: Settings and basics) 4.R語言基本功能練習。(R programming exercises) |
*6-11周由倪世傑老師授課 今天幾乎在每一個學科中,都能夠輕易地發現以數位化的文本探勘研究方法撰寫的學術與學位論文,社會科學自不例外。本課程從R語言的基礎著手,使毫無程式語言基礎同學都能夠從R語言的基本語法中開始進入社會科學的文本探勘研究。最後,請同學繳交一份運用文本探勘技術撰寫的小報告(3000字以內,2023-11-07前繳交。)。 此階段(第6-11周)評分標準: 出席:30% 課程互動:40% 報告撰寫:30% |
2-3 |
2 |
7 |
文本探勘中R語言基本語法(Basics in text-mining: R programming exercises ) |
1.字串(string) 2.華語文與英語的文本探勘前置作業。(The settings of Mandarin & English text-mining environment) 3.時間格式設定(time-series) 4.關鍵詞提取(keywords extraction) 5.視覺化(visualization) |
|
2-3 |
2 |
8 |
監督式與非監督式的文本探勘 (Supervised & unsupervised text-mining methods) |
1.監督式文本探勘研究方法。(Supervised text-mining: Approaches & methods) 2.情緒分析。(sentimental analysis) 3.非監督式文本探勘中的主題建模(Unsupervised Text-mining Methods: Topic Modeling) 4.華語與英語環境下的主題建模 (Text mining in Mandarin & English settings) 5.設定變項與回歸分析(The Muse: On Variables and regression) 6.視覺化(visualization) |
|
2-3 |
2 |
9 |
期中考周 |
|
|
|
|
10 | 短文本研究(short-text text-mining) |
1.Biterm Topic Model (R Package BTM) 2.Key-word assisted topic model (R Package KeyATM) 3.Gibbs Sampling Dirichlet Multinomial Mixture (Python Package gsdmm) 4.視覺化(visualization) |
2-3 | 2 | |
11 |
社群網絡分析(community detection & social networking) 主要內容:(Topics) |
1.Named Entity Recognition (NER) 2.Social Networking 3.Community detection & networking |
|
2-3 |
2 |
12 |
從文字探勘(Text-mining)到自然語言處理(Natural Languege Processing, NLP) TM與NLP在人社研究的應用案例的優點與限制 |
|
*邀請專業教師/課程教師授課 |
2-3 |
2 |
13 |
如何應用一個TM與NLP製作專題研究 |
|
|
2-3 |
2 |
14 |
引導學員開始製作專題研究 |
|
|
2-3 |
2 |
15 |
學員製作專題研究之中途檢視 |
|
|
2-3 |
2 |
16 |
學員製作專題研究之收尾與寫作 |
|
|
2-3 |
2 |
17 |
補充教學 |
|
|
||
18 |
補充教學 |
|
|
|
|
註1.本課程需要個人筆記型電腦,以Windows系統與Mac系統為主。
註2.請勿缺課。
註3.教室內禁食,飲料需封口。(避免因倒翻造成電腦損壞)
三次個別評量,再加以平均。
第一次評量(33%):包括出缺席紀錄,課堂表現及隨堂作業。
第二次評量(33%):包括出缺席紀錄,課堂表現及隨堂作業。
第三次評量(33%):包括出缺席紀錄,課堂表現及隨堂作業。