教學大綱 Syllabus

科目名稱:資料科學與東亞研究

Course Name: Computational Social Science and East Asian Studies

修別:選

Type of Credit: Elective

3.0

學分數

Credit(s)

15

預收人數

Number of Students

課程資料Course Details

課程簡介Course Description

本課程為碩士班課程,主要帶領學生實作,建立資料分析的基礎,以及了解文字探勘或者更進階的資料分析途徑。本課程主要目的為讓學生擁有資料分析的思維,並且將來可以應用相關分析與視覺化方法,作為豐富其研究與論文寫作之基礎,加上當前資訊時代的來臨,以及赴陸田野調查不如既往方便的情況,此課程冀圖以資料科學研究方式,讓學生可以用資料分析思維豐富可用方法途徑。本課程主要由教師進行授課,由淺到深以實作方式讓學生對相關途徑有一個基本了解。

核心能力分析圖 Core Competence Analysis Chart

能力項目說明


    課程目標與學習成效Course Objectives & Learning Outcomes

    為因應新資訊時代的來臨,以及赴陸田野調查不如既往方便的情況,因此此課程希望透過文字探勘等資料科學研究方式,在研究方法上增添新的途徑。此課程目標讓同學建立資料分析基礎,了解文字探勘以及進階的專題實作演練。修習此課程的同學預計可建立資料分析的思維,以及掌握基本的python與R統計軟體的使用,並且可以將之用在研究分析上。在python學習上,同學預計可以學習基本的語法以及資料視覺化,在R學習上,同學預計可以從實作中習得1.R語言基本語法、2.與文本探勘相關的R語言套件學習、3.資料視覺化、4.文本探勘與社會科學統計的結合。

     

    每周課程進度與作業要求 Course Schedule & Requirements

    教學週次Course Week 彈性補充教學週次Flexible Supplemental Instruction Week 彈性補充教學類別Flexible Supplemental Instruction Type

    週次

    Week

    課程主題

    Topic

    課程內容與指定閱讀

    Content and Reading Assignment

    教學活動與作業

    Teaching Activities and Homework

    學習投入時間

    Student workload expectation

    課堂講授

    In-class Hours

    課程前後

    Outside-of-class Hours

    1

    課程簡介

    參考閱讀:

    莊文忠,2020,大數據的政策敘事分析:基本框架與案例演示,T&D飛訊,268: 1-34;黃從仁,2020,大數據與人工智慧在行為與社會科學的應用趨勢,調查研究-方法與應用,第45期,11-42。

    *1-5周由曾偉峯老師授課

    資料分析基本概念與python程式語言介紹與安裝

    2-3

    2

    2

    社會科學方法論與資料分析

    參考閱讀:洪錦魁,2022,
    Python最強入門邁向數據科學之路:王者歸來(全彩印刷第二版),深智數位出版。

    Python程式語言介紹與軟體安裝與Python基礎操作指令介紹

    2-3

    2

    3

    探索性資料分析與視覺化

    介紹資料分析視覺化

    參考閱讀:洪錦魁,2022,
    Python最強入門邁向數據科學之路:王者歸來(全彩印刷第二版),深智數位出版。

    Python資料分析與視覺化,介紹pandas、numpy、matplotlib、seaborn等函式庫

    2-3

    2

    4

    網路爬蟲簡介與文字分析視覺化

    介紹網路爬蟲與文字作為資料

    參考閱讀:,李翰文,2022,中國官腔進入香港用語 分析形容再證北京政治影響,BBC中文網,https://www.bbc.com/zhongwen/trad/chinese-news-60672295;激化情緒對立的口水戰,PTT八卦版疫情輿論分析,2021,國防安全研究院https://indsr.org.tw/focus?uid=11&pid=182&typeid=

    Pu et al., 2023. "Censor and Sensitivity: How China Handles US Embassy’s
    Public Diplomacy in Chinese Cyber Space." Journal of Chinese Political Science, https://link.springer.com/article/10.1007/s11366-023-09868-w

    Python文字處理與分析基礎

    2-3

    2

    5

    實作與討論

    驗收基礎應用成果

    分組繳交一份簡要資料分析成果,並進行簡報

    2-3

    2

    6

    社會科學中的文本探勘(Text-mining & text analytics in social science research )

    1.社會科學中的文本探勘。(text-mining in social science research)

    2.R語言基本介紹。(R introduction )

    3.RStudio作業環境基本介紹。(Rstudio: Settings and basics)

    4.R語言基本功能練習。(R programming exercises)

    *6-11周由倪世傑老師授課

    今天幾乎在每一個學科中,都能夠輕易地發現以數位化的文本探勘研究方法撰寫的學術與學位論文,社會科學自不例外。本課程從R語言的基礎著手,使毫無程式語言基礎同學都能夠從R語言的基本語法中開始進入社會科學的文本探勘研究。最後,請同學繳交一份運用文本探勘技術撰寫的小報告(3000字以內,2023-11-07前繳交。)。

    此階段(第6-11周)評分標準:

    出席:30%

    課程互動:40%

    報告撰寫:30%

    2-3

    2

    7

    文本探勘中R語言基本語法(Basics in text-mining: R programming exercises )

    1.字串(string)

    2.華語文與英語的文本探勘前置作業。(The settings of Mandarin & English text-mining environment)

    3.時間格式設定(time-series)

    4.關鍵詞提取(keywords extraction)

    5.視覺化(visualization)

     

    2-3

    2

    8

    監督式與非監督式的文本探勘 (Supervised & unsupervised text-mining methods)

    1.監督式文本探勘研究方法。(Supervised text-mining: Approaches & methods)

    2.情緒分析。(sentimental analysis)

    3.非監督式文本探勘中的主題建模(Unsupervised Text-mining Methods:  Topic Modeling)

    4.華語與英語環境下的主題建模 (Text mining in Mandarin & English settings)

    5.設定變項與回歸分析(The Muse: On Variables and regression)

    6.視覺化(visualization)

     

    2-3

    2

    9

    期中考周

     

     

     

     

    10 短文本研究(short-text text-mining)
     
    1.Biterm Topic Model (R Package BTM)
    2.Key-word assisted topic model (R Package KeyATM) 
    3.Gibbs Sampling Dirichlet Multinomial Mixture (Python Package gsdmm)
    4.視覺化(visualization)
      2-3 2

    11

    社群網絡分析(community detection & social networking)

    主要內容:(Topics)

    1.Named Entity Recognition (NER)

    2.Social Networking

    3.Community detection & networking

     

    2-3

    2

    12

    從文字探勘(Text-mining)到自然語言處理(Natural Languege Processing, NLP)

    TM與NLP在人社研究的應用案例的優點與限制

     

    *邀請專業教師/課程教師授課

    2-3

    2

    13

    如何應用一個TM與NLP製作專題研究

     

     

    2-3

    2

    14

    引導學員開始製作專題研究

     

     

    2-3

    2

    15

    學員製作專題研究之中途檢視

     

     

    2-3

    2

    16

    學員製作專題研究之收尾與寫作

     

     

    2-3

    2

    17

    補充教學

     

     

       

    18

    補充教學

     

     

     

     

    註1.本課程需要個人筆記型電腦,以Windows系統與Mac系統為主。

    註2.請勿缺課。

    註3.教室內禁食,飲料需封口。(避免因倒翻造成電腦損壞)

    授課方式Teaching Approach

    50%

    講述 Lecture

    20%

    討論 Discussion

    20%

    小組活動 Group activity

    10%

    數位學習 E-learning

    0%

    其他: Others:

    評量工具與策略、評分標準成效Evaluation Criteria

    三次個別評量,再加以平均。

    第一次評量(33%):包括出缺席紀錄,課堂表現及隨堂作業。

    第二次評量(33%):包括出缺席紀錄,課堂表現及隨堂作業。

    第三次評量(33%):包括出缺席紀錄,課堂表現及隨堂作業。

    指定/參考書目Textbook & References

    已申請之圖書館指定參考書目 圖書館指定參考書查詢 |相關處理要點

    維護智慧財產權,務必使用正版書籍。 Respect Copyright.

    課程相關連結Course Related Links

    
                

    課程附件Course Attachments

    課程進行中,使用智慧型手機、平板等隨身設備 To Use Smart Devices During the Class

    需經教師同意始得使用 Approval

    列印