教學大綱 Syllabus

科目名稱:自然語言處理

Course Name: Natural Language Processing

修別:群

Type of Credit: Partially Required

3.0

學分數

Credit(s)

60

預收人數

Number of Students

課程資料Course Details

課程簡介Course Description

這門課程旨在引導學生全面了解自然語言處理(NLP)的基礎到進階技術。

課程的開始階段,我們將介紹 NLP 的歷史、基本任務和應用場景,並透過分析其技術演進,建立對此領域的基本認識。接著,學生將學習實用技能,如簡單的網路爬蟲和使用 PyTorch 建構基本模型,逐步掌握神經網絡的基本概念。

課程的後半部分著重於 NLP 的核心技術與應用,包括文本前處理、句法分析和語義認知。同時,學生將接觸到當前領先的 NLP 模型和架構,如 Seq2Seq、Transformer、BERT 和 GPT...等演算法。並學習市面上常見的 API(如:OpenAI API),進行實務應用。通過這些學習,學生將具備運用進階 NLP 技術於實際專案的能力,為未來的學術或職業發展打下堅實基礎。

請注意!修習本課程的同學,強烈建議需要有「Python 程式設計」與「深度學習」兩項能力。課程中會假設同學對於「Python 基本語法」(如:分支、迴圈、資料結構、函數、物件導向...等)與「神經網路建模」(如:前處理、優化器、權重初始值、損失函數...等),已經有一定以上的認識。
 

核心能力分析圖 Core Competence Analysis Chart

能力項目說明


    課程目標與學習成效Course Objectives & Learning Outcomes

    課程目標

    本課程旨在使學生掌握自然語言處理(NLP)的基礎到進階應用。學生將學習 NLP 的核心原理、歷史發展及主要應用領域。課程注重實作技巧,如網路爬蟲和 PyTorch 模型建構,並將深入學習進階技術,包括句法分析、語義認知,以及當前先進的 NLP 模型如 Seq2Seq、Transformer、BERT 和 GPT。

     

    學習成效

    修畢本課程後,學生將能夠:

    • 基礎理解:清楚理解自然語言處理的基本概念、發展歷程和主要應用領域。
    • 技術實作:獲得使用 Python 和 PyTorch 等工具進行基本 NLP 任務(如網路爬蟲、線性迴歸模型建構)的能力。
    • 數據處理:掌握文本數據的前處理技術,包括斷詞、詞性標註和命名實體識別等。
    • 進階理論和模型:深入了解並實踐高級 NLP 技術,如句法分析、語義認知、Seq2Seq 模型、注意力機制、Transformer 架構,以及 BERT 和 GPT 模型。
    • 實務應用:能夠使用 OpenAI API 和其他先進技術進行實際的 NLP 專案,並解決實際問題。
    • 案例分析和實作:透過分析大型語言模型案例和實作情緒分析專案,增強解決實際問題的能力。

     

    在課程結束後,學生將獲得從理論到實踐的全面 NLP 知識和技能,為進一步的學術研究或職業發展奠定堅實的基礎。
     

    每周課程進度與作業要求 Course Schedule & Requirements

    教學週次Course Week 彈性補充教學週次Flexible Supplemental Instruction Week 彈性補充教學類別Flexible Supplemental Instruction Type
    週次 課程主題 課程內容 教學活動與作業
    1 NLP 簡介與爬蟲 NLP 的歷史、常見任務、應用場景,並介紹簡單的爬蟲技術 課程講授、課堂實作
    2 PyTorch 與基本模型建構 1 PyTorch 簡介、安裝、張量操作、自動微分 課程講授、課堂實作
    3 PyTorch 與基本模型建構 2 使用 PyTorch 建構簡單的分類模型做為範例 課程講授、課堂實作
    4 語料庫與資料預處理 1 介紹常見的語料庫,與斷句、斷詞、詞嵌入等前處理技術 課程講授、課堂實作
    5 語料庫與資料預處理 2 介紹詞性標註、命名實體識別、關鍵詞句抽取與摘要等技術 課程講授、課堂實作
    6 句法分析與語義認知 包含句子表示法、相依關係分析、語法樹等主題 課程講授、課堂實作
    7 資訊提取(Info Extraction) 包含關鍵詞、短語、關鍵句抽取,並介紹 TF-IDF 等技術 課程講授、課堂實作
    8 期中評量 考試或報告  
    9 文件分類(Classification) 介紹文本相似度(Similarity),並以「情緒分析」做為範例 課程講授、課堂實作
    10 文件集群(Clustering) 提及 LDA 等演算法,以「話題建模(Topic Modeling)」為範例 課程講授、課堂實作
    11 內文摘要(Summarization) 介紹如何將一篇文章濃縮成數個句子的技巧 課程講授、課堂實作
    12 Seq2Seq 模型 原理介紹,並以機器翻譯或聊天機器人為範例 課程講授、課堂實作
    13 注意力機制和 Transformer 深入瞭解注意力機制和 Transformer 架構 課程講授、課堂實作
    14 政大校慶 停課一次  
    15 BERT 和 GPT 模型 探討 BERT 和 GPT 模型的架構和特點 課程講授、課堂實作
    16 大型語言模型(LLMs) 介紹大型語言模型的概念、應用和挑戰 課程講授、課堂實作
    17 期末評量 考試或報告  
    18 彈性教學    
    • 注意:課程大綱或許會因實際情況做順序上的調整。

    授課方式Teaching Approach

    60%

    講述 Lecture

    10%

    討論 Discussion

    20%

    小組活動 Group activity

    10%

    數位學習 E-learning

    0%

    其他: Others:

    評量工具與策略、評分標準成效Evaluation Criteria

    • 55%:作業與課堂實作
    • 15%:期中評量
    • 20%:期末評量
    • 10%:課程出席與參與度

    指定/參考書目Textbook & References

    指定書目:

    ChatGPT 原理,從 PyTorch 中的 NLP 功能讓你一腳跨入自然語言
    孫小文, 王薪宇, 楊談  著
    深智數位出版社
    2023/07/20 出版
    ISBN:978-626-727-359-3
    說明:這本書籍與本課程大綱貼近,適合同學一頁一頁研讀,做為複習或補充教材都不錯。

     

    參考書目:

    GPT 語言模型大揭密:OpenAI API 應用全攻略,打造頂尖 NLP 產品
    Sandra Kublik, Shubham Saboo  著
    AI 人工智慧小組(GPT、博碩編輯室) 譯
    博碩出版社
    2023/05/12 出版
    ISBN:978-626-333-461-8
    說明:這本書籍特別強調「大語言模型(Large Language Models, LLM)」及其應用。並透過呼叫 OpenAI API 來執行一些 NLP 的任務。由於前一本參考書籍對於 LLM 著墨不多,因此特別提供了這一本書,來補足 LLM 這個主題缺失的資訊。

     

    已申請之圖書館指定參考書目 圖書館指定參考書查詢 |相關處理要點

    維護智慧財產權,務必使用正版書籍。 Respect Copyright.

    課程相關連結Course Related Links

    (待定,屆時將會提供本課程之 Moodle 首頁給各位參考)

    課程附件Course Attachments

    課程進行中,使用智慧型手機、平板等隨身設備 To Use Smart Devices During the Class

    Yes

    列印