教學大綱 Syllabus

科目名稱：自然語言處理

Course Name: Natural Language Processing

學年學期：112-2 Spring Semester, 2024
科目代碼：783007001 Course No.783007001

修別：群

Type of Credit: Partially Required

3.0

學分數

Credit(s)

預收人數

Number of Students

課程資料Course Details

開課單位：人智學程 Course Department:Bachelor Program in Artificial Intelligence Applications/B/4
授課老師：紀俊男 Instructor: CHI CHUN-NAN
先修科目：無Prerequisite(N/A)
上課時間：二D56 Session: tue13-16

課程簡介Course Description

這門課程旨在引導學生全面了解自然語言處理（NLP）的基礎到進階技術。

課程的開始階段，我們將介紹 NLP 的歷史、基本任務和應用場景，並透過分析其技術演進，建立對此領域的基本認識。接著，學生將學習實用技能，如簡單的網路爬蟲和使用 PyTorch 建構基本模型，逐步掌握神經網絡的基本概念。

課程的後半部分著重於 NLP 的核心技術與應用，包括文本前處理、句法分析和語義認知。同時，學生將接觸到當前領先的 NLP 模型和架構，如 Seq2Seq、Transformer、BERT 和 GPT...等演算法。並學習市面上常見的 API（如：OpenAI API），進行實務應用。通過這些學習，學生將具備運用進階 NLP 技術於實際專案的能力，為未來的學術或職業發展打下堅實基礎。

請注意！修習本課程的同學，強烈建議需要有「Python 程式設計」與「深度學習」兩項能力。課程中會假設同學對於「Python 基本語法」（如：分支、迴圈、資料結構、函數、物件導向...等）與「神經網路建模」（如：前處理、優化器、權重初始值、損失函數...等），已經有一定以上的認識。

核心能力分析圖 Core Competence Analysis Chart

能力項目說明

課程目標與學習成效Course Objectives & Learning Outcomes

課程目標

本課程旨在使學生掌握自然語言處理（NLP）的基礎到進階應用。學生將學習 NLP 的核心原理、歷史發展及主要應用領域。課程注重實作技巧，如網路爬蟲和 PyTorch 模型建構，並將深入學習進階技術，包括句法分析、語義認知，以及當前先進的 NLP 模型如 Seq2Seq、Transformer、BERT 和 GPT。

學習成效

修畢本課程後，學生將能夠：

基礎理解：清楚理解自然語言處理的基本概念、發展歷程和主要應用領域。
技術實作：獲得使用 Python 和 PyTorch 等工具進行基本 NLP 任務（如網路爬蟲、線性迴歸模型建構）的能力。
數據處理：掌握文本數據的前處理技術，包括斷詞、詞性標註和命名實體識別等。
進階理論和模型：深入了解並實踐高級 NLP 技術，如句法分析、語義認知、Seq2Seq 模型、注意力機制、Transformer 架構，以及 BERT 和 GPT 模型。
實務應用：能夠使用 OpenAI API 和其他先進技術進行實際的 NLP 專案，並解決實際問題。
案例分析和實作：透過分析大型語言模型案例和實作情緒分析專案，增強解決實際問題的能力。

在課程結束後，學生將獲得從理論到實踐的全面 NLP 知識和技能，為進一步的學術研究或職業發展奠定堅實的基礎。

每周課程進度與作業要求 Course Schedule & Requirements

教學週次Course Week	彈性補充教學週次Flexible Supplemental Instruction Week	彈性補充教學類別Flexible Supplemental Instruction Type
16+2週16+2 weeks	第 17 週 Week 17	課程相關線上學習Course-related online learning
16+2週16+2 weeks	第 18 週 Week 18	完成指定課後作業或作品Completion of designated after-course assignment or work

週次	課程主題	課程內容	教學活動與作業
1	NLP 簡介與爬蟲	NLP 的歷史、常見任務、應用場景，並介紹簡單的爬蟲技術	課程講授、課堂實作
2	PyTorch 與基本模型建構 1	PyTorch 簡介、安裝、張量操作、自動微分	課程講授、課堂實作
3	PyTorch 與基本模型建構 2	使用 PyTorch 建構簡單的分類模型做為範例	課程講授、課堂實作
4	語料庫與資料預處理 1	介紹常見的語料庫，與斷句、斷詞、詞嵌入等前處理技術	課程講授、課堂實作
5	語料庫與資料預處理 2	介紹詞性標註、命名實體識別、關鍵詞句抽取與摘要等技術	課程講授、課堂實作
6	句法分析與語義認知	包含句子表示法、相依關係分析、語法樹等主題	課程講授、課堂實作
7	資訊提取（Info Extraction）	包含關鍵詞、短語、關鍵句抽取，並介紹 TF-IDF 等技術	課程講授、課堂實作
8	期中評量	考試或報告
9	文件分類（Classification）	介紹文本相似度（Similarity），並以「情緒分析」做為範例	課程講授、課堂實作
10	文件集群（Clustering）	提及 LDA 等演算法，以「話題建模（Topic Modeling）」為範例	課程講授、課堂實作
11	內文摘要（Summarization）	介紹如何將一篇文章濃縮成數個句子的技巧	課程講授、課堂實作
12	Seq2Seq 模型	原理介紹，並以機器翻譯或聊天機器人為範例	課程講授、課堂實作
13	注意力機制和 Transformer	深入瞭解注意力機制和 Transformer 架構	課程講授、課堂實作
14	政大校慶	停課一次
15	BERT 和 GPT 模型	探討 BERT 和 GPT 模型的架構和特點	課程講授、課堂實作
16	大型語言模型（LLMs）	介紹大型語言模型的概念、應用和挑戰	課程講授、課堂實作
17	期末評量	考試或報告
18	彈性教學

注意：課程大綱或許會因實際情況做順序上的調整。

授課方式Teaching Approach

60%

講述 Lecture

10%

討論 Discussion

20%

小組活動 Group activity

10%

數位學習 E-learning

其他： Others:

評量工具與策略、評分標準成效Evaluation Criteria

55%：作業與課堂實作
15%：期中評量
20%：期末評量
10%：課程出席與參與度

指定/參考書目Textbook & References

指定書目：

ChatGPT 原理，從 PyTorch 中的 NLP 功能讓你一腳跨入自然語言
孫小文, 王薪宇, 楊談著
深智數位出版社
2023/07/20 出版
ISBN：978-626-727-359-3
說明：這本書籍與本課程大綱貼近，適合同學一頁一頁研讀，做為複習或補充教材都不錯。

參考書目：

GPT 語言模型大揭密：OpenAI API 應用全攻略，打造頂尖 NLP 產品
Sandra Kublik, Shubham Saboo 著
AI 人工智慧小組（GPT、博碩編輯室）譯
博碩出版社
2023/05/12 出版
ISBN：978-626-333-461-8
說明：這本書籍特別強調「大語言模型（Large Language Models, LLM）」及其應用。並透過呼叫 OpenAI API 來執行一些 NLP 的任務。由於前一本參考書籍對於 LLM 著墨不多，因此特別提供了這一本書，來補足 LLM 這個主題缺失的資訊。

已申請之圖書館指定參考書目圖書館指定參考書查詢 |相關處理要點

課程相關連結Course Related Links

（待定，屆時將會提供本課程之 Moodle 首頁給各位參考）

課程附件Course Attachments

課程進行中，使用智慧型手機、平板等隨身設備 To Use Smart Devices During the Class

是 Yes