Type of Credit: Elective
Credit(s)
Number of Students
相對於能呈現豐富資訊的圖像資料,語音提供人類的資訊量雖然有限,但也有不干擾注意力、同時輔助決策的優勢,在實際應用層面、不同領域中,也陸續推出各種AI產品,如聲紋辨識系統、語音辨識繳費、及Apple Siri、Amazon Alexa、Google Assistant等等對話系統。即便如此,從語音處理、辨識、理解語音、回覆決策、到語音合成,每個環節都仍有成長、改良、更加完善的空間。
本課程主要分為概念探討與AI技術應用兩大部分。在「概念探討」方面,將從語音資料開始,語音如何從人類器官產生、物理傳輸中的影響因素、如何取出最核心的關鍵資訊、到電腦產生一段語音、人們是否能接受?探討諸如此類的問題。在「AI技術」應用方面,則將以python程式語言為主,並搭配「概念探討」,介紹在AI領域中常用、最新的工具及技術,藉由作業、上機練習等方式,讓同學從實作過程中體會其核心精神,並思考可能的改進方向。
能力項目說明
本課程從以下五大項目,設定階段目標、累積學習成效。
1. 語音領域入門:包含資料特性、常用指標、及複習Python語言。將學習剖析問題核心,運用所學、設計程式,拆解並解決問題。
2. 語音處理:包含數位訊號處理、類比/數位資料轉換、到實務應用(如降噪)。
3. 語音辨識:從語音取得文字資訊。將導入實務應用,認識AI領域最新的技術與工具。
4. 語音合成:從文字產生語音。將導入實務應用,認識AI領域最新的技術與工具。
5. 自然語言對話系統的概念與實作。將培養團隊合作開發專案、或討論特定議題及解決方案,並展示其研發、分析成果。
教學週次Course Week | 彈性補充教學週次Flexible Supplemental Instruction Week | 彈性補充教學類別Flexible Supplemental Instruction Type |
---|---|---|
週次 Week |
課程主題 Topic |
課程內容與指定閱讀 Content and Reading Assignment |
教學活動與作業 Teaching Activities and Homework |
學習投入時間 Student workload expectation |
|
課堂講授 In-class Hours |
課程前後 Outside-of-class Hours |
||||
1 |
Introduction |
介紹課程大綱、評量方式、安裝開發環境及課程所需工具 |
講授 |
3 |
3 |
2 |
Fundamental Theory |
語音概述、實作 |
講授、上機練習 |
3 |
3 |
3 |
Review |
Python語言重點回顧 |
講授、上機練習 |
3 |
3 |
4 |
Speech Processing |
數位語音處理概述 |
講授、上機練習 |
3 |
3 |
5 |
語音訊號剖析 |
講授、上機練習 |
3 |
3 |
|
6 |
語音訊號編碼 |
講授、上機練習; |
3 |
3 |
|
7 |
Speech Recognition |
聲學模型 |
講授、上機練習 |
3 |
3 |
8 |
克服環境挑戰:噪音、迴音、混合因素 |
講授、上機練習 |
3 |
3 |
|
9 |
語言模型 |
講授、上機練習 |
3 |
3 |
|
10 |
建立、評估語音辨識模型 |
講授、上機練習;作業(二) |
3 |
3 |
|
11 |
Text-To-Speech Systems |
語音合成概述;期末報告分組 |
講授、上機練習 |
3 |
3 |
12 |
建立、評估TTS系統 |
講授、上機練習;作業(三) |
3 |
3 |
|
13 |
Natural Language Systems |
從實作單一模組、到架構對話系統 |
講授、上機練習 |
3 |
3 |
14 |
評估、調整對話系統 |
講授、上機練習 |
3 |
3 |
|
15 |
從應用出發:設計合用的對話系統(一) |
講授、上機練習 |
3 |
3 |
|
16 |
期末專案報告 |
3 |
6 |
||
17 |
自主學習 |
|
|
|
|
18 |
自主學習 |
|
|
|
|
課堂參與:35%
作業(3次):30%
期末報告(小組):35%
*學生使用生成式AI完成作業時,須註明使用的工具或軟體所涵蓋的作業範圍。
Huang, Xuedong, et al. Spoken language processing: A guide to theory, algorithm, and system development. Prentice hall PTR, 2001.