中文情緒維度資料集
♬中文單詞CVAW
單詞的意思通常比較固定,所以它的情緒標註也會比較穩定, 適合拿來當模型學習情緒的「基礎辭典」。
EX :- 「不安」這個詞大部分人看到都會聯想到負面的、讓人緊張的感覺,所以它會是低 Valence、高 Arousal。
- 「不可思議」這個詞比較特別,可能會因為情況不同, 有時候是正向的驚喜,有時候也可能是負面的傻眼,所以這類詞的標準差就會比較高 , 代表它的情緒解讀比較多元、比較不固定。
♬中文片語CVAP
片語會因不同副詞、語氣或語義組合而呈現不同的情緒強度。
EX :- 「更加小心」聽起來比較像是提醒,情緒比較溫和,注意一下的感覺。
- 「特別小心」語氣就比較強,會讓人覺得緊張有壓力。片語比單字更能捕捉語言中那些很細微、但會影響我們感受的情緒變化。
♬中文情緒資料集
- Valence_Mean:愉悅程度平均值 (連續數值 1~9)。
- Arousal_Mean:情緒強度平均值 (連續數值 1~9)。
- Valence_SD / Arousal_SD:反映語意的模糊程度。
詞典處理
♬資料整併(單詞+片語)
本研究使用中文情緒維度資料集,包含單詞(CVAW)與片語(CVAP)兩種類型。單詞的情緒較穩定,適合作為基礎語意參考;而片語則能反映語氣與程度差異,有助於捕捉更細膩的情緒變化。
為了統一後續分析流程,我們將兩種資料整合為同一資料表,並統一欄位格式(如 Valence、Arousal 等),使不同來源的資料可以在相同架構下進行處理與建模。
♬資料清理與轉換
在資料整併後,先進行基本的資料清理,包括移除重複詞彙、處理缺漏值,以及檢查數值是否落在合理範圍內,以確保資料品質。
接著,將原本 1~9 的情緒量表轉換為以 0 為中心的數值範圍(-4~4),讓情緒方向(正向/負向)與強度(強/弱)能更直觀地表示,並方便後續模型進行分類與判斷。
♬情緒建模(VA → 四象限)
本研究採用 Valence(愉悅度)與 Arousal(喚起度)作為情緒表示方式,並依據 Russell 情緒環狀模型,將連續數值轉換為四個情緒象限:快樂(高愉悅、高喚起)、憤怒(低愉悅、高喚起)、悲傷(低愉悅、低喚起)與平靜(高愉悅、低喚起)。
此轉換能將抽象的情緒數值轉為具體分類,不僅提升可解釋性,也方便後續應用於情緒分析與音樂推薦等任務。
♬分類優化(BERT + SVM)
對於落在情緒座標軸上、難以明確歸類的詞彙,僅依靠 VA 數值無法進行有效分類,因此進一步進行細緻的情緒分類優化。
首先透過 BERT 模型進行語意理解,判斷詞彙之間在語意空間中的相似性與關聯性,將語意接近的詞彙聚集在同一維度中;接著再利用 SVM 分類器進行邊界劃分,將原本模糊的情緒詞彙進一步拆分與細分類,以提升整體情緒分類的準確度與一致性。
♬互動式字詞情緒分布圖
這張圖是用 Valence 跟 Arousal 兩個維度,把字詞的情緒分布畫出來。當滑鼠移到某個點時,可以看到這個詞的情緒數值與分類,讓我們更直觀了解每個詞的情緒位置。