中文情緒維度資料集

♬中文單詞CVAW

單詞的意思通常比較固定,所以它的情緒標註也會比較穩定,
適合拿來當模型學習情緒的「基礎辭典」。

EX :

♬中文片語CVAP

片語會因不同副詞、語氣或語義組合而呈現不同的情緒強度。

EX :

♬中文情緒資料集

💡 您可以上下滑動表格查看詳細資訊。
  • Valence_Mean:愉悅程度平均值 (連續數值 1~9)。
  • Arousal_Mean:情緒強度平均值 (連續數值 1~9)。
  • Valence_SD / Arousal_SD:反映語意的模糊程度。

詞典處理

資料整併 資料清理與轉換 情緒建模 分類優化

♬資料整併(單詞+片語)

本研究使用中文情緒維度資料集,包含單詞(CVAW)與片語(CVAP)兩種類型。單詞的情緒較穩定,適合作為基礎語意參考;而片語則能反映語氣與程度差異,有助於捕捉更細膩的情緒變化。

為了統一後續分析流程,我們將兩種資料整合為同一資料表,並統一欄位格式(如 Valence、Arousal 等),使不同來源的資料可以在相同架構下進行處理與建模。

♬資料清理與轉換

在資料整併後,先進行基本的資料清理,包括移除重複詞彙、處理缺漏值,以及檢查數值是否落在合理範圍內,以確保資料品質。

接著,將原本 1~9 的情緒量表轉換為以 0 為中心的數值範圍(-4~4),讓情緒方向(正向/負向)與強度(強/弱)能更直觀地表示,並方便後續模型進行分類與判斷。

♬情緒建模(VA → 四象限)

本研究採用 Valence(愉悅度)與 Arousal(喚起度)作為情緒表示方式,並依據 Russell 情緒環狀模型,將連續數值轉換為四個情緒象限:快樂(高愉悅、高喚起)、憤怒(低愉悅、高喚起)、悲傷(低愉悅、低喚起)與平靜(高愉悅、低喚起)。

此轉換能將抽象的情緒數值轉為具體分類,不僅提升可解釋性,也方便後續應用於情緒分析與音樂推薦等任務。

♬分類優化(BERT + SVM)

對於落在情緒座標軸上、難以明確歸類的詞彙,僅依靠 VA 數值無法進行有效分類,因此進一步進行細緻的情緒分類優化。

首先透過 BERT 模型進行語意理解,判斷詞彙之間在語意空間中的相似性與關聯性,將語意接近的詞彙聚集在同一維度中;接著再利用 SVM 分類器進行邊界劃分,將原本模糊的情緒詞彙進一步拆分與細分類,以提升整體情緒分類的準確度與一致性。

♬互動式字詞情緒分布圖

這張圖是用 Valence 跟 Arousal 兩個維度,把字詞的情緒分布畫出來。當滑鼠移到某個點時,可以看到這個詞的情緒數值與分類,讓我們更直觀了解每個詞的情緒位置。

💡 您可以將滑鼠移動到某個點上,能夠看到這個詞的情緒數值與分類。