中文情緒維度資料集

♬中文單詞CVAW

單詞的意思通常比較固定，所以它的情緒標註也會比較穩定， 適合拿來當模型學習情緒的「基礎辭典」。

EX :

「不安」這個詞大部分人看到都會聯想到負面的、讓人緊張的感覺，所以它會是低 Valence、高 Arousal。
「不可思議」這個詞比較特別，可能會因為情況不同， 有時候是正向的驚喜，有時候也可能是負面的傻眼，所以這類詞的標準差就會比較高，代表它的情緒解讀比較多元、比較不固定。

片語會因不同副詞、語氣或語義組合而呈現不同的情緒強度。

EX :

💡 您可以上下滑動表格查看詳細資訊。

本研究使用中文情緒維度資料集，包含單詞（CVAW）與片語（CVAP）兩種類型。單詞的情緒較穩定，適合作為基礎語意參考；而片語則能反映語氣與程度差異，有助於捕捉更細膩的情緒變化。

為了統一後續分析流程，我們將兩種資料整合為同一資料表，並統一欄位格式（如 Valence、Arousal 等），使不同來源的資料可以在相同架構下進行處理與建模。

在資料整併後，先進行基本的資料清理，包括移除重複詞彙、處理缺漏值，以及檢查數值是否落在合理範圍內，以確保資料品質。

接著，將原本 1～9 的情緒量表轉換為以 0 為中心的數值範圍（-4～4），讓情緒方向（正向／負向）與強度（強／弱）能更直觀地表示，並方便後續模型進行分類與判斷。

本研究採用 Valence（愉悅度）與 Arousal（喚起度）作為情緒表示方式，並依據 Russell 情緒環狀模型，將連續數值轉換為四個情緒象限：快樂（高愉悅、高喚起）、憤怒（低愉悅、高喚起）、悲傷（低愉悅、低喚起）與平靜（高愉悅、低喚起）。

此轉換能將抽象的情緒數值轉為具體分類，不僅提升可解釋性，也方便後續應用於情緒分析與音樂推薦等任務。

對於落在情緒座標軸上、難以明確歸類的詞彙，僅依靠 VA 數值無法進行有效分類，因此進一步進行細緻的情緒分類優化。

首先透過 BERT 模型進行語意理解，判斷詞彙之間在語意空間中的相似性與關聯性，將語意接近的詞彙聚集在同一維度中；接著再利用 SVM 分類器進行邊界劃分，將原本模糊的情緒詞彙進一步拆分與細分類，以提升整體情緒分類的準確度與一致性。

這張圖是用 Valence 跟 Arousal 兩個維度，把字詞的情緒分布畫出來。當滑鼠移到某個點時，可以看到這個詞的情緒數值與分類，讓我們更直觀了解每個詞的情緒位置。

💡 您可以將滑鼠移動到某個點上，能夠看到這個詞的情緒數值與分類。