歌詞情緒分析專題

♬蒐集歌曲

首先我們依照情緒類別，作為歌曲搜尋的蒐集方向，整合 Spotify 與 KKBOX 的公開歌單，以「開心」、「興奮」等情緒作為搜尋關鍵字，再以網路爬蟲方式蒐集歌單中的歌名及歌手，並結合部分人工精選蒐集。

利用網路爬蟲自動化技術在KKBOX抓取完整歌詞，大幅提升資料蒐集效率。

版本階段	技術核心	面臨挑戰	解決成效
V1：直接爬取	搜尋「歌名 + 歌手」後，直接抓取搜尋結果的第一筆資料。	失誤率高。第一筆結果不一定提供歌詞，或並非最正確的匹配。	建立基礎自動化框架。
V2：範圍檢索	擴大範圍至前三筆結果，並逐筆判斷是否提供歌詞。	匹配偏差。雖然有歌詞，但可能搜尋到同名但不同版本的歌曲。	顯著提升歌詞獲取成功率。
V3：模糊比對 (最終版)	引入 String Fuzzy Matching (模糊比對)，計算預期歌名與目標歌名的相似度。	克服特殊符號、括號備註（如：Live版、Remix）造成的判斷干擾。	極大化準確率，確保數據純淨。

為確保模型訓練的穩定性與精確度，我們對原始歌詞數據進行了前處理與標準化。透過下列細項統一數據格式，能確保模型在判斷情緒時不受格式差異影響，達到更佳的辨識表現：

標點符號 → 一致性

合唱歌曲中的人名

無效狀聲詞

圖2、歌詞清洗

為了確保標籤的客觀性，我們採取四人交叉複核的方式，針對清洗後的資料集進行人工審閱，透過多人評議與客觀判斷，修正情緒類別誤植的情形，以確保數據集具備高度的可信度與一致性。

以下為我們清洗完且經由二次人工校驗的標準化歌詞資料集:

💡 您可以上下滑動表格查看詳細資訊，或點選下方分類按鈕探索不同情緒的歌單。