歌詞資料

蒐集歌曲 擷取歌詞 歌詞清洗 情緒判別 完成歌詞資料集

♬蒐集歌曲

首先我們依照情緒類別,作為歌曲搜尋的蒐集方向,整合 Spotify 與 KKBOX 的公開歌單,以「開心」、「興奮」等情緒作為搜尋關鍵字,再以網路爬蟲方式蒐集歌單中的歌名及歌手,並結合部分人工精選蒐集。

♬擷取歌詞

利用網路爬蟲自動化技術在KKBOX抓取完整歌詞,大幅提升資料蒐集效率。

版本階段 技術核心 面臨挑戰 解決成效
V1:直接爬取 搜尋「歌名 + 歌手」後,直接抓取搜尋結果的第一筆資料。 失誤率高。第一筆結果不一定提供歌詞,或並非最正確的匹配。 建立基礎自動化框架。
V2:範圍檢索 擴大範圍至前三筆結果,並逐筆判斷是否提供歌詞。 匹配偏差。雖然有歌詞,但可能搜尋到同名但不同版本的歌曲。 顯著提升歌詞獲取成功率。
V3:模糊比對 (最終版) 引入 String Fuzzy Matching (模糊比對),計算預期歌名與目標歌名的相似度。 克服特殊符號、括號備註(如:Live版、Remix)造成的判斷干擾。 極大化準確率,確保數據純淨。

♬歌詞清洗

為確保模型訓練的穩定性與精確度,我們對原始歌詞數據進行了前處理與標準化。透過下列細項統一數據格式,能確保模型在判斷情緒時不受格式差異影響,達到更佳的辨識表現:

標點符號 → 一致性

合唱歌曲中的人名

無效狀聲詞

圖2、歌詞清洗

♬情緒判別

為了確保標籤的客觀性,我們採取四人交叉複核的方式,針對清洗後的資料集進行人工審閱,透過多人評議與客觀判斷,修正情緒類別誤植的情形,以確保數據集具備高度的可信度與一致性。

♬完成歌詞資料集

以下為我們清洗完且經由二次人工校驗的標準化歌詞資料集:

💡 您可以上下滑動表格查看詳細資訊,或點選下方分類按鈕探索不同情緒的歌單。