散佈圖 ( Scatter Chart ) 應用場景介紹

2021/09/25 張秉祖

 

我們在介紹 GA 的電子商務分析中,用到了散佈圖。繪製散佈圖,是數據分析中最基礎的手段之一。所有專業的視覺化工具,例如 Tableau、Power BI、Data Studio,或是以程式語言如 R、Python 來執行數據分析,要產出散佈圖,都是輕而易舉的工作。

 

但我們發現,在商業領域中,大家對這一個基本工具卻比較陌生,究其原因,可能是因為商業人員手邊最常用的工具是 Excel,而 Excel 繪製散佈圖比較麻煩所導致的結果。

 

但操作問題不應該成為我們使用散佈圖的障礙,雖然比較麻煩,只要小小拐個彎,所有散佈圖需要的效果,Excel 都做得出來。所以,先不需要考慮工具,瞭解散佈圖的分析效果,反而是比較重要的。

 

散佈圖的基本結構,就是選取資料點的兩組數值,分別繪製在平面座標的橫軸與縱軸,這與長條圖或折線圖,以類別或時間序列為橫軸,是不同的邏輯,也會產生不同的分析效果。以下,我們就來介紹散佈圖分析最常見的三個應用場景:

 

  • 驗證兩組數值的關聯性

 

如果兩組實測所得的數據,理論上是有關連的,而我們不確定其關聯性,只要用散佈圖將其繪出,就一目瞭然。

 

例如,我們分別以華氏溫度計與攝氏溫度計記錄的溫度,繪製在散佈圖上,可以看出兩者基本是線性關係。如果再加上趨勢線,立刻可以得出斜率 / 截距的數值 1.778 / 32.315,這與我們在學校學到的理論值 1.8 / 32,已經非常接近了。

圖一、以散佈圖驗證兩組數據的關聯性

 

  • 分組著色檢視分佈狀態

 

除了兩組數據以外,如果還有一欄記錄這些資料點的分組標籤,則在散佈圖上,以顏色標記各組,觀察其分佈差異,也是一個非常有用的分析方式。

 

下圖就以有名的鳶尾花數據 (Iris Dataset),繪製出三個品種的花萼長度 ( Sepal Length ) 與花萼寬度 (Sepal Width ) 分佈狀態。

圖二、分組著色檢視分佈狀態

 

使用任何視覺化工具或是程式語言,繪製分組散佈圖,都是非常簡單的動作,但在 Excel 中,則要小小拐個彎,才能完成。

 

  • 根據分佈訂定分組 KPI 並在清單中記錄位置標籤

 

這個任務與前一個任務正好相反,前一個任務是數據中已經有分組標籤,要呈現各組的分佈。這一個任務,則是繪製出兩組數據的分佈後,訂定各組的 KPI,然後依據 KPI 分組,以利於分別制定後續的處理對策。

 

此項工作流程細分如下:

 

  • 以垂直及水平常數線,在散佈圖上標示由資深人員訂定的KPI
  • 根據 X 軸及 Y 軸 KPI,動態標示平面座標上各區的位置標籤
  • 即時計算各區的資料點數量、以及各區的分組清單
  • 資深人員可根據以上視覺呈現與數據反覆調整
  • KPI 決定後,將各資料點的分區位置標籤,記回原始資料清單中
  • 將資料清單分區拆分後,交由權責單位,分別制定後續處理對策

 

這一個任務,因為要互動調整與回填數據,所以使用 Excel,反而是最方便的工具。

圖三、根據分佈訂定分組 KPI 並在清單中記錄位置標籤

 

散佈圖可呈現的資訊,除了 X 軸數值、Y 軸數值、資料點顏色以外,還可以用資料點大小表達第三組數值、以動畫表達時間變化,但這兩種方式的使用者體驗通較難控制,所以,除非必要,並不建議使用。