本文大綱
(一)主題
從天貓 TMall 用戶網站行為紀錄,透過視覺化整理:
- 基本的資料分布
- 比較不同用戶分組的行為分布差異
*何謂探索性資料分析?
運用 Python 套件進行視覺化或基本統計等方式,讓資料的特點更清楚地被了解及呈現;它也是資料科學中的一環。
*資料科學流程:
資料處理 > 資料探索性分析 > 特徵工程與轉換 > 模型選擇與建構 > 模型成效指標與調參
(二)分析大綱
- 各欄位項目分布
(以下皆分用戶組、分區間進行比較) - 每人總行為次數分布
- 每人不重複入站時間數分布
- 隨時間變化趨勢圖
- 時間顆粒度 – 每日
- 時間顆粒度 – 每周
- 時間顆粒度 – 每月
1. 各欄位項目分布
1.1 用戶行為
1.2 商品分佈/品類分佈(分時段)
商品分佈:
1. 平時(6-9月),前5%單品佔 59.9% 流量
2. 雙11一個月前(10/11-11/10),前5%單品佔 62.1% 流量
3. 雙11當天,前5%單品佔 62.2% 流量;且更相對集中前幾名單品
品類分佈:
1. 大部分時間,前5%品類佔 8成左右 流量
2. 大多時候,前5%品類佔全站 66% 購買
3. 雙11當天,前5%品類的購買佔比提高到71.1%
1.2 商家分佈/品牌分佈(分時段)
雙11當天流量和購買,都是更加集中前5%商家/品牌
1.3 性別分佈/用戶分組分佈/年齡分佈(分時段)
2. 每人總行為次數分布 (性別/用戶分組維度、分時段)
2.1 點擊 Click
2.2 加入購物車 Add To Cart / 加入願望清單 Add To Favorite / 購買 Purchase
點擊 Click:
1. 性別分組維度:2.0 的組中,每位用戶的點擊數平均較高、也較分散,不像 1.0 的組別,有較多人是集中在低點擊數的區域(左)
2. 用戶分組維度:1.0 (repeat buyers) 的組中,每位用戶的點擊數平均較高、較分散,不像只購買一次的用戶,有較多人是集中在低點擊數的區域(左)
加入購物車 Add To Cart:
各組大部分用戶加入願望清單的次數集中於10-15次,僅有極少數用戶加入願望清單超過百次
加入願望清單 Add To Favorite:
各組大部分用戶加入購物車的次數集中於0-2次
購買 Purchase:
1. 性別分組維度:同 click 的分布差異;2.0 的組中,每位用戶的購買數平均較高、較分散,不像 1.0 的組別,有較多人是集中在低購買數的區域(左)
2. 用戶分組維度:總期間內只購買一次的用戶,從 6/1 – 11/10 都未有購買紀錄
3. 每人不重複入站時間數分布 (性別/用戶分組維度、分時段)
點擊 Click:
1. 性別分組維度:2.0 組的有4成以上用戶,雙11前一個月,每周都有入站紀錄;比 1.0 組高出約2倍
2. 用戶分組維度:回購者的有3成以上用戶,雙11前一個月,每周都有入站紀錄;而單次購買者有7成僅2周進站
購買 Purchase:
1. 性別分組維度:統整前面對點擊的觀察,2.0 組在購買紀錄則是只集中1-2次;推測 2.0 組可能較傾向提前入站點擊瀏覽,但依然是最後一周才決定購買
2. 用戶分組維度:單次購買者 6/1 – 11/10 都未有購買紀錄
4. 隨時間變化趨勢圖
4.1 點擊 Click (性別分組維度)
1.0 組在 8月初的進站量曾經達到三組最高,推測此活動特別吸引這個族群
4.1 點擊 Click (用戶分組維度)
1. 單次購買者在 6月初、6月底活動時進站量高於回購者數倍,推測此活動吸引較多”非回購者”;這些高峰流量並未帶來訂單。
2. 而回購者在 8月初的進站量高於單次購買者數倍,推測此活動則吸引較多”回購者”。
4.2 購買 Purchase (性別分組維度)
4.2 購買 Purchase (用戶分組維度)
1. 回購者在6月初、6月底、8月底的活動的購買量表現較佳
趨勢圖 總結:
1. 從曲線的消長可看出點擊量隨星期幾有一定規律;高峰點約落在 6月初、6月底,此時可能有全站活動
2. 雙11前10-15天左右,進站量開始上升;在5天前上升幅度增加
3. 在雙11前10-15天的購買量會先下降,直到前一天才回升、當天爆發
4.3 全行為(性別分組維度)
4.3 全行為(年齡分組維度)
0.0 組相對其他組別,更喜歡將商品加入購物車