資料分析

【資源整理】資料分析學習路徑整理

white paper with note

職稱滿天飛,資料分析師、數據分析師、資料科學家、數據工程師、AI工程師、機器學習工程師…,我認為有一個光譜可由淺入深分類一下這些跟「數據」搭上邊的工作(例如 日常工作類型的比例是建立資料架構、清理資料、建模還是視覺呈現報告結果佔多數、會需要產業knowhow的比例多寡等等)。

不過這不是本篇的重點,本篇想針對資料分析入門到精通、到走向資料科學家或數據工程師、AI工程師,過程中的線上教材做歸類。我目前把它簡化成三個階段。
另外這樣的網路文章蠻多的,可以google「data analysis tutorial recommendation」肯定能找到更多無窮無盡的乾貨;不論你最後儲存了哪一篇,重要的是我們找到一篇覺得可以follow的開始學習囉!

Beginner: Data Analysis Concepts

初學重要目標:知道何謂商業上有意義的分析結果、如何從資料產出可視化圖表並做出適切解讀。

  1. 多吸收產業數據應用案例
    > FineReport — 
    一個案例告訴你,如何在工作中掌握商業資料分析的能力
    FineReport — 行業好文:4大案例分析金融行業的大數據應用
    Coursera大數據分析:商業應用與策略管理 | 台大開課
  2. 參考公開的數據可視化範例,了解如何精確使用圖表讓人知道數據中的故事
    > Hubspot — Data Visualization 101: How to Choose the Right Chart or Graph for Your Data (較進階,建議)
    不同圖表不同使用時機,我的報表適合什麼圖形?你用對了嗎?(非常基礎,當成一個檢查)
    數據可視化:柱狀圖、雷達圖等六種基本圖表的特點和適用場合
    Tableau Public — 可搜尋到其他人公開的視覺化Dashboard範例
  3. 自己抓取公開的數據集做可視化(視覺化)練習
    > Kaggle — 帶有主題的資料集,而且蠻多是直接提供csv,應該是最好用來練習
    阿里云天池 — 阿里云旗下大数据平台
    政府開放資料

Intermediate: Do Analysis with EXCEL/Python

中階重要目標:知道如何清理資料、做出符合商業目標的分析、可視化呈現並使用統計數據說服聽眾,完成這一整個flow。

  1. 從電子書或線上課紮實學習整個流程
    Introduction to Data Analysis HandBook(原文): 他會從資料類型、資料分析流程到跑一個實際案例給你看
    Digital Analytics for Marketing Professionals: Marketing Analytics in Practice | University of Illinois at Urbana-Champaign (4.5星,2209評分):也是從data collection到visualization跑一次案例給你看
    P.S. 推薦 課程比較網站 ClassCentral — 跨多個平台找課程時可以互相比較評價
  2. 透過EXCEL / Python 操作跑一遍analysis流程
    > Tutorialspoint 網站文章叢集教學 — Excel Data Analysis Tutorial
    > O’Reilly® — Think Stats: Exploratory Data Analysis in Python(原文)
  3. 學習更高階的分析方法
    DATA MINING AND ANALYSIS: Fundamental Concepts and Algorithms(原文) — 多變量分析、處理高維度資料、分類分群方法等(銜接機器學習方法)

*Data Analysis v.s. Data Mining 兩者差異,最主要定義上前者是指產出商業上有用insight的一連串步驟包含data extractingcleansing, transforming, modeling, visualization,後者則專指機器學習中從大量資料中找出pattern的系統化流程。source: 國外線上學習網站EDUCBA點出共7點差異

Advanced: Big Data Processing with SQL/Python

高階重要目標:學習其他串接資料技術,了解程式效能對資料處理的影響,並優化程式寫法。

因為真實世界的資料不是永遠都長得那麼工整,會包好一個csv丟給你;很多時候必須藉由網站爬蟲、從DB撈取等方式得到資料。使用Python的好處是能一條龍的完成資料撈取到視覺化過程,但EXCEL仍有他的優點,就是能非常省時的跑出統計分析、圖表報表。

  1. 學習SQL-like語言
    Data Analyst with SQL Server | Datacamp — 再自己弄一個DB可能有些麻煩,所以初學者我蠻推薦用Datacamp的互動式來學SQL
  2. 學習簡單Python爬蟲
    > 推薦大數學堂的YT視頻,他有帶很多類型的案例,包含從找html tag、找藏在network頁籤的api、解決需要登入的問題、防止爬蟲被機器人擋等
  3. 了解Python中資料處理function的效能,建議用法
    Writing Efficient Python Code | Datacamp
    Official Python Performance Tips — 官方有針對像是Sorting, Loop, Data Aggregation等舉例直覺用法 v.s. 更有效率的用法
%d 位部落客按了讚: