Top

Tự học Data Analyst cho người mới bắt đầu như thế nào?

Cập nhật: 01/08/2022 11:19 | Người đăng: Nguyễn Hằng

Hiện nay, dữ liệu là nguồn tài nguyên quan trọng được khai thác nhiều thì việc lựa chọn nghề Data Analytics được xem là thực sự quan trọng và hấp dẫn. Với những ai đam mê con số thì không bỏ qua ngành nghề này được. Vậy học Data Analytics cho người mới bắt đầu như thế nào? Hãy cùng tìm hiểu dưới đây nhé.

1. Học gì để làm Data Analytics?

Với những ai am hiểu về ngành Data Analytics (Phân tích dữ liệu) trước khi bắt đầu khóa học này sẽ mang đến lợi thế rất lớn cho bạn. Dù vậy, tại các trường THPT hiện nay không đào tạo về chương trình giảng dạy môn Phân tích dữ liệu. Điều này mang đến nhiều hạn chế cho những ai muốn theo học ngành này. Do vậy, chúng ta cùng tìm hiểu về “học gì để làm Data Analytics?”

Học Data Analytics phải có sự nhanh nhạy và tự giác
Học Data Analytics phải có sự nhanh nhạy và tự giác

Các giảng viên Cao đẳng Y Khoa Phạm Ngọc Thạch chia sẻ, các bạn hãy tự học Data Analytics bằng cách trang bị cho bản thân về kiến thức căn bản của nó. Thường những sinh viên khi học ngành này sẽ được làm quen với những khóa nhập môn Khoa học máy tính hay Lập trình. Bởi vậy, để giúp bạn hạn chế việc quá tải lượng kiến thức khổng lồ của ngành này thì bạn có thể tự tìm hiểu trước những thông tin liên quan tại nhà để bắt đầu khóa học của mình

Trong thời buổi dịch bệnh hiện nay, nhiều học sinh đã phải làm quen với việc tự học tại nhà qua các nền tảng học trực tuyến. Bạn có thể tham khảo thêm một vài khóa học Data Analytics cho người mới bắt đầu như:  Khóa Khoa học dữ liệu từ Đại học Johns Hopkins danh giá hoặc Khóa học Nhập môn Phân tích dữ liệu bởi Đại học Yale…Điều đó giúp phục vụ rất tốt cho việc học của bạn sau này.

Để cọ xát thực tiễn với ngành Phân tích dữ liệu, bạn có thể tìm kiếm cơ hội được thực tập tại trường, được nghiên cứu khoa học về ngành Data Analytics hay các hoạt động ngoại khóa của sinh viên hay các tổ chức phi lợi nhuận mang chủ đề về Lập trình được vận hành. Đây được xem là một hành trang rất tốt cho những ai chưa biết “Học Data Analytics bắt đầu từ đâu?

Để tìm hiểu thêm nhiều kiến thức hơn nữa thì các bạn có thể tham khảo thông tin từ những chuyên gia Phân tích dữ liệu trên các kênh trực tuyến và chắc chắn không nên bỏ lỡ các chủ đề liên quan đến đề tài Phân tích dữ liệu được cập nhật thường xuyên.

Nếu bạn chưa biết về Data Analyst thì có thể tìm hiểu lại về Data Analyst là gì? Làm Data Analyst cần học gì thành chuyên viên

2. Các kỹ năng cần thiết khi học về Data Analytics

Với những người mới chập chững vào nghề này mà không biết cách chuyển hướng công việc sang Data Analyst (DA) - Chuyên viên phân tích dữ liệu. Học gì để làm Data Analyst? Cách tốt nhất bạn hãy tham khảo thêm thông tin tuyển dụng với những vị trí liên quan đến phân tích dữ liệu. Thường mỗi bài tuyển dụng sẽ có yêu cầu khác nhau, do vậy bạn rất mông lung về những kỹ năng cần thiết cho một Data Analytics thực thụ. Đó cũng là yếu tố cần thiết giúp bạn trở thành chuyên viên giỏi trong tương lai.

Trau dồi những kỹ năng cần thiết khi học Data Analytics
Trau dồi những kỹ năng cần thiết khi học Data Analytics

2.1. Sự am hiểu về lĩnh vực

Data Analyst đòi hỏi những kiến thức làm việc như thế nào? Mỗi lĩnh vực khác nhau yêu cầu về kiến thức khác nhau. Với một chuyên viên Data Analyst đòi hỏi có khả năng nghiên cứu và học hỏi nhanh chóng. Dù bạn đang làm việc tại bất kỳ công ty nào nhưng nếu không am hiểu về công việc, những dữ liệu phân tích thì rất khó đưa ra nhận xét, ý kiến về tình hình công việc hay đưa ra kế hoạch để triển khai hiệu quả. Do vậy, bạn cần phải biết biến kiến thức trong lĩnh vực này để sở hữu những kỹ năng quan trọng phục vụ cho công việc của một Data Analyst.

2.2. Kỹ năng lập trình

Excel là một công cụ hỗ trợ tổng hợp dữ liệu công ty rất lớn. Tuy nhiên thì với 1,048,576 dòng trong một trang tính Excel thì đây được xem là con số rất nhỏ bé so với các kho dữ liệu khổng lồ mà nhiều công ty đang sử dụng.

Để khắc phục được những hạn chế đó thì nhiều doanh nghiệp sử dụng SQL. Nó cho phép bạn có thể lấy và tổng hợp dữ liệu từ vài triệu lên đến hàng chục triệu dòng. Không chỉ vậy, công cụ R và Python được xem là bài toán giải quyết mọi nhược điểm của cả Excel và SQL. 

Cụ thể là, R và Python có thể làm tốt hơn rất nhiều so với mọi thứ là Excel với SQL có thể làm được. Chúng xử lý nhiều dữ liệu mà Excel không thể. Trong giới tự học Data Analyst thì đây được xem là những ngôn ngữ lập trình thống kê mạnh mẽ có khả năng phân tích nâng cao và phân tích dự đoán trên các tập dữ liệu lớn. Cả hai ngôn ngữ này được đánh giá là tiêu chuẩn trong ngành. Nếu như bạn đang làm việc với tư cách là một Data Analyst, bạn cần phải vượt ra ngoài SQL đồng thời phải thành thạo ít nhất một trong những ngôn ngữ này. 

2.3. Kỹ năng trình bày dữ liệu

Sự quan trọng của Data Analyst được thể hiện qua quan điểm và câu chuyện hấp dẫn bằng dữ liệu như sau. Nếu như không xác định nhanh chóng và rõ ràng những phát hiện của bạn thì sẽ đối mặt với nhiều khó khăn trong việc truyền đạt thông tin đến những người khác. Với những lý do trên, việc trực quan hóa dữ liệu có thể mang lại thành công hoặc phản tác dụng. Theo đó các chuyên viên phân tích dữ liệu sẽ sử dụng biểu đồ và đồ thị bắt mắt, chất lượng cao nhằm giúp trình bày về điểm sáng, điểm phát hiện của họ theo cách ngắn gọn và rõ ràng.

2.4. Có kiến thức thống kê

Học Data Analyst đòi hỏi bạn cần phải có nền tảng vững chắc về xác suất và thống kê, đây được xem là một kỹ năng không thể thiếu được. Theo đó thì bạn cần phải nắm hết về công thức, khái niệm bao gồm Linear Regression, Mean, Median, Outlier, Standard Deviation, Percentile, Logistic Regression… và còn nhiều khái niệm khác nữa. 

Với lượng kiến thức này giúp bạn có thể định hướng phân tích và khám phá giúp bạn nắm được hết dữ liệu bạn đang làm việc. Việc phân tích số liệu thống kê này còn đảm bảo về tính hợp lệ của sự phân tích, đồng thời giúp bạn tránh được các lỗi ngụy biện và lỗi logic phổ biến. Tùy vào nhu cầu với vai trò cụ thể mỗi dữ liệu của bạn quyết định đến mức độ chính xác của kiến thức thống kê.

2.5. Kỹ năng kể chuyện

Học về Data Analyst thì cần thiết phải có kỹ năng kể chuyện. Với nguồn dữ liệu khổng lồ nhưng nếu như bạn trình bày theo phương thức hình ảnh, trang tổng quan hay hàng tá biểu đồ…thì có thể sẽ bị quá tải. Do vậy, thay vì đó bạn có thể áp dụng cách trình bày dưới dạng kể chuyện dễ hiểu giúp cho người thể hiện coi đây là chìa khoá thành công để truyền đạt những gì bạn biết, bạn tìm hiểu được, chứng minh kết luận của bạn. Tuy nhiên theo các chuyên gia thì để thực hiện tốt kỹ năng kể chuyện khi học Data Analyst cho người mới bắt đầu thì cần vận dụng thật tốt cả 4 kỹ năng nêu trên để chuẩn bị cho “câu chuyện” của mình.

3. Roadmap tự học Data Analyst cho người mới bắt đầu 

Vai trò của Data Analyst (DA) là tìm ra insights nhờ vào con số giúp cho doanh nghiệp có cơ sở đưa ra quyết định. Mục đích giúp cải thiện chất lượng sản phẩm và hiệu quả công việc. thông qua những con số giúp business tạo ra những quyết định có cơ sở, cải thiện tình hình doanh nghiệp và chất lượng sản phẩm.

Để đạt được mục tiêu trên thì mỗi DA đảm nhiệm công việc trong giai đoạn: từ preparation – exploratory – modeling – communication. Hãy cùng tham khảo Roadmap tự học Data Analyst cho người mới bắt đầu chia sẻ dưới đây nhé:

3.1. Cần gì để làm tốt Data Preparation?

Tại giai đoạn này, yêu cầu tự học Data Analyst cần đạt được:

  1. Nắm được kiến thức tổng quan về cơ sở dữ liệu, cụ thể là Relational database, schema, table, constraints

Bạn có thể tham khảo tại đây: https://www.youtube.com/watch?v=vOk3X2_GOCM. Đồng thời chú trọng việc học khái niệm “SQL vs NoSQL” nữa nhé.

  1. Thực hiện công việc querying, transforming, profiling dữ liệu từ database: Sử dụng SQL hoặc Python

SQL: Dưới đây là các phần chính bạn học:

  • Nắm được ngôn ngữ SQL có thể được thao tác trên nhiều tools/ platforms (SQL Sever Management Studio, Google BigQuery, …) cùng với những nền tảng khác (Redash, Metabase, Superset, …).
  • Thành thạo các câu lệnh SQL mà Data Analyst thường sử dụng:
    • Select + From statement
    • Where statement
    • Group By + Window function
    • Join function

Sources:

  • Basic + Intermediate tutorials of Alex The Analyst
  • Tham khảo chi tiết tại đây: https://www.youtube.com/playlist?list=PL08903FB7ACA1C2FB

PYTHON: Khi sử dụng, bạn cần nắm được nội dung dưới đây:

  • Đọc và viết text files, Microsoft excel files
  • Làm việc with JSON
  • Bạn hãy làm quen với thư viện Numpy và Pandas để sử dụng data wrangling:
    • Xử lý missing values
    • Cleaning & formatting data từ nhiều nguồn dữ liệu: Combining data frames, Merge, concatenate, replace, pivoting, mapping và group by, …

3.2. Xác định Data exploratory là tiêu điểm

Tại đây, bạn hãy thực hiện tìm hiểu ý nghĩa của data để đưa ra insights. Theo đó, bạn cần có sự kết hợp giữa domain knowledge + problem solving strategies + statistical techniques + visualization skills.

3.2.1. Trau dồi kỹ năng giải quyết vấn đề và kiến thức chủ yếu

Bạn cần nắm được kiến thức về (marketing, risk, finance, …) để hiểu được công việc mình làm, từ đó sẽ có kiến thức và kinh nghiệm để nắm rõ được từng chỉ số, các root causes có thể xảy ra với bài toán bạn đang giải quyết. Bạn hãy thực hiện theo tính logic, có hệ thống để đảm bảo mà không bỏ sót bất kỳ khía cạnh nào của vấn đề.

Kinh nghiệm làm Data Analyst cho người mới bắt đầu
Kinh nghiệm làm Data Analyst cho người mới bắt đầu

DOMAIN KNOWLEDGE: Nếu bạn quyết tâm trở thành một Data Analyst thì bạn cần phải tập trung vào lĩnh vực này hay vị trí hiện tại đang làm để đào sâu về chúng.

  • https://www.garyfox.co/ - Trang Web kể về câu chuyện Business kết hợp với các technical và digital solution trong suốt quá trình làm nghề của tác giả cho bạn biết về kiến thức tổng quan: Gary Fox – strategy and innovation consultant 
  • Cuốn sách về Marketing Analytics: Bạn nắm được kiến thức The I Concept
  • Product Analytics: Product School

PROBLEM SOLVING:

  • Problem Solving 101: Cuốn sách cho biết về phương pháp giải quyết vấn đề qua những case studies của “con nít” rất dễ hiểu.
  • The one skill that changes everything: Quyển sách cho bạn biết về problem solving strategies chi tiết, và giá trị.

3.2.2. Áp dụng Statistics

Trong quá trình khám phá dữ liệu thì yêu cầu bạn phải có những kỹ thuật thống kê, khi bạn mới tiếp xúc với data. Bởi thế, bạn hãy đảm bảo về việc nắm được ý nghĩa với cách sử dụng statistics hợp lí trong giai đoạn làm EDA (Exploratory Data Analysis):

  • Hiểu và phân biệt các topics: Type of data, inferential statistics, descriptive statistics.
  • Nắm chắc phần kiến thức quan trọng Descriptive statistics:
    • Categorical and numerical variables
    • Ý nghĩa của scatter plots, histogram và box plots
    • Các chỉ số: mode, mean, median, standard deviation and coefficient of variation

Sources:

  • Youtube:
    • StarQuest with Josh Starmer: Kênh này dạy Statistics rất dễ hiểu và thú vị.
    • MarinStatsLectures: Bổ sung kiến thức mà StatQuest không có.
  • Courses: Khóa học trên Udemy có giá 13$ Statistics for Data Science and Business Analysis giúp bạn có kiến thức tổng quan về statistics.

3.2.3. Dùng BI tools (Data visualization tools) để làm EDA

Các BI tools rất quan trọng giúp Data Analyst có thể thực hiện được tốt công việc phân tích dữ liệu. Bởi lẽ, chúng có khả năng trực quan hóa dễ dàng giúp các bạn tìm ra insights mong muốn. Dưới đây là kiến thức cần nắm được:

  • Nắm chắc về ý nghĩa của các loại biểu đồ: How to choose the right chart for your data
  • Ngoài ra, mỗi Data Analyst cần làm dashboard.

Với mỗi DA thì không xa lạ với các kiến thức Tableau, Power BI, Qlik, Google Data Studio, … Đó đều là những BI tools phổ biến nhất trên thị trường hiện nay. Tuy nhiên, Tableau và Power BI được xem là 2 tools phổ biến và được nhiều người dùng nhất.

Nguồn: dxsherpa.com

Sources:

  • Tableau:
    • Bạn tìm hiểu thêm: Hướng dẫn tự học Tableau Data Visualisation hiệu quả của anh Hiếu Hoàng
    • Tìm hiểu trên kênh youtube mọi thứ về Tableau
  • Power BI:
    • Kiến thức Avi Singh – PowerBI từ cơ bản đến nâng cao
    • Guy in a Cube – Series PowerBI phù hợp cho người mới bắt đầu

3.2.4. Python – Ngôn ngữ làm EDA mỗi ngày

Hiện nay, Python được xem là ngôn ngữ có tiềm năng và cũng được đánh giá phổ biến với mỗi EDA trong thị trường sắp tới. Bạn không nên bỏ qua kiến thức này nhé.

Python có khả năng vừa query dữ liệu mà còn có nhiều thư viện hỗ trợ cho các bạn như làm statistics, clean, transform và visualization. Hãy cùng tham khảo về nội dung cần với nguồn học Python dưới đây nhé:

  • Numpy và Pandas cần thiết cho việc clean, transform và analyze data:
    • Pandas Tutorial (Data Analysis In Python)
    • Python numpy tutorial
  • Matplotlib & Seaborn hỗ trợ việc visualize data cùng các thư viện với đầy đủ các thể loại chart
    • Python Seaborn Tutorials
    • Matplotlib tutorial
    • File jupyter notebook seaborn sample code

3.3. Modeling & Evaluation

Việc áp dụng các mô hình thuật toán vào phân tích nhằm giải quyết cho Predictive Analytics đòi hỏi bạn phải có thực hành và sự am hiểu về Machine Learning. Tuy nhiên, input của các model Machine Learning thường là các features được tìm ra từ bước descriptive và diagnostic analytics. Điều đó đòi hỏi bạn phải thực sự hiểu bài toán, cách giải quyết vấn đề, để làm EDA sâu sắc tạo ra input cho bước modeling.

Khi bước vào nghề DA thì bạn cần phải học và làm tốt bài toán descriptive và diagnostic trước khi bắt đầu với Modeling.

  • Highly recommend khóa ML bất hủ của Andrew Ng với các bạn nhé.

3.3.1. Communication of insights sẽ chốt hạ thành quả

Một số nghiên cứu cho biết, 90% thời gian DA làm việc với dữ liệu còn khoảng 10% còn lại được dùng để giao tiếp và trình bày kết quả mình làm ra với đối tác và sếp. Do vậy mà 10% còn lại có tính quyết định đến sự thành công hay thất bại của 90% công sức. Vì thế, mỗi DA thì cần phải có kỹ năng giap tiếp và thuyết trình cực kỳ quan trọng.

3 Tips giúp thực hiện communication of insights tốt hơn:

  • Data Storytelling được đánh giá vô cùng quan trọng. Mỗi EDA đòi hỏi bạn phải có nhiều insights. Tuy nhiên thì cái nào quan trọng và có ý nghĩa với business thì tùy bài toán sẽ quyết định chọn được nó. Theo đõ thì bạn hãy chăm đọc sách giúp củng cố tư duy trình bày dữ liệu nhé.
  • Khi thuyết trình thì cần nắm được ngóc ngách các thông tin từ data để luôn sẵn sàng trả lời mọi câu hỏi tốt nhất có thể. Đặc biệt không thể thiếu về kỹ năng Quan sát, dự đoán cảm xúc và suy nghĩ của người nghe trong buổi thuyết trình giúp truyền đạt thông điệp tăng độ thu hút với hiệu quả bài thuyết trình cũng tăng theo.
  • Trước khi thuyết trình hay làm slide deck, bạn hãy đặt mình vào vị trí là khán giả để tìm ra được một bố cục và mạch câu chuyện tốt nhất để thể hiện.

3.3.5. Xây dựng Portfolio and Resume

Bước cuối cùng này rất quan trọng để trở thành DA trong tương lai. Khi trau dồi kiến thức và kỹ năng ở trên thì bạn hãy thực hành với dữ liệu thực tế. Bởi vậy hãy dùng chúng để tạo ra “hồ sơ năng lực” xịn xò hơn mỗi ngày nhé.

  • 2 bài viết đầu tiên của mình về build portfolio với SQL và Tableau
  • Bạn có thể tham khảo hướng dẫn chi tiết của Alex The Analyst

Tìm hiểu ngay về Có nên tham gia khóa học Data Analyst? Học ở đâu tốt nhất?

Để trở thành Data Analysis thì ngoài việc chuẩn bị lượng kiến thức khổng lồ thì bạn cần phải có những kỹ năng cần thiết. Do vậy, điều quan trọng bạn phải biết học Data Analysis như thế nào để có sự chuẩn bị tốt nhất. Đừng quên tham khảo bài viết tiếp theo cập nhật thông tin liên quan nhé. Chúc bạn thành công!

Nguồn tổng hợp: Cao đẳng Y Khoa Phạm Ngọc Thạch

Thông tin hữu ích khác
cac-phuong-thuc-xet-tuyen-dai-hoc Các phương thức xét tuyển Đại học 2022 thí sinh cần biết Đậu đại học là ước mơ của rất nhiều thí sinh, do vậy nắm được các phương thức xét tuyển Đại học như thế nào từ đó mở rộng cơ hội trúng tuyển cao.... cac-truong-dao-tao-nganh-ky-thuat-hinh-anh-y-hoc Điểm danh các trường đào tạo ngành kỹ thuật hình ảnh y học uy tín Ngành kỹ thuật hình ảnh y học được sử dụng qua trang thiết bị, máy móc hiện đại nhằm để chụp lại hình ảnh cơ thể con người giúp các bác sĩ chẩn... tra-cuu-so-bao-danh-thi-thpt Hướng dẫn tra cứu số báo danh thi THPT năm 2022 Tra cứu số báo danh thi THPT là thông tin quan trọng mà các sĩ tử cần nắm được để chuẩn bị cho kỳ thi THPT của mình. Với cách tra cứu số báo danh,... chi-tieu-va-phuong-thuc-tuyen-sinh-cac-truong-y-duoc-nam-2022 Chỉ tiêu và phương thức tuyển sinh các trường Y Dược năm 2022 Với thí sinh có nguyện vọng đăng ký ngành Y, Dược không thể bỏ qua thông tin về mã trường, mã ngành, tổ hợp xét tuyển, chỉ tiêu tuyển sinh của các... cong-thuc-tinh-dien-tich-chu-vi-hinh-vuong Công thức tính diện tích, chu vi hình vuông đơn giản Bạn đang thắc mắc về công thức tính diện tích và chu vi hình vuông như thế nào? Thông tin sẽ được giải đáp chi tiết trong bài viết dưới đây, thông... giao-an-dien-tu-la-gi Giáo án điện tử là gì? Những lợi ích và khuyết điểm của giáo án điện tử Trong thời đại công nghệ phát triển hiện nay, giáo án điện tử có tầm quan trọng to lớn được dùng để thay thế phương thức soạn giáo án truyền thống....
Xem thêm >>