EDA (viết tắt của Exploratory Data Analyst) là một phương pháp khám phá dữ liệu, tìm ra các xu hướng, mẫu thử hoặc kiểm tra các giả định trong dữ liệu nhằm mục đích hiểu rõ về cấu trúc và tính chất của dữ liệu. Khi áp dụng các thuật toán học máy hoặc xây dựng các mô hình dự đoán, EDA góp phần quan trọng trong quá trình xử lý dữ liệu, giúp giải quyết các điều kiện ngoại lệ, giá trị thiếu và những vấn đề ảnh hưởng đến kết quả cuối cùng.
Ví dụ: Một dự án nghiên cứu về tỷ lệ nhân viên rời công ty. Trước khi thực hiện mô hình nghiên cứu về tỷ lệ rời công ty của nhân viên, các nhà phân tích dữ liệu sẽ phân tích các thông tin khác trong tập dữ liệu chung như tiền lương của nhân viên, thời gian làm việc, các khoản thưởng,... so với nhóm chỉ định. Các quá trình phân tích này đều thuộc EDA.
Một số mục đích của việc sử dụng EDA vào các dự án phân tích dữ liệu như:
Các nhà phân tích dữ liệu thường sử dụng nhiều loại kỹ thuật trong EDA, trong đó, các loại kỹ thuật được phân thành 3 nhóm chính gồm: Phân tích đơn biến, phân tích hai biến và phân tích đa biến.
Phân tích đơn biến được thực hiện với mục đích là hiểu được sự phân bổ của các giá trị cho một biến duy nhất. Dữ liệu đơn biến không theo loại dữ liệu cụ thể mà được phân theo mục đích sử dụng hoặc bản chất riêng. Để phân tích một tập dữ liệu, các loại kỹ thuật phân tích đơn biến sẽ được sử dụng tùy thuộc vào các loại biến đề cập. Một số dạng biểu đồ được sử dụng nhiều trong phân tích đơn biến như:
Phân tích hai biến là phương pháp kiểm tra sự liên quan giữa hai dữ liệu khác nhau, cách thức để xác định xem có mối liên hệ nào giữa hai biến hay không, nếu có thì mối liên hệ đó mạnh đến mức nào và thể hiện theo hướng nào. Đây là một kỹ thuật phân tích giúp xác định cách kết nối giữa hai biến và tìm ra xu hướng trong dữ liệu. Các dạng biểu đồ phổ biến được sử dụng cho phân tích hai biến như:
Phân tích đa biến kỹ thuật phân tích ở cấp độ phức tạp hơn, được sử dụng khi có nhiều hơn hai biến trong tập dữ liệu. Phân tích đa biến giúp giảm thiểu và đơn giản hóa dữ liệu mà không làm mất bất kỳ chi tiết quan trọng nào trong tập dữ liệu. Điều quan trọng nhất trong phương pháp này là phải hiểu mối quan hệ giữa các biến dự đoán hành vi của các biến dựa trên quan sát. Phân tích đa biến thường sử dụng các dạng biểu đồ như sau:
Quy trình thực hiện EDA bao gồm các bước sau đây:
Bước 1 - Thu thập dữ liệu: Thu thập dữ liệu từ các nguồn, sau đó lưu trữ và tổ chức một cách chính xác để các bước tiếp theo được thực hiện một cách nhanh chóng.
Bước 2 - Kiểm tra dữ liệu: Kiểm tra sơ bộ về tệp dữ liệu, xem số lượng, kiểu dữ liệu, thuộc tính dữ liệu và các đặc điểm khác. Quá trình này sẽ giúp các nhà phân tích dữ liệu định hình được các phương án xử lý dữ liệu tiếp theo.
Bước 3 - Xử lý dữ liệu: Ở bước này, các nhà phân tích dữ liệu sẽ thực hiện các phần việc như bổ sung các giá trị thiếu, xóa các giá trị trùng lặp, xử lý các dữ liệu ngoại lệ và chuyển đổi định dạng dữ liệu.
Bước 4 - Trực quan dữ liệu: Sử dụng các kỹ thuật phân tích kết hợp với các biểu đồ để hiểu về các mẫu, xu hướng và mối tương quan giữa các dữ liệu. Tùy vào mối quan hệ giữa các biến để ứng dụng các kỹ thuật phân tích để khai thác điểm đặc trưng của tệp dữ liệu.
Bước 5 - Đúc kết: Dựa trên các bước đã thực hiện, phân tích và đưa ra kết luận về các dữ liệu đã xử lý. Ghi nhận các mẫu quan trọng đã tìm thấy, trình bày các xu hướng và khía cạnh khác của dữ liệu.
Bước 6 - Báo cáo kết quả: Sử dụng các biểu đồ phân tích, hình ảnh và các mô tả liên quan để báo cáo kết quả dữ liệu một cách chi tiết và rõ ràng.
Quy trình thực hiện EDA không có những quy chuẩn chung cụ thể giữa các bước. Để hiểu và vận dụng các bước EDA sát với thực tế, được các chuyên gia phân tích dữ liệu và các doanh nghiệp hàng đầu sử dụng.
Như vậy là bạn đã có được cái nhìn sơ bộ về khái niệm EDA, mục đích sử dụng và các kỹ thuật phân tích trong EDA. Quá trình nghiên cứu và học tập cần nhiều thời gian mới có thể tiếp thu được những kiến thức mới. Rút ngắn thời gian học tập, ứng dụng thực tế EDA nói riêng và các kỹ năng chuyên môn nói chung. Đừng quên chia sẻ những kiến thức hữu ích này đến với mọi người nhé!
Tham khảo Khoá học Data Analyst tại MindX với lộ trình từ 6-8 tháng đào tạo từ cơ bản đến nâng cao, giúp bạn chinh phục được vị trí Data Analyst hoặc Business Intelligence Analyst.
Xem chi tiết Lộ trình học tập TẠI ĐÂY.