post
Công nghệ
Giáo dục
2795

EDA là gì? Mục đích của việc sử dụng Exploratory Data Analyst

Đối với một người làm về phân tích dữ liệu, không dễ để nhìn vào một cột số cụ thể hay toàn bộ bảng dữ liệu để xác định các đặc điểm quan trọng của dữ liệu, nếu thực hiện bằng cách thức thủ công, sẽ mất rất nhiều thời gian và mức độ hiệu quả không được đảm bảo. Vì vậy, EDA sẽ là một giải pháp phù hợp dành cho các nhà phân tích dữ liệu. Vậy EDA là gì? Mục đích của việc sử dụng EDA như thế nào? Những thắc mắc này của bạn sẽ được giải đáp thông qua bài viết dưới đây.

EDA là gì?

EDA (viết tắt của Exploratory Data Analyst) là một phương pháp khám phá dữ liệu, tìm ra các xu hướng, mẫu thử hoặc kiểm tra các giả định trong dữ liệu nhằm mục đích hiểu rõ về cấu trúc và tính chất của dữ liệu. Khi áp dụng các thuật toán học máy hoặc xây dựng các mô hình dự đoán, EDA góp phần quan trọng trong quá trình xử lý dữ liệu, giúp giải quyết các điều kiện ngoại lệ, giá trị thiếu và những vấn đề ảnh hưởng đến kết quả cuối cùng.

 

EDA là gì?

 

Ví dụ: Một dự án nghiên cứu về tỷ lệ nhân viên rời công ty. Trước khi thực hiện mô hình nghiên cứu về tỷ lệ rời công ty của nhân viên, các nhà phân tích dữ liệu sẽ phân tích các thông tin khác trong tập dữ liệu chung như tiền lương của nhân viên, thời gian làm việc, các khoản thưởng,... so với nhóm chỉ định. Các quá trình phân tích này đều thuộc EDA.

Mục đích của việc sử dụng EDA

Một số mục đích của việc sử dụng EDA vào các dự án phân tích dữ liệu như:

  • Tìm hiểu về cấu trúc dữ liệu: EDA là phương pháp giúp xác định cấu trúc dữ liệu bao gồm số lượng, kiểu dữ liệu, trường dữ liệu, sự liên kết giữa các trường dữ liệu,... Khi xác định được cấu trúc dữ liệu, các nhà phân tích dữ liệu có thể hiểu được mối quan hệ giữa các dữ liệu trong tệp.
  • Điều chỉnh và thay đổi: EDA giúp giải quyết các trường hợp thiếu giá trị, dữ liệu lỗi, các ngoại lệ trong dữ liệu. Điều này giúp các nhà phân tích dữ liệu điều chỉnh các phương án khắc phục kịp thời, tránh những ảnh hưởng nghiêm trọng đến dự án.
  • Xác định mối tương quan giữa các biến: Các biến đều chứa các giá trị riêng, EDA có khả năng phát hiện các liên hệ tiềm ẩn và sự ảnh hưởng giữa các biến với nhau, tạo sự liên kết giữa các thông tin dữ liệu nhằm xây dựng một quy trình phân tích tổng thể, rõ ràng.
  • Xây dựng cơ sở dữ liệu quan hệ: Các đối tượng dữ liệu quan trọng được phát triển mối quan hệ nhằm cấu trúc hóa dữ liệu theo sơ đồ, tiết kiệm thời gian xử lý những thông tin thừa, hạn chế sự sai sót của kết quả phân tích.
  • Chuẩn bị cho bước phân tích tiếp theo: Áp dụng EDA giúp loại bỏ các dữ liệu không cần thiết, dữ liệu thiếu giá trị và chuẩn hóa dữ liệu. Đây là yếu tố nền tảng để chuẩn bị cho các bước phân tích bằng thuật toán học máy.

 

Mục đích của việc sử dụng EDA

Các kỹ thuật phân tích chủ yếu được dùng trong EDA

Các nhà phân tích dữ liệu thường sử dụng nhiều loại kỹ thuật trong EDA, trong đó, các loại kỹ thuật được phân thành 3 nhóm chính gồm: Phân tích đơn biến, phân tích hai biến và phân tích đa biến.

 

1. Phân tích đơn biến

 

Phân tích đơn biến được thực hiện với mục đích là hiểu được sự phân bổ của các giá trị cho một biến duy nhất. Dữ liệu đơn biến không theo loại dữ liệu cụ thể mà được phân theo mục đích sử dụng hoặc bản chất riêng. Để phân tích một tập dữ liệu, các loại kỹ thuật phân tích đơn biến sẽ được sử dụng tùy thuộc vào các loại biến đề cập. Một số dạng biểu đồ được sử dụng nhiều trong phân tích đơn biến như:

 

  • Histograms (Biểu đồ phân phối): Histogram hiển thị tần suất của từng giá trị hoặc nhóm giá trị trong dữ liệu số, xác định đỉnh, đuôi và các thông số thống kê liên quan.
  • Boxplot (Biểu đồ hộp): Một Boxplot sẽ cung cấp một số thông tin quan trọng như phần tối thiểu, giá trị tối đa, giá trị trung vị,... Boxplot còn được sử dụng để xác định các dữ liệu ngoại lệ.
  • Bar Chart (Biểu đồ cột): Chủ yếu là biểu đồ thanh tần số, được sử dụng để so sánh giá trị của các biến rời rạc và tìm tần suất của các phân loại dữ liệu khác nhau.
  • Pie Chart (Biểu đồ tròn): Biểu đồ tròn truyền tải thông tin như biểu đồ cột, khác biệt nằm ở cách thể hiện, với mỗi phần trong hình tròn là biểu thị tỷ lệ của từng danh mục trong dữ liệu.

 

Các kỹ thuật phân tích chủ yếu được dùng trong EDA

 

2. Phân tích hai biến

 

Phân tích hai biến là phương pháp kiểm tra sự liên quan giữa hai dữ liệu khác nhau, cách thức để xác định xem có mối liên hệ nào giữa hai biến hay không, nếu có thì mối liên hệ đó mạnh đến mức nào và thể hiện theo hướng nào. Đây là một kỹ thuật phân tích giúp xác định cách kết nối giữa hai biến và tìm ra xu hướng trong dữ liệu. Các dạng biểu đồ phổ biến được sử dụng cho phân tích hai biến như:

 

  • Scatterplots (Biểu đồ phân tán): Biểu đồ phân tán cho biết hai biến có liên quan như thế nào. Thể hiện các giá trị của một biến trên trục X và các giá trị khác của biến trên trục Y.
  • Correlation (Biểu đồ tương quan): Hệ số tương quan là phép đo thể hiện mức độ mạnh và định hướng của hai biến được liên kết. Mối tương quan tích cực là khi một biến tăng lên, biến còn lại cũng tăng theo. Mối tương quan tiêu cực là khi một biến tăng lên, biến còn lại sẽ giảm.
  • Regression (Biểu đồ phân tích hồi quy): Trong biểu đồ hồi quy, trục X đại diện cho biến độc lập và trục Y đại diện cho biến phụ thuộc. Khi các điểm được thể hiện trên biểu đồ, một đường hồi quy sẽ được vẽ để ước lượng mối quan hệ tuyến tính giữa hai biến.

 

3. Phân tích đa biến

 

Phân tích đa biến kỹ thuật phân tích ở cấp độ phức tạp hơn, được sử dụng khi có nhiều hơn hai biến trong tập dữ liệu. Phân tích đa biến giúp giảm thiểu và đơn giản hóa dữ liệu mà không làm mất bất kỳ chi tiết quan trọng nào trong tập dữ liệu. Điều quan trọng nhất trong phương pháp này là phải hiểu mối quan hệ giữa các biến dự đoán hành vi của các biến dựa trên quan sát. Phân tích đa biến thường sử dụng các dạng biểu đồ như sau:

  • Multivariate distribution plot (Biểu đồ phân phối đa biến): Biểu đồ này cho phép xem kết quả phân phối của nhiều biến đồng thời, được hiển thị dưới dạng 2D hoặc 3D về mật độ phân phối và sự mối liên hệ giữa các biến.
  • Scatterplot matrix (Biểu đồ phân tán ma trận): Biểu đồ thể hiện được sự phân phối và mối quan hệ giữa các biến do các cặp tương quan giữa các biến đã được hiển thị đầy đủ.
  • Boxplot matrix (Biểu đồ hộp đa biến): Biểu đồ thể hiện sự phân bổ đặc trưng của các biến đồng thời để so sánh và tìm ra điểm khác biệt giữa các dữ liệu.

 

Phân tích đa biến

Quy trình các bước thực hiện EDA

Quy trình thực hiện EDA bao gồm các bước sau đây:

 

Bước 1 - Thu thập dữ liệu: Thu thập dữ liệu từ các nguồn, sau đó lưu trữ và tổ chức một cách chính xác để các bước tiếp theo được thực hiện một cách nhanh chóng.

 

Bước 2 - Kiểm tra dữ liệu: Kiểm tra sơ bộ về tệp dữ liệu, xem số lượng, kiểu dữ liệu, thuộc tính dữ liệu và các đặc điểm khác. Quá trình này sẽ giúp các nhà phân tích dữ liệu định hình được các phương án xử lý dữ liệu tiếp theo.

 

Bước 3 - Xử lý dữ liệu: Ở bước này, các nhà phân tích dữ liệu sẽ thực hiện các phần việc như bổ sung các giá trị thiếu, xóa các giá trị trùng lặp, xử lý các dữ liệu ngoại lệ và chuyển đổi định dạng dữ liệu.

 

Bước 4 - Trực quan dữ liệu: Sử dụng các kỹ thuật phân tích kết hợp với các biểu đồ để hiểu về các mẫu, xu hướng và mối tương quan giữa các dữ liệu. Tùy vào mối quan hệ giữa các biến để ứng dụng các kỹ thuật phân tích để khai thác điểm đặc trưng của tệp dữ liệu.

 

Bước 5 - Đúc kết: Dựa trên các bước đã thực hiện, phân tích và đưa ra kết luận về các dữ liệu đã xử lý. Ghi nhận các mẫu quan trọng đã tìm thấy, trình bày các xu hướng và khía cạnh khác của dữ liệu.

 

Bước 6 - Báo cáo kết quả: Sử dụng các biểu đồ phân tích, hình ảnh và các mô tả liên quan để báo cáo kết quả dữ liệu một cách chi tiết và rõ ràng.

 

Quy trình thực hiện EDA không có những quy chuẩn chung cụ thể giữa các bước. Để hiểu và vận dụng các bước EDA sát với thực tế, được các chuyên gia phân tích dữ liệu và các doanh nghiệp hàng đầu sử dụng.

 

Như vậy là bạn đã có được cái nhìn sơ bộ về khái niệm EDA, mục đích sử dụng và các kỹ thuật phân tích trong EDA. Quá trình nghiên cứu và học tập cần nhiều thời gian mới có thể tiếp thu được những kiến thức mới. Rút ngắn thời gian học tập, ứng dụng thực tế EDA nói riêng và các kỹ năng chuyên môn nói chung. Đừng quên chia sẻ những kiến thức hữu ích này đến với mọi người nhé!

 

Tham khảo Khoá học Data Analyst tại MindX với lộ trình từ 6-8 tháng đào tạo từ cơ bản đến nâng cao, giúp bạn chinh phục được vị trí Data Analyst hoặc Business Intelligence Analyst. 

33@4x-100.jpg

Xem chi tiết Lộ trình học tập TẠI ĐÂY

Đánh giá bài viết

0

0/5 - 0 lượt bình chọn
Đăng ký nhận bản tin
Đăng ký ngay để nhận tin tức và tài liệu mới nhất về công nghệ