Data Analysis trong Excel: hướng dẫn các hàm phân tích dữ liệu

Excel là một phần mềm phổ biến được sử dụng trong nhiều lĩnh vực, bao gồm cả Data Analysis. Trên Microsoft Excel có tích hợp sẵn các công cụ mở rộng hỗ trợ đắc lực cho các Data Analyst. Trong bài viết dưới đây, MindX sẽ giới thiệu đến các bạn Data Analysis trong Excel và công dụng của các hàm cơ bản nhất của Data Analysis trong Excel.

Data Analysis là gì?

Data Analysis (Phân tích dữ liệu) là quá trình xử lý, khám phá và kiểm tra dữ liệu nhằm rút ra những thông tin có ý nghĩa, từ đó hỗ trợ việc ra quyết định hoặc giải quyết các vấn đề. Đây là một bước quan trọng trong nhiều lĩnh vực, giúp doanh nghiệp và tổ chức hiểu rõ hơn về các vấn đề, xu hướng hoặc cơ hội tiềm năng.

Một trong những công cụ phổ biến nhất khi thực hiện phân tích dữ liệu hiện nay chính là Excel. Vậy Excel có những hàm phân tích dữ liệu phổ biến nào. Cùng tìm hiểu chi tiết trong nội dung dưới đây.

Giới thiệu về Data Analysis trong Excel

Phân tích dữ liệu trong Excel là quá trình trình sử dụng các công cụ và chức năng tích hợp sẵn trong Excel để phân tích dữ liệu. Excel có khả năng cung cấp nhiều tính năng mạnh mẽ để thực hiện phân tích dữ liệu từ đơn giản cho đến phức tạp. Các khía khía cạnh cơ bản của Data Analysis trong Excel bao gồm:

1. Tính toán và công thức

Excel có một loạt các hàm toán học và hàm tích hợp cho phép bạn thực hiện chạy các phép tính cơ bản và phức tạp trên dữ liệu. Các hàm tính tổng, tính trung bình, tối đa, tối thiểu và các phép tính khác trên các tập dữ liệu lớn là tính năng cơ bản nhất của Data Analysis trong Excel.

2. Tổ chức và xử lý dữ liệu

Excel cung cấp các công cụ để nhập, sắp xếp, lọc và định dạng dữ liệu. Bạn có thể dễ dàng làm sạch và chuẩn hóa dữ liệu để tiến hành phân tích bằng cách sử dụng các tính năng như bảng tính, bộ lọc và định dạng điều kiện.

3. Dự báo và dự đoán

Một số công cụ và chức năng trong Excel có thể thực hiện dự đoán và dự báo bao gồm hối quy, bảng tính dự kiến (Pivottable), công cụ dự báo hộp lệnh (Forecast Sheet),... Tuy nhiên, cần lưu ý rằng, các công cụ dự báo của Excel có giới hạn về khả năng phân tích dự báo so với các công cụ chuyên dụng khác như Python, R hoặc phần mềm thống kê chuyên nghiệp.

4. Biểu đồ và đồ thị

Bằng cách sử dụng các loại biểu đồ trong Excel, bạn có thể thể hiện các mô hình, xu hướng và sự tương quan giữa các biến. Excel cho phép bạn tạo và tùy chỉnh các biểu đồ và đồ thị để trực quan hóa dữ liệu.

5. Công cụ thống kê

Excel cung cấp các công cụ thống kê mạnh mẽ như kiểm định giả thuyết, phân tích phương sai, và tính toán độ tin cậy. Điều này cho phép người dùng đưa ra các kết luận chính xác dựa trên dữ liệu và phân tích thống kê.

Cách mở Data Analysis trong Excel

Để bật Data Analyst trên Excel, bạn hãy mở File > Options (cài đặt) > Add-Ins > Go > tích ô “Analysis ToolPak” và “Analysis ToolPak VBA” rồi nhấn “OK”.

Bước 1: Mở file dữ liệu bất kỳ sau đó chọn File.

Bước 1: Mở file dữ liệu

Bước 2: Click chọn mục Option để mở hộp thoại Excel Options.

Bước 2: Click mục Options

Bước 3: Trong hộp thoại Excel Options chọn Add-Ins.

Bước 3: Truy cập mục Add-ins trong Options

Bước 4: Chọn Excel Add-ins ở phần Manage (ở cuối hộp thoại) rồi chọn Go.

Bước 4: Chọn Excel Add-ins

Bước 5: Tích vào hai ô Analysis ToolPak và Analysis ToolPak VBA rồi nhấn OK. Cộng cụ được tải sẽ xuất hiện ngay sau đó.

Bước 5: Tích chọn Analysis ToolPak & Analysis ToolPak VBA

*Ghi chú: Hướng dẫn áp dụng cho WPS Office và Excel 2007, 2010, 2013, 2016, 2019 và 2021.

Cách sử dụng Data Analysis trong Excel

Dưới đây là 12 hàm phân tích dữ liệu thông dụng nhất của Data Analysis và cách hoạt động của chúng:

1. Anova: Single Factor

ANOVA (Analysis of Variance) - Single Factor là một phương pháp thống kê trong Data Analysis để kiểm tra sự khác biệt giữa các nhóm trong một biến phụ thuộc. Nó cho phép bạn xác định xem có sự khác biệt ý nghĩa giữa các nhóm hay không bằng cách so sánh các giá trị trung bình của chúng.

Phân tích ANOVA - Single Factor giả định rằng biến phụ thuộc tuân theo phân phối chuẩn và có phương sai đồng nhất trong các nhóm.

2. Anova: Two-Factor

Two-Factor trong Data Analysis của Excel đề cập đến phân tích dữ liệu sử dụng mô hình Two-Factor ANOVA (Analysis of Variance) hoặc Two-Way ANOVA. Two-Factor ANOVA là một phương pháp thống kê để kiểm tra sự ảnh hưởng của hai yếu tố (factor) độc lập đối với một biến phụ thuộc.

Trong Two-Factor ANOVA, dữ liệu được chia thành các nhóm dựa trên hai yếu tố (factor) khác nhau. Các yếu tố này có thể là hai biến độc lập hoặc hai nhóm độc lập. Mục tiêu là xác định xem liệu có sự khác biệt đáng kể giữa các nhóm dữ liệu dựa trên yếu tố nào và xem liệu có sự tương tác (interaction) giữa hai yếu tố hay không.

Kết quả của Two-Factor ANOVA trong Excel sẽ cung cấp thông tin về sự ảnh hưởng của hai yếu tố đến biến phụ thuộc, giá trị p-value để đánh giá tính đáng tin cậy của kết quả, và các thông số thống kê khác như F-value và sum of squares. Từ đó, bạn có thể rút ra kết luận về sự khác biệt giữa các nhóm và sự tương tác giữa hai yếu tố trong mô hình dữ liệu.

3. Correlation

Correlation trong Data Analysis (phân tích dữ liệu) của Excel đề cập đến khả năng đo lường mối quan hệ tương quan giữa hai biến số. Nó cho biết đến mức độ tương quan và hướng tương quan giữa các biến số trong một tập dữ liệu.

Một ví dụ về Correlation của Data Analysis trong Excel

Correlation giúp đo lường mối quan hệ tương quan giữa hai biến số

Trong Excel, bạn có thể sử dụng hàm CORREL để tính toán hệ số tương quan Pearson (Pearson correlation coefficient) giữa hai tập dữ liệu. Hệ số tương quan Pearson nằm trong khoảng từ -1 đến 1. Một giá trị gần 1 cho thấy mối tương quan dương mạnh (cùng hướng tăng/giảm), một giá trị gần -1 cho thấy mối tương quan âm mạnh (hướng tăng của biến này đi kèm với hướng giảm của biến kia), và một giá trị gần 0 cho thấy không có tương quan tuyến tính giữa hai biến số.

Để tính toán tương quan trong Excel, bạn có thể sử dụng công thức sau: =CORREL(array1, array2).

Trong đó, array1 và array2 là hai tập dữ liệu mà bạn muốn tính toán tương quan. Chúng có thể là các dãy số, các dãy giá trị trong một cột hoặc dữ liệu từ các ô trong bảng tính Excel.

Sau khi áp dụng công thức này, Excel sẽ trả về giá trị hệ số tương quan Pearson. Bạn có thể sử dụng kết quả này để đánh giá mức độ tương quan giữa hai biến số và hiểu quan hệ giữa chúng trong tập dữ liệu.

4. Covariance

Trong Data Analysis của Excel, Covariance là một khái niệm thống kê quan trọng để đo lường mức độ tương quan giữa hai biến ngẫu nhiên. Covariance đo lường sự biến đổi chung giữa hai biến và cho biết hướng và mức độ của mối quan hệ tuyến tính giữa chúng.

Hai hàm COVARIANCE.P và COVARIANCE.S được sử dụng để tính toán Covariance giữa hai tập dữ liệu. Kết quả trả về là một số thực, thể hiện Covariance giữa hai tập dữ liệu. Giá trị Covariance dương cho thấy mối quan hệ tương quan dương (khi một biến tăng, biến kia cũng tăng) và giá trị Covariance âm cho thấy mối quan hệ tương quan âm (khi một biến tăng, biến kia giảm).

Covariance có thể giúp phân tích tương quan giữa các biến, tuy nhiên, cần lưu ý rằng nó không phản ánh mức độ và hướng tương quan một cách chính xác như hệ số tương quan (correlation coefficient).

5. Descriptive Statistics

Descriptive Statistics trong Data Analysis Excel là việc sử dụng các công cụ và chức năng tích hợp trong Excel để phân tích, tóm tắt và mô tả các thuộc tính quan trọng của một tập dữ liệu. Descriptive Statistics giúp ta hiểu và trực quan hóa các thông tin cơ bản về dữ liệu, bao gồm các khái niệm như trung bình, phương sai, độ lệch chuẩn, phân phối, tổng, tối đa, tối thiểu và các percentiles.

Descriptive Statistics giúp người dùng trực quan hoá các thông tin dữ liệu cơ bản

Một số công cụ Descriptive Statistics phổ biến của Data Analysis trong Excel bao gồm: Trung bình (Mean), Độ lệch chuẩn (Standard Deviation), Phân phối (Distribution), Tổng (Sum), Phân vị (Percentiles), Tối đa và tối thiểu (Maximum and Minimum). Các công cụ Descriptive Statistics này giúp người dùng có cái nhìn tổng quan về dữ liệu, hiểu các đặc điểm quan trọng và mô tả chất lượng dữ liệu.

6. Exponential Smoothing

Exponential Smoothing là một phương pháp dự báo dựa trên các mô hình hồi quy không tuyến tính. Trong Excel, bạn có thể sử dụng công cụ dự báo hộp lệnh (Forecast Sheet) để thực hiện Exponential Smoothing trong Data Analysis.

Exponential Smoothing trong Excel sử dụng một công thức kết hợp lấy giá trị dữ liệu hiện tại và các giá trị trước đó trong dãy thời gian để tạo ra dự báo. Nó giả định rằng giá trị hiện tại phụ thuộc linh hoạt vào các giá trị quá khứ và đặt trọng số khác nhau cho từng giá trị quá khứ. Công thức này tính toán trung bình có trọng số gia tăng dần theo thời gian để tạo ra dự báo cho các điểm dữ liệu trong tương lai.

7. F-Test Two-Sample for Variances

F-Test Two-Sample for Variances trong Excel là một công cụ thống kê để so sánh sự khác biệt về phương sai giữa hai mẫu dữ liệu. Nó được sử dụng để kiểm tra xem phương sai của hai nhóm dữ liệu có khác biệt đáng kể hay không. Đây là một phân tích quan trọng trong việc đánh giá sự đồng nhất hoặc khác biệt giữa các nhóm dữ liệu.

F-Test Two-Sample for Variances trong Excel giả định rằng các mẫu dữ liệu tuân theo phân phối chuẩn và độc lập nhau. Nếu giả định này không thỏa mãn, kết quả của F-Test có thể không chính xác. Đồng thời, nếu có nhiều hơn hai nhóm dữ liệu cần so sánh, F-Test không thích hợp và cần sử dụng phân tích thống kê khác như ANOVA (Analysis of Variance).

8. Fourier Analysis

Fourier Analysis

Fourier Analysis của Data Analysis trong Excel là một phương pháp phân tích tín hiệu và dữ liệu chu kỳ để tách các thành phần tần số khác nhau. Nó dựa trên phép biến đổi Fourier, một công cụ toán học được sử dụng để phân tích các tín hiệu không gian thời gian thành các thành phần tần số.

Trong Excel, Fourier Analysis được thực hiện bằng cách sử dụng công cụ Biến đổi Fourier (Fourier Transform) có sẵn trong phần mở rộng Analysis ToolPak. Để sử dụng công cụ này, bạn cần kích hoạt Add-In Analysis ToolPak trong Excel. Fourier Analysis của Data Analysis giúp xác định các thành phần tần số quan trọng trong dữ liệu, phân tích biên độ và pha của các thành phần tần số, và tạo ra các biểu đồ và đồ thị để hiển thị kết quả phân tích.

9. Histogram

Histogram trong Data Analysis của Excel là một công cụ được sử dụng để hiển thị phân bố tần suất của một tập dữ liệu số liệu. Nó giúp người dùng hiểu và phân tích phân phối của các giá trị trong một biến số. Trong hộp thoại Histogram, bạn cần chỉ định dữ liệu đầu vào của biến số cần phân tích và chỉ định các khoảng giá trị (bin) cho histogram. Excel sẽ tự động tính toán tần suất của các khoảng giá trị và tạo biểu đồ histogram tương ứng.

Biểu đồ histogram sẽ hiển thị trên một đồ thị cột, với trục ngang biểu thị các khoảng giá trị và trục dọc biểu thị tần suất. Histogram giúp bạn nhận ra mô hình phân bố của dữ liệu và các mức tần suất tương ứng.

10. Moving Average

Moving Average - Công cụ phân tích dữ liệu trong Excel

Moving Average là một công cụ phân tích thống kê trong Excel được sử dụng để làm mịn dữ liệu và xác định xu hướng trong dữ liệu chuỗi thời gian. Nó tính toán giá trị trung bình của một số quan sát gần nhất và sử dụng kết quả này để dự đoán xu hướng tiếp theo.

Việc chọn kích thước cửa sổ (window size) của Moving Average sẽ ảnh hưởng đến độ mịn của dữ liệu và khả năng xác định xu hướng. Kích thước cửa sổ lớn sẽ làm mịn dữ liệu hơn, trong khi kích thước cửa sổ nhỏ hơn sẽ giữ lại các biến động nhỏ hơn. Moving Average là một công cụ đơn giản và phổ biến của Data Analysis trong Excel để xác định xu hướng và làm mịn dữ liệu chuỗi thời gian.

11. Random Number Generation

Trong Data Analysis, Random Number Generator (RNG) được sử dụng để tạo ra các số ngẫu nhiên có phân phối đồng nhất hoặc theo phân phối xác định. Excel cung cấp một số hàm tích hợp để thực hiện quá trình RNG. Random Number Generator của Data Analysis dựa trên một thuật toán sinh số ngẫu nhiên, không phải là số ngẫu nhiên thực sự.

Khi tính toán lại công thức hoặc thay đổi dữ liệu, các số ngẫu nhiên sẽ được tạo lại. Nếu bạn muốn tạo số ngẫu nhiên thực sự, có thể cần sử dụng các công cụ hoặc ngôn ngữ lập trình khác ngoài Excel.

12. Rank and Percentile

Đối với Data Analysis của Excel, Rank và Percentile là hai chức năng quan trọng để phân loại dữ liệu và tính phân vị. Đối với Rank, chức năng này xếp hạng các giá trị dựa trên thứ tự sắp xếp của chúng trong dãy dữ liệu. Nếu có các giá trị bằng nhau, nó sẽ sử dụng phương pháp xếp hạng "giống nhau như nhau, sau đó nhảy số" (phương pháp Standard).

Chức năng Percentile trong Excel tính phân vị cho một tập giá trị dữ liệu. Chức năng này cũng tính phân vị dựa trên phương pháp xếp hạng "giống nhau như nhau, sau đó nhảy số".

13. Regression

Regression - công cụ phân tích hồi quy trong Excel

Công cụ hồi quy (regression) của Data Analysis là một công cụ mạnh mẽ để dự đoán giá trị dựa trên các biến độc lập. Bằng cách sử dụng phân tích hồi quy trong Excel, bạn có thể tạo ra mô hình dự đoán dựa trên dữ liệu mẫu có sẵn. Kết quả của phân tích hồi quy sẽ hiển thị trong một bảng, bao gồm các hệ số hồi quy, giá trị t-statistic, giá trị p-value và các thống kê khác.

14. Sampling

Sampling (mẫu) là quá trình chọn một phần nhỏ từ toàn bộ tập dữ liệu để đại diện cho dữ liệu ban đầu. Mục đích của việc sử dụng Sampling là tiết kiệm thời gian và công sức khi phân tích dữ liệu lớn, đồng thời đảm bảo tính đại diện và độ chính xác của kết quả.

Khi sử dụng Sampling, điều kiện quan trọng để đảm bảo tính đại diện của mẫu là mẫu đó phải được chọn ngẫu nhiên và đại diện cho toàn bộ tập dữ liệu để đưa ra kết quả phân tích chính xác và có có giá trị sử dụng.

15. Kiểm định t-test trong Excel Data Analysis

Kiểm định t-test trong Excel (Data Analysis ToolPak) là một cách hiệu quả để thực hiện các phép kiểm định giả thuyết thống kê nhằm so sánh trung bình giữa hai nhóm. Kiểm định t-test giúp kiểm tra liệu có sự khác biệt ý nghĩa thống kê giữa trung bình của hai nhóm dữ liệu hay không.

Có ba loại kiểm định t-test trong Excel phổ biến hiện nay:

Two-Sample Assuming Equal Variances: Dùng khi hai nhóm có phương sai bằng nhau.
Two-Sample Assuming Unequal Variances: Dùng khi hai nhóm có phương sai khác nhau.
Paired Two-Sample for Means: Dùng khi hai nhóm là cặp dữ liệu phụ thuộc (trước và sau khi thử nghiệm).

Kiểm định t-test trong Excel Data Analysis

Như vậy, bài viết trên đã hướng dẫn cho bạn cách tìm Data Analysis ở đâu trong Excel và hướng dẫn thêm công cụ này để chạy phân tich dữ liệu. Hy vọng những chia sẽ trên sẽ hữu ích cho bạn trong quá trình theo đuổi ngành Data Analyst. Chúc bạn thành công!

Nếu bạn là người mới bắt đầu, muốn học phân tích dữ liệu để chuyển ngành hoặc muốn ứng dụng các kỹ năng xử lý dữ liệu để ứng dụng vào công việc chuyên môn của mình, cùng tham khảo KHOÁ HỌC DATA ANALYST tại MindX, chỉ 6-8 tháng, đào tạo toàn diện kiến thức và kinh nghiệm làm dự án thực tế về Data Analysis.

33@4x-100.jpg

Xem chi tiết lộ trình học tập TẠI ĐÂY.

Hàm xử lý dữ liệu trong Excel

Xử lý dữ liệu trong Excel bao gồm các bước và công cụ để sắp xếp, làm sạch, tóm tắt và phân tích dữ liệu. Dưới đây là các bước cơ bản và công cụ hữu ích để xử lý dữ liệu trong Excel:

Nhập dữ liệu

Nhập từ các nguồn khác nhau:

Sử dụng Get Data (Power Query) để nhập từ cơ sở dữ liệu, tệp CSV, tệp Excel khác, web API, v.v.
Copy và Paste dữ liệu từ nguồn bên ngoài.

Làm sạch dữ liệu

Xóa dữ liệu trùng lặp: Sử dụng Data > Remove Duplicates để loại bỏ các dòng trùng lặp.
Lọc khoảng trắng dư thừa: Sử dụng hàm =TRIM(A1) để loại bỏ khoảng trắng không cần thiết.
Tách dữ liệu: Dùng Text to Columns (Data > Text to Columns) để tách dữ liệu từ một cột thành nhiều cột, dựa trên dấu phân cách như dấu phẩy, khoảng trắng.
Thay thế dữ liệu: Ctrl + H: Tìm và thay thế nội dung trong bảng.
Hàm SUBSTITUTE: Thay ký tự không mong muốn. Ví dụ: =SUBSTITUTE(A1, "old", "new").
Power Query: Sử dụng Transform Data để làm sạch, thay đổi định dạng, hoặc loại bỏ dữ liệu không hợp lệ.

Sắp xếp và lọc dữ liệu

Sort: Sắp xếp dữ liệu tăng/giảm dựa trên một hoặc nhiều cột (Data > Sort).
Filter: Lọc dữ liệu dựa trên điều kiện cụ thể (Data > Filter).
Advanced Filter: Lọc nâng cao với nhiều điều kiện.

Phân tích dữ liệu

Tóm tắt dữ liệu: =SUM(range), =AVERAGE(range), =COUNT(range), =MAX(range), =MIN(range)
Kiểm tra điều kiện: =IF(condition, value_if_true, value_if_false); =COUNTIF(range, condition); =SUMIF(range, condition, sum_range)
Phân tích thời gian: Hàm YEAR, MONTH, DAY, DATEDIF, NETWORKDAYS để phân tích ngày.

Sử dụng PivotTable

Tạo bảng Pivot (Insert > PivotTable) để tóm tắt dữ liệu, đếm, hoặc phân tích theo nhóm, giúp tổng hợp dữ liệu từ bảng lớn.

Trực quan hóa dữ liệu

Biểu đồ cơ bản: Tạo biểu đồ cột, biểu đồ tròn, biểu đồ đường (Insert > Charts).
Biểu đồ động: Kết hợp với slicer hoặc biểu đồ Pivot Chart.
Conditional Formatting: Định dạng có điều kiện (Home > Conditional Formatting) để làm nổi bật các giá trị.

Xử lý dữ liệu nâng cao

Power Query (Get & Transform Data): Dùng để tự động làm sạch và định dạng dữ liệu; Hợp nhất dữ liệu từ nhiều nguồn và tự động hóa quy trình xử lý.
Power Pivot: Dùng để phân tích dữ liệu lớn bằng cách tạo các mô hình dữ liệu phức tạp.
Data Analysis Toolpak: Add-in miễn phí hỗ trợ phân tích dữ liệu thống kê như: Regression (hồi quy), t-Test, Histogram.

Tự động hóa xử lý dữ liệu

Macro: Giúp ghi lại và chạy macro để tự động hóa các bước xử lý dữ liệu lặp đi lặp lại.
Hàm và script nâng cao: Sử dụng VBA (Visual Basic for Applications) để xử lý dữ liệu phức tạp.

Lưu trữ và chia sẻ dữ liệu

Bảo vệ dữ liệu: File > Protect Workbook để bảo vệ dữ liệu hoặc bảng.
Xuất dữ liệu: Lưu dưới dạng CSV, PDF hoặc tệp Excel chia sẻ.

Đánh giá bài viết

0/5 - 0 lượt bình chọn

Hoàng Thương

Researcher & Content Marketer tại MindX

Khóa học liên quan

Khóa học Data Analyst: Phân tích dữ liệu cho người mới bắt đầu