Phân tích dữ liệu trong Excel là quá trình trình sử dụng các công cụ và chức năng tích hợp sẵn trong Excel để phân tích dữ liệu. Excel có khả năng cung cấp nhiều tính năng mạnh mẽ để thực hiện phân tích dữ liệu từ đơn giản cho đến phức tạp. Các khía khía cạnh cơ bản của Data Analysis trong Excel bao gồm:
Excel có một loạt các hàm toán học và hàm tích hợp cho phép bạn thực hiện chạy các phép tính cơ bản và phức tạp trên dữ liệu. Các hàm tính tổng, tính trung bình, tối đa, tối thiểu và các phép tính khác trên các tập dữ liệu lớn là tính năng cơ bản nhất của Data Analysis trong Excel.
Excel cung cấp các công cụ để nhập, sắp xếp, lọc và định dạng dữ liệu. Bạn có thể dễ dàng làm sạch và chuẩn hóa dữ liệu để tiến hành phân tích bằng cách sử dụng các tính năng như bảng tính, bộ lọc và định dạng điều kiện.
Một số công cụ và chức năng trong Excel có thể thực hiện dự đoán và dự báo bao gồm hối quy, bảng tính dự kiến (Pivottable), công cụ dự báo hộp lệnh (Forecast Sheet),... Tuy nhiên, cần lưu ý rằng, các công cụ dự báo của Excel có giới hạn về khả năng phân tích dự báo so với các công cụ chuyên dụng khác như Python, R hoặc phần mềm thống kê chuyên nghiệp.
Bằng cách sử dụng các loại biểu đồ trong Excel, bạn có thể thể hiện các mô hình, xu hướng và sự tương quan giữa các biến. Excel cho phép bạn tạo và tùy chỉnh các biểu đồ và đồ thị để trực quan hóa dữ liệu.
Excel cung cấp các công cụ thống kê mạnh mẽ như kiểm định giả thuyết, phân tích phương sai, và tính toán độ tin cậy. Điều này cho phép người dùng đưa ra các kết luận chính xác dựa trên dữ liệu và phân tích thống kê.
Để bật Data Analyst trên Excel, bạn hãy mở File > Options (cài đặt) > Add-Ins > Go > tích ô “Analysis ToolPak” và “Analysis ToolPak VBA” rồi nhấn “OK”.
Bước 1: Mở file dữ liệu bất kỳ sau đó chọn File.
Bước 2: Click chọn mục Option để mở hộp thoại Excel Options.
Bước 3: Trong hộp thoại Excel Options chọn Add-Ins.
Bước 4: Chọn Excel Add-ins ở phần Manage (ở cuối hộp thoại) rồi chọn Go.
Bước 5: Tích vào hai ô Analysis ToolPak và Analysis ToolPak VBA rồi nhấn OK. Cộng cụ được tải sẽ xuất hiện ngay sau đó.
*Ghi chú: Hướng dẫn áp dụng cho WPS Office và Excel 2007, 2010, 2013, 2016, 2019 và 2021.
Dưới đây là 12 hàm phân tích dữ liệu thông dụng nhất của Data Analysis và cách hoạt động của chúng:
ANOVA (Analysis of Variance) - Single Factor là một phương pháp thống kê trong Data Analysis để kiểm tra sự khác biệt giữa các nhóm trong một biến phụ thuộc. Nó cho phép bạn xác định xem có sự khác biệt ý nghĩa giữa các nhóm hay không bằng cách so sánh các giá trị trung bình của chúng.
Phân tích ANOVA - Single Factor giả định rằng biến phụ thuộc tuân theo phân phối chuẩn và có phương sai đồng nhất trong các nhóm.
Two-Factor trong Data Analysis của Excel đề cập đến phân tích dữ liệu sử dụng mô hình Two-Factor ANOVA (Analysis of Variance) hoặc Two-Way ANOVA. Two-Factor ANOVA là một phương pháp thống kê để kiểm tra sự ảnh hưởng của hai yếu tố (factor) độc lập đối với một biến phụ thuộc.
Trong Two-Factor ANOVA, dữ liệu được chia thành các nhóm dựa trên hai yếu tố (factor) khác nhau. Các yếu tố này có thể là hai biến độc lập hoặc hai nhóm độc lập. Mục tiêu là xác định xem liệu có sự khác biệt đáng kể giữa các nhóm dữ liệu dựa trên yếu tố nào và xem liệu có sự tương tác (interaction) giữa hai yếu tố hay không.
Kết quả của Two-Factor ANOVA trong Excel sẽ cung cấp thông tin về sự ảnh hưởng của hai yếu tố đến biến phụ thuộc, giá trị p-value để đánh giá tính đáng tin cậy của kết quả, và các thông số thống kê khác như F-value và sum of squares. Từ đó, bạn có thể rút ra kết luận về sự khác biệt giữa các nhóm và sự tương tác giữa hai yếu tố trong mô hình dữ liệu.
Correlation trong Data Analysis (phân tích dữ liệu) của Excel đề cập đến khả năng đo lường mối quan hệ tương quan giữa hai biến số. Nó cho biết đến mức độ tương quan và hướng tương quan giữa các biến số trong một tập dữ liệu.
Trong Excel, bạn có thể sử dụng hàm CORREL để tính toán hệ số tương quan Pearson (Pearson correlation coefficient) giữa hai tập dữ liệu. Hệ số tương quan Pearson nằm trong khoảng từ -1 đến 1. Một giá trị gần 1 cho thấy mối tương quan dương mạnh (cùng hướng tăng/giảm), một giá trị gần -1 cho thấy mối tương quan âm mạnh (hướng tăng của biến này đi kèm với hướng giảm của biến kia), và một giá trị gần 0 cho thấy không có tương quan tuyến tính giữa hai biến số.
Để tính toán tương quan trong Excel, bạn có thể sử dụng công thức sau: =CORREL(array1, array2).
Trong đó, array1 và array2 là hai tập dữ liệu mà bạn muốn tính toán tương quan. Chúng có thể là các dãy số, các dãy giá trị trong một cột hoặc dữ liệu từ các ô trong bảng tính Excel.
Sau khi áp dụng công thức này, Excel sẽ trả về giá trị hệ số tương quan Pearson. Bạn có thể sử dụng kết quả này để đánh giá mức độ tương quan giữa hai biến số và hiểu quan hệ giữa chúng trong tập dữ liệu.
Trong Data Analysis của Excel, Covariance là một khái niệm thống kê quan trọng để đo lường mức độ tương quan giữa hai biến ngẫu nhiên. Covariance đo lường sự biến đổi chung giữa hai biến và cho biết hướng và mức độ của mối quan hệ tuyến tính giữa chúng.
Hai hàm COVARIANCE.P và COVARIANCE.S được sử dụng để tính toán Covariance giữa hai tập dữ liệu. Kết quả trả về là một số thực, thể hiện Covariance giữa hai tập dữ liệu. Giá trị Covariance dương cho thấy mối quan hệ tương quan dương (khi một biến tăng, biến kia cũng tăng) và giá trị Covariance âm cho thấy mối quan hệ tương quan âm (khi một biến tăng, biến kia giảm).
Covariance có thể giúp phân tích tương quan giữa các biến, tuy nhiên, cần lưu ý rằng nó không phản ánh mức độ và hướng tương quan một cách chính xác như hệ số tương quan (correlation coefficient).
Descriptive Statistics trong Data Analysis Excel là việc sử dụng các công cụ và chức năng tích hợp trong Excel để phân tích, tóm tắt và mô tả các thuộc tính quan trọng của một tập dữ liệu. Descriptive Statistics giúp ta hiểu và trực quan hóa các thông tin cơ bản về dữ liệu, bao gồm các khái niệm như trung bình, phương sai, độ lệch chuẩn, phân phối, tổng, tối đa, tối thiểu và các percentiles.
Một số công cụ Descriptive Statistics phổ biến của Data Analysis trong Excel bao gồm: Trung bình (Mean), Độ lệch chuẩn (Standard Deviation), Phân phối (Distribution), Tổng (Sum), Phân vị (Percentiles), Tối đa và tối thiểu (Maximum and Minimum). Các công cụ Descriptive Statistics này giúp người dùng có cái nhìn tổng quan về dữ liệu, hiểu các đặc điểm quan trọng và mô tả chất lượng dữ liệu.
Exponential Smoothing là một phương pháp dự báo dựa trên các mô hình hồi quy không tuyến tính. Trong Excel, bạn có thể sử dụng công cụ dự báo hộp lệnh (Forecast Sheet) để thực hiện Exponential Smoothing trong Data Analysis.
Exponential Smoothing trong Excel sử dụng một công thức kết hợp lấy giá trị dữ liệu hiện tại và các giá trị trước đó trong dãy thời gian để tạo ra dự báo. Nó giả định rằng giá trị hiện tại phụ thuộc linh hoạt vào các giá trị quá khứ và đặt trọng số khác nhau cho từng giá trị quá khứ. Công thức này tính toán trung bình có trọng số gia tăng dần theo thời gian để tạo ra dự báo cho các điểm dữ liệu trong tương lai.
F-Test Two-Sample for Variances trong Excel là một công cụ thống kê để so sánh sự khác biệt về phương sai giữa hai mẫu dữ liệu. Nó được sử dụng để kiểm tra xem phương sai của hai nhóm dữ liệu có khác biệt đáng kể hay không. Đây là một phân tích quan trọng trong việc đánh giá sự đồng nhất hoặc khác biệt giữa các nhóm dữ liệu.
F-Test Two-Sample for Variances trong Excel giả định rằng các mẫu dữ liệu tuân theo phân phối chuẩn và độc lập nhau. Nếu giả định này không thỏa mãn, kết quả của F-Test có thể không chính xác. Đồng thời, nếu có nhiều hơn hai nhóm dữ liệu cần so sánh, F-Test không thích hợp và cần sử dụng phân tích thống kê khác như ANOVA (Analysis of Variance).
Fourier Analysis của Data Analysis trong Excel là một phương pháp phân tích tín hiệu và dữ liệu chu kỳ để tách các thành phần tần số khác nhau. Nó dựa trên phép biến đổi Fourier, một công cụ toán học được sử dụng để phân tích các tín hiệu không gian thời gian thành các thành phần tần số.
Trong Excel, Fourier Analysis được thực hiện bằng cách sử dụng công cụ Biến đổi Fourier (Fourier Transform) có sẵn trong phần mở rộng Analysis ToolPak. Để sử dụng công cụ này, bạn cần kích hoạt Add-In Analysis ToolPak trong Excel. Fourier Analysis của Data Analysis giúp xác định các thành phần tần số quan trọng trong dữ liệu, phân tích biên độ và pha của các thành phần tần số, và tạo ra các biểu đồ và đồ thị để hiển thị kết quả phân tích.
Histogram trong Data Analysis của Excel là một công cụ được sử dụng để hiển thị phân bố tần suất của một tập dữ liệu số liệu. Nó giúp người dùng hiểu và phân tích phân phối của các giá trị trong một biến số. Trong hộp thoại Histogram, bạn cần chỉ định dữ liệu đầu vào của biến số cần phân tích và chỉ định các khoảng giá trị (bin) cho histogram. Excel sẽ tự động tính toán tần suất của các khoảng giá trị và tạo biểu đồ histogram tương ứng.
Biểu đồ histogram sẽ hiển thị trên một đồ thị cột, với trục ngang biểu thị các khoảng giá trị và trục dọc biểu thị tần suất. Histogram giúp bạn nhận ra mô hình phân bố của dữ liệu và các mức tần suất tương ứng.
Moving Average là một công cụ phân tích thống kê trong Excel được sử dụng để làm mịn dữ liệu và xác định xu hướng trong dữ liệu chuỗi thời gian. Nó tính toán giá trị trung bình của một số quan sát gần nhất và sử dụng kết quả này để dự đoán xu hướng tiếp theo.
Việc chọn kích thước cửa sổ (window size) của Moving Average sẽ ảnh hưởng đến độ mịn của dữ liệu và khả năng xác định xu hướng. Kích thước cửa sổ lớn sẽ làm mịn dữ liệu hơn, trong khi kích thước cửa sổ nhỏ hơn sẽ giữ lại các biến động nhỏ hơn. Moving Average là một công cụ đơn giản và phổ biến của Data Analysis trong Excel để xác định xu hướng và làm mịn dữ liệu chuỗi thời gian.
Trong Data Analysis, Random Number Generator (RNG) được sử dụng để tạo ra các số ngẫu nhiên có phân phối đồng nhất hoặc theo phân phối xác định. Excel cung cấp một số hàm tích hợp để thực hiện quá trình RNG. Random Number Generator của Data Analysis dựa trên một thuật toán sinh số ngẫu nhiên, không phải là số ngẫu nhiên thực sự.
Khi tính toán lại công thức hoặc thay đổi dữ liệu, các số ngẫu nhiên sẽ được tạo lại. Nếu bạn muốn tạo số ngẫu nhiên thực sự, có thể cần sử dụng các công cụ hoặc ngôn ngữ lập trình khác ngoài Excel.
Đối với Data Analysis của Excel, Rank và Percentile là hai chức năng quan trọng để phân loại dữ liệu và tính phân vị. Đối với Rank, chức năng này xếp hạng các giá trị dựa trên thứ tự sắp xếp của chúng trong dãy dữ liệu. Nếu có các giá trị bằng nhau, nó sẽ sử dụng phương pháp xếp hạng "giống nhau như nhau, sau đó nhảy số" (phương pháp Standard).
Chức năng Percentile trong Excel tính phân vị cho một tập giá trị dữ liệu. Chức năng này cũng tính phân vị dựa trên phương pháp xếp hạng "giống nhau như nhau, sau đó nhảy số".
Công cụ hồi quy (regression) của Data Analysis là một công cụ mạnh mẽ để dự đoán giá trị dựa trên các biến độc lập. Bằng cách sử dụng phân tích hồi quy trong Excel, bạn có thể tạo ra mô hình dự đoán dựa trên dữ liệu mẫu có sẵn. Kết quả của phân tích hồi quy sẽ hiển thị trong một bảng, bao gồm các hệ số hồi quy, giá trị t-statistic, giá trị p-value và các thống kê khác.
Sampling (mẫu) là quá trình chọn một phần nhỏ từ toàn bộ tập dữ liệu để đại diện cho dữ liệu ban đầu. Mục đích của việc sử dụng Sampling là tiết kiệm thời gian và công sức khi phân tích dữ liệu lớn, đồng thời đảm bảo tính đại diện và độ chính xác của kết quả.
Khi sử dụng Sampling, điều kiện quan trọng để đảm bảo tính đại diện của mẫu là mẫu đó phải được chọn ngẫu nhiên và đại diện cho toàn bộ tập dữ liệu để đưa ra kết quả phân tích chính xác và có có giá trị sử dụng.
t-Test: Paired Two Sample for Means của Data Analysis trong Excel là một phép kiểm định thống kê được sử dụng để so sánh trung bình của hai mẫu liên quan (paired samples). Đây là một phương pháp phổ biến để xác định xem có sự khác biệt đáng kể giữa hai trung bình của hai biến liên quan hay không.
Trong Data Analysis của Excel, t-Test: Two-Sample Assuming Equal Variances được sử dụng để so sánh trung bình của hai nhóm dữ liệu độc lập nhau. Đây là một phương pháp thống kê để xác định xem có sự khác biệt ý nghĩa giữa hai nhóm dữ liệu hay không.
Kết quả của t-Test trong Excel sẽ cung cấp các giá trị thống kê như giá trị t, giá trị p (p-value), và các thông số khác để đánh giá sự khác biệt ý nghĩa giữa hai nhóm dữ liệu.
t-Test Two-Sample Assuming Unequal Variances của Data Analysis trong Excel là một công cụ thống kê được sử dụng để so sánh trung bình của hai nhóm dữ liệu độc lập khác nhau, giả định rằng phương sai của hai nhóm không bằng nhau. Phương pháp này dựa trên phân phối t-student để xác định xem sự khác biệt giữa hai trung bình có ý nghĩa thống kê hay không.
Để sử dụng công cụ này trong Excel, bạn cần có hai tập dữ liệu tương ứng với hai nhóm cần so sánh. Kết quả của t-Test sẽ được hiển thị, bao gồm giá trị p-value, ước lượng trung bình của từng nhóm và độ tin cậy của kết quả.
z-Test: Two Sample for Means trong Data Analysis của Excel là một phương pháp thống kê được sử dụng để so sánh hai mẫu độc lập với nhau và kiểm tra xem có sự khác biệt ý nghĩa giữa hai giá trị trung bình của chúng hay không.
Công cụ z-Test: Two Sample for Means thực hiện kiểm định giả thuyết với giả định rằng hai mẫu tuân theo phân phối chuẩn và có phương sai đã biết. Nó được sử dụng khi chúng ta muốn xác định xem sự khác biệt giữa hai mẫu có phải là ngẫu nhiên hay không, và có ý nghĩa thống kê hay không.
Như vậy, bài viết trên đã hướng dẫn cho bạn cách tìm Data Analysis ở đâu trong Excel và hướng dẫn thêm công cụ này để chạy phân tich dữ liệu. Hy vọng những chia sẽ trên sẽ hữu ích cho bạn trong quá trình theo đuổi ngành Data Analyst. Chúc bạn thành công!
Nếu bạn là người mới bắt đầu, muốn học phân tích dữ liệu để chuyển ngành hoặc muốn ứng dụng các kỹ năng xử lý dữ liệu để ứng dụng vào công việc chuyên môn của mình, cùng tham khảo KHOÁ HỌC DATA ANALYST tại MindX, chỉ 6-8 tháng, đào tạo toàn diện kiến thức và kinh nghiệm làm dự án thực tế về Data Analysis.
Xem chi tiết lộ trình học tập TẠI ĐÂY.