Statistics 01: Population Mean & Sample Mean

Phân Tích Về Trung Bình Tổng Thể, Trung Bình Mẫu và Vấn Đề Ước Lượng Phương Sai

I. Giới thiệu tổng quan

Trong quá trình nghiên cứu và ứng dụng thống kê, một trong những khái niệm nền tảng là sự phân biệt giữa tổng thể (population) và mẫu (sample). Từ đó, một câu hỏi thường gặp gây ra nhiều nhầm lẫn là công thức tính phương sai mẫu (sample variance). Cụ thể, tại sao mẫu số của công thức này lại là n-1 thay vì n? Sự điều chỉnh này không phải là ngẫu nhiên mà là một hiệu chỉnh quan trọng trong thống kê suy luận.

Mục đích của bài viết này là cung cấp một lời giải thích có hệ thống và logic cho việc sử dụng n-1, dựa trên các khái niệm về ước lượng và bậc tự do. Toàn bộ nội dung và trình tự lập luận được tham khảo và diễn giải từ tài liệu bài giảng của AIVietnam [1], nhằm làm rõ bản chất toán học đằng sau công thức và giúp người đọc hiểu được tại sao sự hiệu chỉnh này là cần thiết để có được một ước lượng không chệch cho phương sai tổng thể.

II. Tổng thể và Mẫu (Population and Sample)

Để hiểu được vấn đề, trước hết cần làm rõ hai khái niệm cơ bản: Tổng thể (Population)Mẫu (Sample).

Tổng thể là toàn bộ tập hợp các đối tượng hoặc sự kiện mà chúng ta quan tâm nghiên cứu. Ví dụ, nếu một nhà khoa học muốn nghiên cứu cân nặng của chuột trong một phòng thí nghiệm, thì tổng thể ở đây là toàn bộ 200,000 con chuột trong phòng đó.[1] Các tham số mô tả tổng thể được gọi là tham số tổng thể (population parameters). Các tham số quan trọng bao gồm:

  • Trung bình tổng thể (μ): Giá trị trung bình thực sự của toàn bộ tổng thể.

    μ = (1/N) * Σ(xᵢ)

    Trong đó N là kích thước tổng thể.

  • Phương sai tổng thể (σ²): Đo lường độ phân tán thực sự của dữ liệu quanh trung bình tổng thể μ.[1]

    σ² = (1/N) * Σ(xᵢ - μ)²

Trên thực tế, việc thu thập dữ liệu từ toàn bộ tổng thể thường rất tốn kém về thời gian, chi phí và đôi khi là bất khả thi.[1] Do đó, các nhà nghiên cứu thường làm việc với một Mẫu (Sample), là một tập con được lấy ra từ tổng thể. Ví dụ, thay vì đo cả 200,000 con chuột, ta chỉ lấy ngẫu nhiên 5 con để đo lường.[1] Các giá trị tính toán từ mẫu được gọi là thống kê mẫu (sample statistics), chẳng hạn như Trung bình mẫu (x̄).

III. Vấn đề trong việc ước lượng phương sai

Trung bình mẫu x̄ là một ước lượng không chệch (unbiased estimator) cho trung bình tổng thể μ. Tuy nhiên, khi ta cố gắng ước lượng phương sai tổng thể σ² bằng công thức tương tự một cách ngây thơ, vấn đề sẽ nảy sinh. Công thức ước lượng ban đầu:

Phương sai mẫu (ước lượng ban đầu) = (1/n) * Σ(xᵢ - x̄)²

Công thức này tạo ra một ước lượng chệch (biased estimator). Cụ thể hơn, nó có xu hướng luôn ước lượng thấp hơn giá trị thực của phương sai tổng thể (σ²).[1] Nguyên nhân của sự chệch này nằm ở một thuộc tính toán học cơ bản: tổng bình phương các độ lệch của các điểm dữ liệu trong mẫu so với trung bình mẫu (x̄) luôn nhỏ hơn hoặc bằng tổng bình phương các độ lệch của chúng so với bất kỳ một hằng số nào khác, bao gồm cả trung bình tổng thể μ.[1]

IV. Bậc tự do và công thức điều chỉnh

Để khắc phục sự chệch có hệ thống này, chúng ta cần đến một khái niệm là Bậc tự do (Degrees of Freedom - DoF). Bậc tự do được định nghĩa là số lượng giá trị trong một phép tính thống kê có thể tự do biến thiên.[1]

Khi tính toán trung bình mẫu x̄ từ n giá trị, chúng ta đã áp đặt một ràng buộc lên dữ liệu. Một khi giá trị x̄ đã được xác định, các giá trị trong mẫu không còn hoàn toàn độc lập với nhau nữa. Ví dụ, nếu một mẫu có 3 giá trị {4, 5, ?} và ta biết rằng trung bình mẫu x̄ = 5, thì giá trị cuối cùng không còn "tự do" nữa, nó bắt buộc phải là 6.[1] Như vậy, việc ước lượng μ bằng x̄ đã làm chúng ta mất đi một bậc tự do. Số lượng thông tin độc lập thực sự để đo lường sự biến thiên trong mẫu chỉ còn lại là n-1.

Do đó, để có được một ước lượng không chệch, chúng ta phải chia cho số bậc tự do thực sự của nó. Điều này dẫn đến công thức phương sai mẫu không chệch (unbiased sample variance), ký hiệu là s²:

s² = (1/(n-1)) * Σ(xᵢ - x̄)²

Đây là ước lượng tốt nhất cho phương sai tổng thể σ² khi chỉ sử dụng dữ liệu từ mẫu.[1]

V. Tổng kết và Trải nghiệm Tương tác

Tóm lại, việc sử dụng n-1 trong công thức phương sai mẫu là một sự điều chỉnh cần thiết để bù đắp cho việc mất đi một bậc tự do khi ước lượng trung bình, qua đó tạo ra một ước lượng không chệch và đáng tin cậy hơn cho phương sai của tổng thể.

Để giúp các bạn có thể cảm nhận và "thấy" được những khái niệm này một cách trực quan nhất, mình đã xây dựng một trang web mô phỏng tương tác. Tại đây, bạn có thể tự tay lấy các mẫu có kích thước khác nhau từ một tổng thể lớn và quan sát xem trung bình mẫu và phương sai mẫu thay đổi như thế nào.

Hãy truy cập và tự mình khám phá tại đây:

Trải nghiệm Mô phỏng Tương tác

Hy vọng rằng, thông qua cả bài viết phân tích và công cụ mô phỏng, các bạn đã có một cái nhìn rõ ràng và thú vị hơn về một trong những khái niệm nền tảng của thống kê!

Nhận xét

Bài đăng phổ biến từ blog này

Statistics 02: Correlation, Covariance & Correlation Coefficient

Tư Duy Logic và Giải Quyết Vấn Đề trong AI/Data Science

Kết Nối MongoDB Với VSCode: Hướng Dẫn Tận Tình Cho Người Mới Bắt Đầu - 1