Statistics 02: Correlation, Covariance & Correlation Coefficient

Đo Lường Mối Quan Hệ: Từ Covariance đến Correlation Coefficient

I. Giới thiệu: Tại sao cần đo lường mối quan hệ?

Trong phân tích dữ liệu, việc hiểu từng biến riêng lẻ là quan trọng, nhưng sức mạnh thực sự thường đến từ việc khám phá mối quan hệ giữa các biến với nhau. Khi một biến thay đổi, liệu có một biến khác cũng thay đổi theo một quy luật nào đó không? Chúng di chuyển cùng chiều, ngược chiều, hay hoàn toàn không liên quan đến nhau?

Việc trả lời những câu hỏi này là cực kỳ cần thiết. Ví dụ, một nhà kinh tế muốn biết mối quan hệ giữa chi tiêu quảng cáo và doanh thu. Một nhà khoa học sức khỏe lại quan tâm đến mối liên hệ giữa số giờ ngủ và hiệu suất nhận thức. Như hình ảnh dưới đây minh họa, mối quan hệ này có thể là tương quan thuận (khi X tăng, Y tăng), tương quan nghịch (khi X tăng, Y giảm), hoặc một mối quan hệ phức tạp hơn.[1]



Minh họa các dạng tương quan giữa hai biến X và Y.

Để định lượng hóa mối quan hệ này, các nhà thống kê đã phát triển các công cụ đo lường. Trong bài viết này, chúng ta sẽ khám phá hai trong số các công cụ quan trọng nhất: Hiệp phương sai (Covariance)Hệ số tương quan (Correlation Coefficient).

II. Covariance - Nỗ lực đầu tiên và những hạn chế

Giải pháp đầu tiên để đo lường xem hai biến di chuyển cùng nhau như thế nào là Covariance. Về cơ bản, Covariance cho chúng ta biết chiều hướng của mối quan hệ tuyến tính giữa hai biến.

  • Nếu Covariance > 0: Hai biến có xu hướng di chuyển cùng chiều (khi một biến tăng, biến kia cũng có xu hướng tăng).
  • Nếu Covariance < 0: Hai biến có xu hướng di chuyển ngược chiều (khi một biến tăng, biến kia có xu hướng giảm).
  • Nếu Covariance = 0: Không có mối quan hệ tuyến tính nào giữa hai biến.

Tuy nhiên, Covariance có một nhược điểm rất lớn: giá trị của nó không được chuẩn hóa. Nó có thể chạy từ âm vô cùng đến dương vô cùng. Một giá trị Covariance là 100 không có nghĩa là mối quan hệ mạnh gấp đôi một giá trị là 50. Chúng ta chỉ biết được chiều hướng (dương hoặc âm) chứ rất khó để so sánh độ mạnh yếu của mối quan hệ giữa các cặp dữ liệu khác nhau.[1]

Hơn nữa, Covariance cực kỳ nhạy cảm với đơn vị đo (scale) của dữ liệu. Hãy xem ví dụ dưới đây. Ở ảnh bên trái, chúng ta có một bộ dữ liệu và tính ra Covariance là 86.8. Ở ảnh bên phải, chúng ta chỉ đơn giản là nhân đôi tất cả các giá trị trong bộ dữ liệu đó, mối quan hệ tương đối giữa các điểm không hề thay đổi. Tuy nhiên, giá trị Covariance đã tăng vọt lên 347.2, gấp 4 lần giá trị ban đầu.[1]



Covariance = 86.8



Covariance = 347.2

Sự nhạy cảm với đơn vị đo này làm cho Covariance trở thành một công cụ khó diễn giải và so sánh. Chúng ta cần một giải pháp tốt hơn, một thước đo đã được chuẩn hóa.

III. Correlation Coefficient - Giải pháp chuẩn hóa

Để giải quyết các vấn đề của Covariance, các nhà thống kê đã phát triển Hệ số tương quan (Correlation Coefficient). Về bản chất, hệ số tương quan là một phiên bản "chuẩn hóa" của Covariance. Nó lấy giá trị Covariance và chia cho tích độ lệch chuẩn của hai biến.

Có nhiều loại hệ số tương quan khác nhau để đo lường các loại quan hệ khác nhau (phi tuyến, thứ bậc,...). 



Trong phạm vi bài viết này, khi nói về mối quan hệ tuyến tính, chúng ta sẽ tập trung vào loại phổ biến nhất: Hệ số tương quan Pearson (Pearson's r).[1]

ρ(X,Y) = Cov(X,Y) / (σ_X * σ_Y)

Phép chia này đã loại bỏ hoàn toàn ảnh hưởng của đơn vị đo và đưa giá trị tương quan vào một khoảng cố định rất đẹp: từ -1 đến +1.

  • +1: Tương quan thuận tuyến tính hoàn hảo.
  • -1: Tương quan nghịch tuyến tính hoàn hảo.
  • 0: Không có mối quan hệ tuyến tính.
  • Các giá trị giữa 0 và 1 (hoặc -1) cho biết độ mạnh của mối quan hệ (ví dụ: 0.9 là tương quan thuận rất mạnh, trong khi 0.2 là tương quan thuận yếu).

Nhờ vào khoảng giá trị cố định này, hệ số tương quan Pearson trở thành một công cụ cực kỳ mạnh mẽ và dễ diễn giải. Chúng ta có thể so sánh độ mạnh của mối quan hệ giữa "chiều cao và cân nặng" với "số giờ học và điểm thi" một cách công bằng, điều mà Covariance không thể làm được.

Tính chất quan trọng của Hệ số tương quan Pearson (Pearson's r).


IV. Tổng kết và Trải nghiệm Tương tác

Tóm lại, trong khi Covariance cho chúng ta biết chiều hướng của mối quan hệ, nó lại bị hạn chế bởi sự nhạy cảm với đơn vị đo. Hệ số tương quan Pearson đã giải quyết vấn đề này bằng cách chuẩn hóa giá trị, cho chúng ta một thước đo phổ quát (từ -1 đến 1) để đánh giá cả chiều hướng và độ mạnh của một mối quan hệ tuyến tính.

Để giúp các bạn có thể cảm nhận và "thấy" được những khái niệm này một cách trực quan nhất, mình đã xây dựng một trang web mô phỏng tương tác. Tại đây, bạn có thể tự tay thay đổi các điểm dữ liệu và quan sát xem giá trị Covariance và Correlation Coefficient thay đổi như thế nào.

Hãy truy cập và tự mình khám phá tại đây:

Trải nghiệm Mô phỏng Tương tác

Hy vọng rằng, thông qua cả bài viết phân tích và công cụ mô phỏng, các bạn đã có một cái nhìn rõ ràng và thú vị hơn về cách chúng ta định lượng hóa mối quan hệ trong dữ liệu!

Nhận xét

Bài đăng phổ biến từ blog này

Kết Nối MongoDB Với VSCode: Hướng Dẫn Tận Tình Cho Người Mới Bắt Đầu - 1

Tư Duy Logic và Giải Quyết Vấn Đề trong AI/Data Science