Xác suất cơ bản
Chào các bạn độc giả! Mình là một sinh viên đang tìm hiểu sâu về lĩnh vực khoa học dữ liệu, và trong quá trình học tập, mình nhận thấy Xác suất (Probability) là một khái niệm cực kỳ quan trọng, là nền tảng cho rất nhiều lĩnh vực khác như thống kê, học máy hay trí tuệ nhân tạo. Tuy nhiên, việc nắm bắt toàn diện về các định nghĩa, quy tắc và cách ứng dụng của Xác suất không hề dễ dàng, nhất là với những người mới bắt đầu.
Chính vì vậy, mục đích của bài viết này là cung cấp một cái nhìn tổng quan, rõ ràng và dễ hiểu về Xác suất, dựa trên những gì tôi đã tổng hợp và nghiên cứu từ tài liệu của AI VIETNAM. Hy vọng rằng, thông qua đây, chúng ta có thể cùng nhau tiếp cận chủ đề này một cách hiệu quả hơn, từ đó thúc đẩy các nghiên cứu và ứng dụng trong lĩnh vực khoa học dữ liệu.
I. Giới thiệu tổng quan
Xác suất là một khái niệm cơ bản để đo lường khả năng xảy ra của một sự kiện. Trong cuộc sống hàng ngày, chúng ta thường xuyên đối mặt với những tình huống không chắc chắn, từ dự báo thời tiết, kết quả xổ số, cho đến quyết định đầu tư. Xác suất giúp chúng ta định lượng mức độ không chắc chắn đó, từ đó đưa ra những đánh giá và quyết định sáng suốt hơn.
Cụ thể hơn, trong lĩnh vực khoa học dữ liệu và học máy, xác suất đóng vai trò nền tảng. Các mô hình học máy thường xuyên sử dụng các khái niệm xác suất để dự đoán, phân loại và đưa ra quyết định. Ví dụ, trong bài toán phân loại email spam, chúng ta có thể sử dụng xác suất để ước tính khả năng một email là spam dựa trên các từ khóa mà nó chứa.
II. Thí nghiệm & Sự kiện
Để hiểu rõ hơn về xác suất, trước hết chúng ta cần nắm vững các khái niệm cơ bản về thí nghiệm và sự kiện.
Thí nghiệm (Experiment): Là việc thực hiện một tập hợp các điều kiện cơ bản để quan sát một hiện tượng nhất định. Ví dụ, tung một đồng xu là một thí nghiệm, hoặc lăn một con xúc xắc cũng là một thí nghiệm.
Kết quả (Outcome): Là một kết quả của một thí nghiệm. Khi tung đồng xu, kết quả có thể là sấp hoặc ngửa. Khi lăn xúc xắc, kết quả có thể là một số từ 1 đến 6.
Không gian mẫu (Sample Space - S hoặc Ω): Là tập hợp tất cả các kết quả có thể xảy ra của một thí nghiệm.
Ví dụ: Khi tung một đồng xu, không gian mẫu S = {sấp, ngửa}.
Ví dụ: Khi lăn một con xúc xắc, không gian mẫu S = {1, 2, 3, 4, 5, 6}.
Sự kiện (Event - A): Là một tập hợp con của không gian mẫu. Một sự kiện là một tập hợp các kết quả mà chúng ta quan tâm.
Ví dụ: Khi tung đồng xu, sự kiện "xuất hiện mặt sấp" là A = {sấp}.
Ví dụ: Khi lăn xúc xắc, sự kiện "số chẵn xuất hiện" là A = {2, 4, 6}.
III. Các phép toán trên Sự kiện
Trong xác suất, chúng ta có thể thực hiện các phép toán trên các sự kiện để tạo ra các sự kiện mới.
Giao của các sự kiện (Intersection of events - A ∩ B): Là sự kiện mà cả A và B cùng xảy ra.
Ví dụ: Trong thí nghiệm lăn một con xúc xắc:
Sự kiện A: "số lăn được là số chẵn" => A = {2, 4, 6}
Sự kiện B: "số lăn được chia hết cho 3" => B = {3, 6}
Giao của A và B (A ∩ B): "số lăn được là số chẵn và chia hết cho 3" => A ∩ B = {6}
Hợp của các sự kiện (Union of events - A ∪ B): Là sự kiện mà A xảy ra, hoặc B xảy ra, hoặc cả A và B cùng xảy ra.
Ví dụ: Trong thí nghiệm lăn một con xúc xắc:
Sự kiện A: "số lăn được là số chẵn" => A = {2, 4, 6}
Sự kiện B: "số lăn được chia hết cho 3" => B = {3, 6}
Hợp của A và B (A ∪ B): "số lăn được là số chẵn hoặc chia hết cho 3" => A ∪ B = {2, 3, 4, 6}
Phần bù của một sự kiện (Complement of an event - A' hoặc Aᶜ): Là tập hợp tất cả các kết quả trong không gian mẫu S mà không phải là phần tử của sự kiện A. Điều này tương ứng với việc phủ định mô tả bằng lời của sự kiện A.
A' ∪ A = Ω (tổng không gian mẫu)
Ví dụ: Khi lăn xúc xắc, sự kiện A: "số lăn được là 1 hoặc 6" => A = {1, 6}.
Phần bù của A (A'): "số lăn được khác 1 và 6" => A' = {2, 3, 4, 5}.
IV. Định nghĩa xác suất
Xác suất của một sự kiện là một con số từ 0 đến 1, cho biết khả năng xảy ra của sự kiện đó.
Xác suất cổ điển (Classical Probability):
Nếu tất cả các kết quả trong không gian mẫu đều có khả năng xảy ra như nhau, thì xác suất của một sự kiện A được tính bằng công thức:
Ví dụ: Xác suất lăn được số chẵn trên một con xúc xắc thông thường là bao nhiêu?
Không gian mẫu (Ω) = {1, 2, 3, 4, 5, 6} => n(Ω) = 6
Sự kiện A: "số chẵn" => A = {2, 4, 6} => n(A) = 3
Vậy, P(A) = 3/6 = 0.5
Xác suất hình học (Geometric Probability):
Trong những trường hợp không gian mẫu là một miền liên tục, xác suất có thể được tính dựa trên tỷ lệ kích thước của các miền.
Ví dụ 1 (1D): X là một số thực ngẫu nhiên từ 0 đến 3. Xác suất X gần 0 hơn là gần 1 là bao nhiêu?
Miền Ω: => Độ dài = 3
Miền A: X gần 0 hơn 1, tức là X < 0.5. Vậy miền A: [0, 0.5] => Độ dài = 0.5
P(A) = 0.5 / 3 = 1/6
Ví dụ 2 (2D): Một mũi tên được ném vào một bảng phi tiêu hình tròn sao cho nó rơi ngẫu nhiên trên diện tích bảng phi tiêu. Xác suất nó rơi gần tâm "thành công" hơn là gần cạnh là bao nhiêu?
Giả sử bán kính bảng phi tiêu là R. Diện tích bảng phi tiêu (Ω) = πR²
"Gần tâm hơn cạnh" có nghĩa là mũi tên rơi trong vòng tròn có bán kính R/2. Diện tích của miền A = π(R/2)² = πR²/4
P(A) = (πR²/4) / (πR²) = 1/4
V. Các quy tắc xác suất
Để tính toán xác suất của các sự kiện phức tạp hơn, chúng ta có một số quy tắc quan trọng.
Quy tắc cộng (Addition Rule):
Đối với sự kiện xung khắc (mutually exclusive events):
Nếu hai sự kiện A và B không thể xảy ra cùng lúc (nghĩa là A ∩ B = Ø), thì xác suất của hợp của chúng là tổng xác suất của từng sự kiện:
P(A ∪ B) = P(A) + P(B)Ví dụ: Khi lăn một con xúc xắc:
Sự kiện A: "số lăn được là số chẵn" => A = {2, 4, 6}
Sự kiện C: "số lăn được là số lẻ" => C = {1, 3, 5}
A và C là hai sự kiện xung khắc vì chúng không thể xảy ra cùng lúc (một số không thể vừa chẵn vừa lẻ).
P(A ∪ C) = P(A) + P(C) = 3/6 + 3/6 = 1/2 + 1/2 = 1. Đây là xác suất tổng của không gian mẫu, luôn bằng 1.
Đối với sự kiện bất kỳ:
Nếu A và B là hai sự kiện bất kỳ (có thể xảy ra cùng lúc), thì xác suất của hợp của chúng là:
P(A ∪ B) = P(A) + P(B) - P(A ∩ B)Ví dụ: Trong thí nghiệm lăn một con xúc xắc:
Sự kiện A: "số lăn được là số chẵn" => A = {2, 4, 6}
Sự kiện B: "số lăn được chia hết cho 3" => B = {3, 6}
Giao của A và B (A ∩ B) = {6}, P(A ∩ B) = 1/6
P(A ∪ B) = P(A) + P(B) - P(A ∩ B) = 3/6 + 2/6 - 1/6 = 4/6 = 2/3.
Kết quả này khớp với hợp A ∪ B = {2, 3, 4, 6} có 4 phần tử, nên xác suất là 4/6.
Xác suất có điều kiện (Conditional Probability):
Xác suất có điều kiện của sự kiện A khi biết sự kiện B đã xảy ra, ký hiệu là P(A|B), được tính bằng công thức:
P(A|B) = P(A ∩ B) / P(B) (với P(B) > 0)Ví dụ: Một hộp chứa 5 viên bi đỏ và 5 viên bi xanh. Lấy ngẫu nhiên 2 viên bi không hoàn lại.
Sự kiện A: "viên thứ hai là bi đỏ"
Sự kiện B: "viên thứ nhất là bi đỏ"
P(B) = 5/10 = 1/2 (xác suất lấy được bi đỏ ở lần 1)
P(A ∩ B): "cả hai viên đều là bi đỏ"
Xác suất lấy viên đỏ thứ nhất là 5/10.
Sau khi lấy một viên đỏ, còn lại 4 viên đỏ và 9 viên tổng cộng.
Xác suất lấy viên đỏ thứ hai (sau khi viên thứ nhất là đỏ) là 4/9.
P(A ∩ B) = (5/10) * (4/9) = 20/90 = 2/9
P(A|B) = P(A ∩ B) / P(B) = (2/9) / (1/2) = (2/9) * 2 = 4/9.
Sự kiện độc lập (Independent Events):
Hai sự kiện A và B được gọi là độc lập nếu việc xảy ra của sự kiện này không ảnh hưởng đến xác suất xảy ra của sự kiện kia.
Nếu A và B độc lập, thì:
P(A|B) = P(A)
P(B|A) = P(B)
P(A ∩ B) = P(A) * P(B) (Quy tắc nhân cho sự kiện độc lập)
Ví dụ: Tung hai đồng xu cùng lúc.
Sự kiện A: "đồng xu thứ nhất xuất hiện mặt sấp"
Sự kiện B: "đồng xu thứ hai xuất hiện mặt ngửa"
P(A) = 1/2, P(B) = 1/2
Vì kết quả của một đồng xu không ảnh hưởng đến đồng xu còn lại, A và B là độc lập.
P(A ∩ B) = P(A) * P(B) = (1/2) * (1/2) = 1/4.
VI. Định lý Bayes
Định lý Bayes là một công cụ mạnh mẽ trong xác suất và thống kê, cho phép chúng ta cập nhật xác suất của một giả thuyết khi có thêm bằng chứng. Nó đặc biệt hữu ích trong các lĩnh vực như học máy (ví dụ: bộ phân loại Bayes), lọc thư rác, chẩn đoán y tế, và nhiều ứng dụng khác.
Công thức của Định lý Bayes như sau:
P(A|B) = [P(B|A) * P(A)] / P(B)
Trong đó:
P(A|B): Xác suất hậu nghiệm (Posterior Probability) - xác suất của sự kiện A xảy ra, khi biết sự kiện B đã xảy ra. Đây là điều chúng ta muốn tính toán.
P(B|A): Xác suất khả năng (Likelihood) - xác suất của sự kiện B xảy ra, khi biết sự kiện A đã xảy ra.
P(A): Xác suất tiên nghiệm (Prior Probability) - xác suất ban đầu của sự kiện A xảy ra, trước khi có bất kỳ thông tin mới nào về B.
P(B): Xác suất bằng chứng (Marginal Probability) - xác suất của sự kiện B xảy ra. P(B) có thể được tính bằng công thức tổng xác suất: P(B) = P(B|A) * P(A) + P(B|A') * P(A').
Ví dụ: Giả sử một căn bệnh hiếm ảnh hưởng đến 1% dân số (P(Bệnh) = 0.01). Có một xét nghiệm chẩn đoán căn bệnh này với độ chính xác 90% (tức là P(Dương tính|Bệnh) = 0.9) và tỷ lệ dương tính giả là 5% (tức là P(Dương tính|Không bệnh) = 0.05).
Nếu một người có kết quả xét nghiệm dương tính, xác suất thực sự mắc bệnh của người đó là bao nhiêu? (P(Bệnh|Dương tính))
Áp dụng Định lý Bayes:
P(Bệnh|Dương tính) = [P(Dương tính|Bệnh) * P(Bệnh)] / P(Dương tính)
Để tính P(Dương tính), ta dùng công thức tổng xác suất:
P(Dương tính) = P(Dương tính|Bệnh) * P(Bệnh) + P(Dương tính|Không bệnh) * P(Không bệnh)
P(Không bệnh) = 1 - P(Bệnh) = 1 - 0.01 = 0.99
P(Dương tính) = (0.9 * 0.01) + (0.05 * 0.99)
Bây giờ, ta có thể tính P(Bệnh|Dương tính):
P(Bệnh|Dương tính) = (0.9 * 0.01) / 0.0585
= 0.009 / 0.0585
≈ 0.1538
Điều này có nghĩa là, ngay cả khi xét nghiệm dương tính, xác suất thực sự mắc bệnh của người đó chỉ khoảng 15.38%, một con số khá thấp so với trực giác ban đầu. Đây chính là sức mạnh của Định lý Bayes, giúp chúng ta nhìn nhận xác suất một cách thực tế hơn dựa trên thông tin có sẵn.
VII. Phân phối xác suất
Phân phối xác suất mô tả cách xác suất được phân bổ cho các giá trị
có thể có của một biến ngẫu nhiên. Chúng ta thường phân loại phân phối xác suất thành hai loại chính: rời rạc và liên tục.
Biến ngẫu nhiên rời rạc (Discrete Random Variable): Là biến ngẫu nhiên mà các giá trị có thể có của nó là hữu hạn hoặc đếm được. Xác suất của mỗi giá trị cụ thể được xác định.
Phân phối Bernoulli: Mô tả kết quả của một thí nghiệm chỉ có hai kết quả có thể (thành công hoặc thất bại), với xác suất thành công là p. Ví dụ: tung một đồng xu (sấp hoặc ngửa).
Phân phối nhị thức (Binomial Distribution): Mô tả số lần thành công trong một chuỗi n thí nghiệm Bernoulli độc lập. Ví dụ: số mặt sấp khi tung đồng xu 10 lần.
Phân phối Poisson: Mô tả số lần một sự kiện xảy ra trong một khoảng thời gian hoặc không gian cố định, khi các sự kiện đó xảy ra với tốc độ trung bình không đổi và độc lập với nhau. Ví dụ: số cuộc gọi đến tổng đài trong một giờ.
Biến ngẫu nhiên liên tục (Continuous Random Variable): Là biến ngẫu nhiên có thể nhận bất kỳ giá trị nào trong một khoảng liên tục. Thay vì xác định xác suất cho từng giá trị cụ thể, chúng ta sử dụng hàm mật độ xác suất (PDF) để mô tả khả năng biến ngẫu nhiên rơi vào một khoảng giá trị nhất định.
Phân phối đều (Uniform Distribution): Mô tả một biến ngẫu nhiên mà mọi giá trị trong một khoảng nhất định đều có xác suất xảy ra như nhau. Ví dụ: thời gian chờ xe buýt nếu bạn không biết lịch trình.
Phân phối chuẩn (Normal Distribution / Gaussian Distribution): Là một trong những phân phối quan trọng và phổ biến nhất trong thống kê, được đặc trưng bởi hình dạng đối xứng, hình chuông. Nó mô tả nhiều hiện tượng tự nhiên và xã hội (ví dụ: chiều cao con người, lỗi đo lường).
Hàm mật độ xác suất của phân phối chuẩn là:
Quy tắc 68-95-99.7:
Khoảng 68% dữ liệu nằm trong 1 độ lệch chuẩn (μ ± σ).
Khoảng 95% dữ liệu nằm trong 2 độ lệch chuẩn (μ ± 2σ).
Khoảng 99.7% dữ liệu nằm trong 3 độ lệch chuẩn (μ ± 3σ).
Phân phối mũ (Exponential Distribution): Mô tả thời gian giữa các sự kiện trong một quá trình Poisson, tức là thời gian chờ đợi cho đến khi sự kiện tiếp theo xảy ra. Ví dụ: thời gian chờ đợi giữa hai cuộc gọi điện thoại liên tiếp.
VIII. Kỳ vọng và Phương sai
Kỳ vọng và Phương sai là hai đại lượng thống kê quan trọng để mô tả các đặc điểm của một biến ngẫu nhiên.
Kỳ vọng (Expected Value - E[X] hoặc μ):
Là giá trị trung bình hoặc giá trị dự kiến của một biến ngẫu nhiên trong dài hạn. Nó đại diện cho giá trị trung tâm của phân phối.
Đối với biến ngẫu nhiên rời rạc:
Ví dụ: Khi tung một con xúc xắc cân bằng, kỳ vọng là:
Đối với biến ngẫu nhiên liên tục:
Phương sai (Variance - Var(X) hoặc σ²):
Đo lường mức độ phân tán hoặc biến động của các giá trị của biến ngẫu nhiên quanh giá trị kỳ vọng của nó. Phương sai càng lớn, dữ liệu càng phân tán rộng.
Công thức:
Độ lệch chuẩn (Standard Deviation - σ): Là căn bậc hai của phương sai, được dùng để đưa độ phân tán về cùng đơn vị với biến ngẫu nhiên, dễ giải thích hơn.
Ví dụ: Tiếp tục với ví dụ lăn xúc xắc (E[X] = 3.5)
E[X²] = (1²*1/6) + (2²*1/6) + (3²*1/6) + (4²*1/6) + (5²*1/6) + (6²*1/6)
Var(X) = E[X²] - (E[X])² = 91/6 - (3.5)² = 91/6 - 12.25 = 91/6 - 49/4 = 182/12 - 147/12 = 35/12 ≈ 2.92
Độ lệch chuẩn σ = sqrt(35/12) ≈ 1.71
Kết luận
Qua bài viết này, mình hy vọng các bạn đã có cái nhìn tổng quan và hệ thống về các khái niệm cơ bản trong Xác suất, từ định nghĩa sự kiện, các phép toán trên sự kiện, cách tính xác suất, cho đến những quy tắc quan trọng như Định lý Bayes và các loại phân phối xác suất phổ biến. Mình cũng đã trình bày về Kỳ vọng và Phương sai, hai chỉ số không thể thiếu khi phân tích dữ liệu.
Xác suất không chỉ là một môn học khô khan trên lý thuyết mà còn là một công cụ cực kỳ mạnh mẽ, áp dụng rộng rãi trong rất nhiều lĩnh vực, đặc biệt là khoa học dữ liệu. Việc nắm vững các khái niệm này sẽ là nền tảng vững chắc để các bạn tiếp tục khám phá sâu hơn về thống kê suy luận, học máy và trí tuệ nhân tạo. Chúc các bạn học tốt và có nhiều niềm vui với Xác suất!
Nhận xét
Đăng nhận xét