Bài 6: Kiểm định giả thuyết thống kê

Một giả thuyết thống kê (statistical hypothesis) là một giả định về một tham số của tổng thể (population parameter). Giả định này có thể đúng hoặc không đúng. Kiểm định giả thuyết là tập hợp các bước mà nhà thống kê sử dụng để chấp nhận hay bác bỏ các giả thuyết thống kê.

Phân loại giả thuyết thống kê

Cách tốt nhất để quyết định xem một giả thuyết thống kê đúng hay không là xem xét toàn bộ tổng thể. Trong hầu hết trường hợp, điều này không khả thi nên các nhà nghiên cứu thường nghiên cứu một mẫu ngẫu nhiên từ một tổng thể. Nếu kết quả thu được không khớp với giả thuyết thống kê, thì giả thuyết bị bác bỏ.

Có 2 loại giả thuyết thống kê.

Giả thuyết không (null hypothesis): được ký hiệu là H₀, thường là những giả thuyết được rút ra từ xác suất thuần túy.
Giả thuyết nghịch (alternative hypothesis): được ký hiệu là H₁hoặc H_a, là những giả thuyết cho rằng các quan sát mẫu bị ảnh hưởng bởi một số yếu tố phi ngẫu nhiên.

Ví dụ, giả sử chúng ta muốn quyết định xem liệu một đồng tiền xu có đồng chất và cân đối hay không. Một giả thuyết không có thể là Một nửa số lần tung sẽ ra mặt sấp, một nửa số lần còn lại sẽ ra mặt ngửa. Giả thuyết nghịch có thể là Số lần xuất hiện mặt sấp và mặt ngửa sẽ rất khác nhau.

Chúng ta ký hiệu như sau:

H₀: P = 0.5

H_a: P ≠ 0.5

Giả sử chúng ta tung đồng xu 50 lần, 40 lần xuất hiện mặt ngửa, 10 lần xuất hiện mặt sấp. Nếu thu được kết quả này, chúng ta sẽ nghiêng về hướng để bác bỏ giả thuyết không. Chúng ta có thể đưa ra kết luận, dựa trên bằng chứng thu được, đồng xu có thể không đồng chất và mất cân đối.

Chúng ta có thể chấp nhận giả thuyết không?

Một số nhà nghiên cứu nói rằng một bài kiểm định giả thuyết có thể có một trong hai kết quả: chấp nhận giả thuyết không hoặc bác bỏ giả thuyết không. Nhiều nhà thống kê lại dè chừng hơn trong việc dùng cụm từ “chấp nhận giả thuyết không”. Thay vào đó, họ nói: bác bỏ giả thuyết không hoặc thất bại trong việc bác bỏ giả thuyết không.

Tại sao lại có sự phân biệt giữa “chấp nhận” và “thất bại trong việc bác bỏ”? Chấp nhận ngụ ý rằng giả thuyết không là đúng. Thất bại trong việc bác bỏ ngụ ý rằng dữ liệu ta có không đủ thuyết phục để chúng ta chọn giả thuyết nghịch thay thế cho giả thuyết không.

Quy trình kiểm định một giả thuyết thống kê.

Các nhà thống kê tuân theo một quá trình chuẩn mực để đưa ra quyết định bác bỏ một giả thuyết không hay không, dựa trên một dữ liệu mẫu. Quá trình này gọi là kiểm định giả thuyết (hypothesis testing), bao gồm 4 bước sau đây:

Đặt ra các giả thuyết. Công việc của bước này là chỉ ra đâu là giả thuyết không, đâu là giả thuyết nghịch. Các giả thuyết được đặt ra theo cách loại trừ lẫn nhau. Đó là, nếu cái này đúng thì cái kia phải sai.
Xây dựng một kế hoạch phân tích. Kế hoạch phân tích mô tả cách sử dụng dữ liệu mẫu ra sao để đánh giá giả thuyết không. Đánh giá thường tập trung xung quanh một thống kê mẫu đơn (single test statistic).
Phân tích dữ liệu mẫu. Tìm các giá trị của thống kê mẫu (trung bình, tỉ lệ, t-statistic, z-score…) được mô tả trong kế hoạch phân tích.
Đọc hiểu kết quả. Áp dụng các quy tắc quyết định được mô tả trong kế hoạch phân tích. Nếu kết quả thu được không khớp với giả thuyết không thì bác bỏ giả thuyết này.

Các kiểu lỗi khi đưa ra quyết định

Lỗi loại 1 (Type I error). Lỗi loại 1 xảy ra khi các nhà nghiên cứu bác bỏ một giả thuyết không trong khi nó đúng. Xác xuất gặp phải lỗi loại 1 được gọi là mức ý nghĩa (significance level). Xác suất này cũng được gọi là alpha, thường đc ký hiệu là α
Lỗi loại 2 (Type II error). Lỗi loại 2 xảy ra khi các nhà nghiên cứu thất bại trong việc bác bỏ một giả thuyết không trong khi nó sai. Xác suất mắc phải lỗi loại 2 được gọi là Beta, đc khý hiệu là β. Xác xuất của việc không mắc lỗi loại 2 được gọi là Power của bài test.

Các quy tắc đưa ra quyết định.

Để đưa ra được quyết đinh bác bỏ giả thuyết không, các nhà thống kê cần dựa vào những quy tắc nhất định. Những quy tắc này được liệt kê trong kế hoạch phân. Theo thông lệ, các nhà thống kê mô tả những quy tắc quyết định này theo 2 cách – tham chiếu tới một giá trị P-value hoặc tham chiếu tới vùng chấp nhận (region of acceptance).

P-value. Sức mạnh của bằng chứng trong việc hỗ trợ một giả thuyết không được đo bằng P-value. Giả sử thống kê kiểm định bằng S. P-value là xác suất của việc quan sát một thống kê kiểm định as extreme as A, giả sử, giả thuyết null là đúng. Nếu giá trị P-value nhỏ hơn mức ý nghĩa, chúng ta bác bỏ giả thuyết không.
Vùng chấp nhận (region of acceptance). Vùng chấp nhận là một dãy giá trị. Nếu bài thống kê mẫu nằm trong khu vực chấp nhận, giả thuyết không không bị bác bỏ. Vùng chấp nhận được xác định cốt để xác suất mắc lỗi loại 1 tương đương với mức ý nghĩa.

Tập giá trị nằm ngoài khu vực chấp nhận được gọi là khu vực bác bỏ. Nếu thống kê mẫu nằm trong khu vực bác bỏ, giả thuyết không bị bác bỏ. Trong những trường hợp này, chúng ta nói rằng, giả thuyết đã bị bác bỏ ở mức ý nghĩa α.

Những cách tiếp cận này tương đương nhau. Một số tài liệu thống kê sử dụng cách tiếp cận P-value, một số khác sử dụng vùng chấp nhận. Trong website này, chúng tôi sử dụng cách tiếp cận vùng chấp nhận.

Bài kiểm định một đuôi và hai đuôi.

Nếu một bài kiểm định giả thuyết thống kê có vùng bác bỏ chỉ là một bên của phân phối mẫu thì được gọi là kiểm định một đuôi (one-tailed test). Ví dụ, giả sử giả thuyết không chỉ ra rằng trung bình nhỏ hơn hoặc bằng 10. Giả thuyết nghịch sẽ là trung bình lớn hơn 10. Vùng bác bỏ sẽ bao gồm dãy số ở phía bên phải của phân phối mẫu, đó là, dãy các số lớn hơn 10.

Nếu một bài kiểm định giả thuyết thống kê có vùng bác bỏ ở cả hai bên của phân phối mẫu thì được gọi là bài kiểm định hai đuôi (two-tailed test). Ví dụ, giả sử giả thuyết không chỉ ra rằng trung bình bằng 10. Giả thuyết nghịch sẽ là trung bình nhỏ hơn 10 hoặc lớn hơn 10. Vùng bác bỏ bao gồm các số ở cả 2 phía của phân phối mẫu, đó là vùng dãy các số nhỏ hơn 10 và lớn hơn 10

2 responses

Ly

03:05:02 | 03/05/19

Chào bạn, bạn có thể cho mình hỏi nếu người ta standardize dữ liệu bằng độ lệch chuẩn thì sẽ có ý nghĩa gì? Và tại sao người ta lại làm vậy?

Mong hồi âm của bạn.

1. datvimaru50
  
  05:05:44 | 04/05/19
  
  Ý nghĩa của độ lệch chuẩn là để đánh giá độ biến động của dữ liệu so với giá trị trung bình của tập dữ liệu đó. Mình chưa hiểu ý bạn, standardize dữ liệu bằng độ lệch chuẩn là thế nào?