Bài 4: Các số đo thể hiện độ biến động của dữ liệu

Khi phân tích, các nhà thống kê rất quan tâm đến một tiêu chí gọi là độ biến động (variability), hay độ rộng (spread) của tập dữ liệu. Những số đo phổ biến nhất để đo lường tiêu chí này là khoảng phần tư (IQR), phương sai (variance) và độ lệch chuẩn (standard deviation).

Khoảng giá trị (range)

Khoảng giá trị là sự chênh lệch giữa giá trị lớn nhất và giá trị nhỏ nhất trong một tập giá trị. Ví dụ, có dãy số sau: 1, 3, 4, 5, 5, 6, 7, 11. Đối với dãy này, khoảng giá trị là 11-1 (bằng 10).

Khoảng phần tư / Khoảng tứ phân vị (Interquartile Range)

Đây là thước đo dựa trên việc chia một tập dữ liệu thành 4 phần bằng nhau.

Ba điểm mốc chia tập dữ liệu thành 4 phần được ký hiệu lần lượt là Q1, Q2 và Q3.

Q1 là giá trị “ở giữa” của nửa đầu tập dữ liệu “đã được sắp xếp”
Q2 chính là trung vị của tập dữ liệu
Q3 là giá trị “ở giữa” của nửa cuối tập dữ liệu “đã được sắp xếp”

IQR là khoảng giữa Q1 và Q3.

Ví dụ, ta có dãy số sau: 1, 2, 3, 4, 5, 6, 7, 8.

Q2 là trung vị của toàn bộ tập dữ liệu. Trong ví dụ này, ta có tổng số giá trị là chẵn, vì vậy trung vị là trung bình của 2 giá trị ở giữa. Do đó Q2 = (4+5)/2 = 4,5. Q1 là giá trị chính giữa của nửa dữ liệu đầu tiên. Nửa dữ liệu đầu tiên có tổng số giá chị là chẵn nên Q1 là trung bình của 2 giá trị ở giữa, Q1 = (2+3)/2 = 2,5. Q3 là giá trị giữa của nửa dữ liệu thứ hai. Tương tự như Q1, Q3= (6+7)/2 = 6,5. IQR = Q3-Q1 = 6,5 – 2,5 = 4.

Phương sai (Variance)

Trong một tổng thể, phương sai là trung bình cộng của bình phương độ lệch của các giá trị so với trung bình của tổng thể. Phương sai được tính bằng công thức sau.

$\sigma^2 = \frac{\sum (X_i - \mu)^2}{N}$

Trong đó $\sigma^2$ là phương sai của tổng thể, $\mu$ là trung bình của tổng thể, $X_i$ là thành phần thứ $i$ của tổng thể, và $N$ là số thành phần của tổng thể.

Các quan sát từ một mẫu ngẫu nhiên có thể được sử dụng để ước lượng phương sai của tổng thể. Trong trường hợp này, công thức tính phương sai có sự khác biệt một chút so với công thức áp dụng cho Tổng thể.

$s^2 = \frac{\sum (x_i - \overline{x})^2}{n - 1}$

Trong đó $s^2$ là phương sai của mẫu, $\overline{x}$ là trung bình của mẫu, $x_i$ là phần tử thứ $i$ của mẫu, và $n$ là số thành phần của mẫu. Ta thấy, so với công thức phương sai của tổng thể, công thức này ta đã chia tổng thu được cho $n-1$ . Mục đích của việc này là nhằm tránh thành kiến trong việc đánh giá phương sai của tổng thể. Nếu bạn cần ước lượng phương sai của một tổng thể mà bạn không biết rõ số lượng mà chỉ có một mẫu ngẫu nhiên, thì đây là công thức bạn cần sử dụng.

Độ lệch chuẩn (standard deviation)

Độ lệch chuẩn là căn bậc hai của phương sai. Do đó, công thức của độ lệch chuẩn của tổng thể là:

$\sigma = \sqrt{ \frac{\sum (X_i - \mu)^2}{N}}$

Trong đó $\sigma$ là độ lệch chuẩn của của tổng thể, $\mu$ là trung bình của tổng thể. $X_i$ là phần tử thứ $i$ của tổng thể, và $N$ là số thành phần của tổng thể.

Tương tự, độ lệch chuẩn của mẫu được tính bằng công thức:

$s = \sqrt{\frac{\sum (x_i - \overline{x})^2}{n - 1}}$

Trong đó, $s$ là độ lệch chuẩn của mẫu, $\overline{x}$ là trung bình của mẫu, $x_i$ là thành phần thứ $i$ của mẫu, và $n$ là tổng số thành phần của mẫu

Tác động của việc thay đổi đơn vị

Đôi khi, các nhà nghiên cứu phải thay đổi đơn vị (phút sang giờ, feet thành mét …).

Nếu bạn cộng thêm một hằng số vào mỗi giá trị, khoảng cách giữa các giá trị không thay đổi. Kết quả là, tất cả các số đo độ biến động như (khoảng giá trị, khoảng phần tư, độ lệch chuẩn, và phương sai) vẫn giữ nguyên.
Nếu bạn nhân mỗi giá trị với một hằng số khoảng giá trị, khoảng phần tư, độ lệch chuẩn cũng được nhân với bấy nhiêu lần. Tuy nhiên phương sai bị tác động lớn hơn. Nó nhân phương sai với bình phương của hằng số đó.

3 responses

Nguyễn Duy Cường

02:05:13 | 06/05/20

Nhầm tè le giữa hai khái niệm phương sai mẫu và phương sai tổng thể (tương tự sẽ là nhầm về độ lệch chuẩn mẫu và tổng thể). Thật hết nói với những bài giảng thế này !!!!

1. Vũ Đạt
  
  09:05:30 | 07/05/20
  
  Mong bạn chỉ ra chỗ nhầm lẫn, để mình sửa.
  
Thủ

09:09:37 | 25/09/20

Hi bạn,
Chỉ là nhầm ký hiệu chứ không phải là khái niêm.
1. Phương sai của mẫu ngẫu nhiên không phải là S bình phương mà mà sigma bình phương
2. Tương tự, độ lệch chuẩn tổng thể không phải là sigma bình phương mà là S