GIẢI THÍCH CÁC DỮ LIỆU THỐNG KÊ - KIỂM NGHIỆM SAI LỆCH SO VỚI PHÂN BỐ CHUẨN
Statistical interpretation ofdata - Tests for departure from the normal distribution
Lời nói đầu
TCVN 9603:2013 hoàn toàn tương đương với ISO 5479:1997;
TCVN 9603:2013 do Ban kỹ thuật tiêu chuẩn quốc gia TCVN/TC 69 Ứng dụng các phương pháp thống kê biên soạn, Tổng cục Tiêu chuẩn Đo lường Chất lượng đề nghị, Bộ Khoa học và Công nghệ công bố.
Lời giới thiệu
Nhiều phương pháp thống kê được khuyến nghị trong tiêu chuẩn này, như các phương pháp mô tả trong ISO 2854 [1], đều dựa trên giả định rằng (các) biến ngẫu nhiên áp dụng với các phương pháp này là độc lập có phân bố chuẩn với một hoặc cả hai tham số chưa biết.
Do đó nảy sinh câu hỏi sau đây. Phân bố thể hiện bởi mẫu đủ gần với phân bố chuẩn để có thể sử dụng một cách tin cậy các phương pháp trong tiêu chuẩn này không?
Không có câu trả lời đơn giản là có hoặc không cho câu hỏi này có hiệu lực trong mọi trường hợp. Vì lý do này, nhiều “kiểm nghiệm tính chuẩn” đã được xây dựng, mỗi phép kiểm nghiệm ít nhiều nhạy với đặc trưng cụ thể của phân bố được xem xét; ví dụ như độ bất đối xứng hay độ nhọn.
Nói chung, phép kiểm nghiệm sử dụng được thiết kế để tương ứng với rủi ro tiên nghiệm xác định trước rằng giả thuyết tính chuẩn bị bác bỏ ngay cả khi nó đúng (sai lầm loại một). Mặt khác, không thể xác định được xác suất giả thuyết này không bị bác bỏ khi nó không đúng (sai lầm loại hai) nếu như đối giả thuyết (nghĩa là ngược với giả thuyết về tính chuẩn) có thể xác định chính xác. Điều này nhìn chung là không thể và, hơn nữa, nó đòi hỏi nỗ lực tính toán. Đối với phép kiểm nghiệm riêng rẽ, rủi ro này đặc biệt lớn nếu cỡ mẫu nhỏ.
GIẢI THÍCH CÁC DỮ LIỆU THỐNG KÊ -KIỂM NGHIỆM SAI LỆCH SO VỚI PHÂN BỐ CHUẨN
Statistical interpretation ofdata - Tests for departure from the normal distribution
1.1. Tiêu chuẩn này đưa ra hướng dẫn về các phương pháp và phép kiểm nghiệm để sử dụng trong việc xác định có nên bác bỏ giả thuyết về phân bố chuẩn hay không, giả định rằng các quan trắc là độc lập.
1.2. Bất cứ khi nào có nghi ngờ về việc các quan trắc có phân bố chuẩn hay không, việc sử dụng phép kiểm nghiệm sai lệch so với phân bố chuẩn sẽ rất hữu ích hay thậm chí là cần thiết. Tuy nhiên, trong trường hợp các phương pháp ổn định (nghĩa là khi các kết quả chỉ thay đổi rất ít khi phân bố xác suất thực tế của quan trắc không phải là phân bố chuẩn), thì phép kiểm nghiệm sai lệch so với phân bố chuẩn không hữu ích lắm. Đây là trường hợp, ví dụ, khi trung bình của mẫu ngẫu nhiên đơn của quan trắc được kiểm tra dựa trên giá trị lý thuyết cho trước bằng cách sử dụng phép kiểm nghiệm t.
1.3. Không nhất thiết phải sử dụng phép kiểm nghiệm như vậy khi đề cập đến các phương pháp thống kê dựa trên giả thuyết về tính chuẩn. Có khả năng là không nghi ngờ gì về phân bố chuẩn của quan trắc cho dù có các lý do lý thuyết (ví dụ vật lý) khẳng định giả thuyết đó hoặc vì giả thuyết này được coi là có thể chấp nhận được theo thông tin trước đó.
1.4. Các phép kiểm nghiệm sai lệch so với phân bố chuẩn lựa chọn trong tiêu chuẩn này chủ yếu dùng cho dữ liệu đầy đủ, không phải dữ liệu phân nhóm. Chúng không thích hợp với dữ liệu bị mất theo dõi.
1.5. Các phép kiểm nghiệm sai lệch so với phân bố chuẩn lựa chọn trong tiêu chuẩn này có thể áp dụng cho các giá trị quan trắc hoặc các hàm của chúng, như logarit hoặc căn bậc hai.
1.6. Phép kiểm nghiệm sai lệch so với phân bố chuẩn rất kém hiệu quả đối với các cỡ mẫu nhỏ hơn tám. Vì vậy, tiêu chuẩn này giới hạn ở cỡ mẫu từ tám trở lên.
Các tài liệu viện dẫn trong tiêu chuẩn này rất cần thiết cho việc áp dụng tiêu chuẩn. Đối với các tài liệu có ghi năm công bố thì áp dụng bản được nêu. Đối với các tài liệu không ghi năm công bố thì áp dụng phiên bản mới nhất, bao gồm cả các sửa đổi.
TCVN 8244-1 (ISO 3534-1), Thống kê - Từ vựng và ký hiệu - Phần 1: Thuật ngữ chung về xác suất và thống kê
3. Thuật ngữ, định nghĩa và ký hiệu
3.1. Thuật ngữ và định nghĩa
Tiêu chuẩn này áp dụng các thuật ngữ và định nghĩa trong TCVN 8244-1 (ISO 3534-1).
3.2. Ký hiệu
Tiêu chuẩn này sử dụng các ký hiệu dưới đây.
ak hệ số của phép kiểm nghiệm Shapiro-Wilk
A đại lượng phụ trợ cho phép kiểm nghiệm Epps-Pulley
b2độ nhọn thực nghiệm
độ bất đối xứng thực nghiệm
B đại lượng phụ trợ cho phép kiểm nghiệm Epps-Pulley
Ekỳ vọng
Gjđại lượng phụ trợ cho phép kiểm nghiệm kết hợp sử dụng nhiều mẫu độc lập
hsố lượng mẫu liên tiếp
H0giả thuyết không
H1đối giả thuyết
ksố giá trị quan trắc x trong mẫu, sắp xếp theo thứ tự không giảm
mjmômen trung tâm bậc j của mẫu
ncỡ mẫu
pxác suất kèm với phân vị p của phânbố
Pxác suất
Pkxác suất kèm với phân vị X(k)
Sđại lượng phụ trợ cho phép kiểm nghiệmShapiro-Wilk
Tthống kê kiểm nghiệm
TEP thống kê kiểm nghiệm của phép kiểm nghiệm Epps-Pulley
upp-phân vị của phân bố chuẩn chuẩn hóa
vjđại lượng phụ trợ cho phép kiểm nghiệmkếthợp sử dụngnhiều mẫu độclập
W thống kê kiểm nghiệm của phép kiểm nghiệm Shapiro-Wilk
Wjđại lượng phụ trợ cho phép kiểm nghiệmkếthợp sử dụngnhiều mẫu độclập
xgiá trị của X
X biến ngẫu nhiên
x(j)giá trị thứ j trong mẫu, sắp xếp theo thứ tự không giảm
x(k)giá trị thứ k trong mẫu, sắp xếp theo thứ tự không giảm
trung bình số học
amức ý nghĩa
bxác suất sai lầm loại hai
b2độ nhọn của tổng thể
b2-3 độ tù của tổng thể
độ bất đối xứng của tổng thể
g đại lượng phụ trợ cho phép kiểm nghiệm kết hợp sử dụng nhiều mẫu độc lập
g(n)hệ số của phép kiểm nghiệm kết hợp sử dụng nhiều mẫu độc lập
dđại lượng phụ trợ cho phép kiểm nghiệm kết hợp sử dụng nhiều mẫu độc lập
d(n)hệ số của phép kiểm nghiệm kết hợp sử dụng nhiều mẫu độc lập
eđại lượng phụ trợ cho phép kiểm nghiệm kết hợp sử dụng nhiều mẫu độc lập
e(n)hệ số của phép kiểm nghiệm kết hợp sử dụng nhiều mẫu độc lập
mkỳ vọng
m2 phương sai của tổng thể
m3mômen trung tâm bậc bacủamẫu
m4mômen trung tâm bậc bốncủamẫu
s độ lệch chuẩn của tổng thể ()
4.1. Có nhiều loại phép kiểm nghiệm sai lệch so với tính chuẩn. Trong tiêu chuẩn này xem xét các phương pháp đồ thị, kiểm nghiệm mômen, kiểm nghiệm hồi quy và kiểm nghiệm hàm đặc trưng. Phép kiểm nghiệm khi-bình phương chỉ thích hợp với dữ liệu nhóm nhưng vì việc phân nhóm dẫn đến mất thông tin nên chúng không được xem xét trong tiêu chuẩn này.
4.2. Nếu không có sẵn thông tin bổ sung về mẫu thì khuyến nghị trước tiên vẽ đồ thị xác suất chuẩn; nghĩa là vẽ hàm phân bố tích lũy của các giá trị quan trắc trên biểu đồ xác suất chuẩn gồm một hệ trục tọa độ trong đó hàm phân bố tích lũy của phân bố chuẩn được thể hiện bằng một đường thẳng.
Phương pháp này, được mô tả trong điều 5, cho phép “thấy” ngay phân bố quan trắc có gần với phân bố chuẩn hay không. Với thông tin bổ sung này có thể quyết định tiến hành phép kiểm nghiệm định hướng hay tiến hành kiểm nghiệm hồi quy hoặc kiểm nghiệm hàm đặc trưng, hay không thực hiện kiểm nghiệm nào cả. Ngoài ra, mặc dù cách trình bày bằng đồ thị không được coi là kiểm nghiệm chặt chẽ nhưng thông tin tổng hợp mà nó đưa ra là bổ trợ thiết yếu cho bất kỳ phép kiểm nghiệm độ chệch so với phân bố chuẩn nào. Trong trường hợp bác bỏ giả thuyết không thì bằng cách này thường có khả năng ước đoán loại đối giả thuyết có thể áp dụng được.
4.3. Phép kiểm nghiệm sai lệch so với phân bố chuẩn là kiểm nghiệm giả thuyết không rằng mẫu gồm n quan trắc độc lập từ một và cùng phân bố chuẩn. Phép kiểm nghiệm gồm việc tính toán hàm T của các quan trắc được gọi là thống kê kiểm nghiệm. Giả thuyết không của phân bố chuẩn sau đó không bị bác bỏ hoặc bác bỏ tùy thuộc vào việc giá trị của T có nằm trong phạm vi tập hợp giá trị gần giá trị dự kiến tương ứng với phân bố chuẩn hay không.
4.4. Miền tới hạn của phép kiểm nghiệm này là tập hợp giá trị T dẫn đến việc bác bỏ giả thuyết không. Mức ý nghĩa của kiểm nghiệm là xác suấtPthu được giá trị T nằm trong miền tới hạn khi giả thuyết không là đúng. Mức này cho xác suất bác bỏ sai giả thuyết không (sai lầm loại một).
Ranh giới của miền tới hạn (hoặc trong trường hợp kiểm nghiệm hai phía, các ranh giới của miền tới hạn) là (các) giá trị tới hạn của thống kê kiểm nghiệm.
4.5. Hiệu lực của phép kiểm nghiệm là xác suất bác bỏ giả thuyết không khi nó không đúng. Hiệu lực cao ứng với xác suất thấp của việc không bác bỏ giả thuyết không một cách sai lầm (sai lầm loại hai).
Cần nhấn mạnh rằng hiệu lực của phép kiểm nghiệm (nghĩa là trong trường hợp nhất định, xác suất giả thuyết không về phân bố chuẩn sẽ bị bác bỏ nếu như điều này sai) sẽ tăng khi số quan trắc tăng. Ví dụ, độ lệch khỏi phân bố chuẩn có thể trở nên rõ ràng khi sử dụng phép kiểm nghiệm sai lệch so với phân bố chuẩn trên mẫu lớn có thể không phát hiện được bằng chính phép kiểm nghiệm đó nếu có ít quan trắc hơn.
4.6. Có sự khác biệt giữa hai loại kiểm nghiệm sai lệch so với phân bố chuẩn. Khi dạng sai lệch so với phân bố chuẩn được quy định trong đối giả thuyết thì đó là kiểm nghiệm có hướng. Tuy nhiên, khi dạng sai lệch so với phân bố chuẩn không được quy định trong đối giả thuyết thì kiểm nghiệm là kiểm nghiệm vô hướng.
Trong kiểm nghiệm có hướng, miền tới hạn được xác định sao cho hiệu lực của phép kiểm nghiệm đạt giá trị cực đại. Trong phép kiểm nghiệm vô hướng, cần chia miền tới hạn sao cho miền tới hạn bao gồm các giá trị của thống kê kiểm nghiệm nằm cách xa giá trị dự kiến.
Nếu các giả định thể hiện loại sai lệch so với phân bố chuẩn, nghĩa là khi phân bố được nghiên cứu có độ bất đối xứng hay độ nhọn khác so với của phân bố chuẩn, thì cần áp dụng kiểm nghiệm có hướng vì hiệu lực của nó lớn hơn hiệu lực của kiểm nghiệm vô hướng.
4.7. Chú ý là kiểm nghiệm có hướng nhất thiết là một phía. Trong trường hợp bất đối xứng, ví dụ, nó tập trung vào bất đối xứng dương hoặc bất đối xứng âm. Tuy nhiên, khi cùng xem xét nhiều lựa chọn thì kiểm nghiệm là đa hướng. Đây là trường hợp đặc biệt khi độ bất đối xứng khác không và độ nhọn khác so với phân bố chuẩn được xem xét.
4.8. Các Bảng 8 đến Bảng 14 và Hình 9 cho phép thực hiện các kiểm nghiệm cho hầu hết các mức a thông thường; nghĩa là a = 0,05 và a = 0,01. Mức ý nghĩa phải được quy định trước khi thực hiện kiểm nghiệm. Chú ý rằng kiểm nghiệm có thể dẫn đến bác bỏ giả thuyết không ở mức 0,05 và không bác bỏ chính giả thuyết này ở mức 0,01.
4.9. Trong quá trình tính toán các thống kê kiểm nghiệm, cần sử dụng ít nhất sáu chữ số có nghĩa. Các tổng phụ, kết quả trung gian và đại lượng phụ trợ không được làm tròn đến ít hơn sáu chữ số có nghĩa.
5.1. Hàm phân bố tích lũy của các giá trị quan trắc được vẽ trên giấy đồ thị xác suất chuẩn. Trên đồ thị này, một trong các trục (trong tiêu chuẩn này là trục tung) có thang phi tuyến tính theo vùng nằm trong hàm phân bố chuẩn chuẩn hóa và được ghi các giá trị tương ứng của tần suất tích lũy. Trục còn lại có thang tuyến tính cho các giá trị X theo thứ tự. Hàm phân bố tích lũy của biến X khi đó gần như một đường thẳng.
Đôi khi, hai trục này thay đổi cho nhau. Ngoài ra, nếu có sự chuyển đổi chuẩn hóa biến X, thì thang tuyến tính có thể được thay bằng thang logarit, bậc hai, nghịch đảo hoặc thang đo khác.
Hình 1 đưa ra ví dụ về giấy đồ thị xác suất chuẩn. Trên trục tung, giá trị tần suất tích lũy được cho theo phần trăm, trong khi trục hoành có thang đo tuyến tính tùy ý.
Giấy đồ thị xác suất chuẩn để trống được cho trong Phụ lục A.
Nếu đồ thị trong bảng này đưa ra tập hợp các điểm xuất hiện rải rác quanh đường thẳng thì điều này cung cấp hỗ trợ sơ bộ cho giả định rằng mẫu có thể được xem xét một cách hợp lý là xuất phát từ phân bố chuẩn.
Tuy nhiên, nếu có độ lệch hệ thống so với đường thẳng thì đồ thị thường gợi ý loại phân bố cần đưa vào xem xét.
Tầm quan trọng của cách tiếp cận này là nó cung cấp thông tin rõ ràng về loại sai lệch so với phân bố chuẩn.
Nếu đồ thị chỉ ra rằng dữ liệu đến từ phân bố định dạng (ví dụ nếu đồ thị hàm phân bố tích lũy như thể hiện trên Hình 5 hoặc 6) thì việc chuyển đổi dữ liệu có thể dẫn đến phân bố chuẩn.
Nếu đồ thị chỉ ra rằng dữ liệu không đến từ phân bố thuần nhất đơn giản mà từ sự pha trộn hai hoặc nhiều tổng thể con thuần nhất (ví dụ nếu đồ thị hàm phân bố tích lũy như thể hiện trên Hình 7) thì khuyến nghị là cần nhận biết các tổng thể con và tiếp tục phân tích từng tổng thể con một cách riêng rẽ.
Cần lưu ý rằng đồ thị như vậy không thể kiểm nghiệm sai lệch so với phân bố chuẩn một cách chặt chẽ. Trong trường hợp mẫu nhỏ, các đường cong rõ rệt có thể xuất hiện đối với phân bố chuẩn, trong khi đối với mẫu lớn, các đường cong không rõ nét có thể chỉ ra phân bố không phải phân bố chuẩn.
5.2. Quy trình vẽ đồ thị bao gồm sắp xếp các giá trị quan trắc (x(1), x(2), …,x(n)) theo thứ tự không giảmvà sau đó vẽ đồ thị
Pk = (k - 3/8)/(n + 1/4) (1)
theo x(k) trên giấy đồ thị xác suất chuẩn.
CHÚ THÍCH 1: Các thay thế cho công thức (1) thường được sử dụng là
Pk = (k - 1/2)/n
và
Pk = k/(n + 1)
Đây là các phép gần đúng kém hơn cho hàm phân bố chuẩn của các thống kê thứ tự dự kiến,F[E(X(k))] vàviệcsử dụng chúng không được khuyến nghị.
5.3. Ví dụ về cách sử dụng giấy đồ thị xác suất chuẩn được cho trên Hình 2.
Hình 1 - Giấy đồ thị xác suất chuẩn được chú giải
Hình 2 - Bảng đồ thị xác suất chuẩn được chú giải
Bảng 1 thể hiện các giá trị x(k) theo thứ tự không giảm kết quả của loạt 15 phép thử chịu uốn luân phiên độc lập.
Bảng 1 - Kết quả, x(k) của loạt 15 phép thử chịu uốn luân phiên và các giá trị tương ứng lg (10x(k))
k | x(k) | lg(10x(k)) | |
1 2 3 4 5
6 7 8 9 10
11 12 13 14 15 | 0,041 0,107 0,172 0,238 0,303
0,369 0,434 0,500 0,566 0,631
0,697 0,762 0,828 0,893 0,959 | 0,200 0,330 0,445 0,490 0,780
0,920 0,950 0,970 1,040 1,710
2,220 2,275 3,650 7,000 8,800 | 0,301 0,519 0,648 0,690 0,892
0,964 0,978 0,987 1,017 0,233
1,346 1,357 1,562 1,845 1,944 |
CHÚ THÍCH 2: Trong Bảng 1 và các ví dụ dưới đây, đơn vị của các quan trắc được bỏ qua vì chúng không thích hợp cho các phép thử trong tiêu chuẩn này.
Bằng cách kết hợp xác suất
Pk = (k - 3/8)/(n + 1/4)
với giá trị x(k) nhỏ nhất thứ k, thu được loạt các điểm thể hiện trên Hình 2a). Có thể thấy ngay từ đồ thị là các điểm này không tạo thành đường thẳng. Tuy nhiên, nếu x(k) được thay bằng lg(10x(k)) thì đồ thị mới [Hình 2b)] dẫn đến một loạt các điểm lúc này nằm khá gần với đường thẳng.
Do đó, giả thuyết về phân bố chuẩn của logarit của các quan trắc có vẻ thích hợp.
5.4. Cần chú ý rằng các giá trị quan trắc cực trị có phương sai lớn hơn các giá trị ở giữa. Do đó và vì thang đo tần suất tích lũy mở rộng về phía các cực trị, nên một số ít giá trị nằm ở một trong hai đầu của phân bố tích lũy tách biệt khỏi đường thẳng xác định bởi các giá trị ở giữa không được coi là chỉ thị sai lệch so với phân bố chuẩn.
Cỡ mẫu càng lớn thì các kết luận có thể rút ra từ hình dạng của đồ thị càng đáng tin cậy.
Nếu đồ thị hàm phân bố tích lũy của các giá trị quan trắc trong đó các giá trị lớn có xu hướng nằm phía dưới đường thẳng xác định bởi các giá trị khác thì việc chuyển đổi như
y = log x
hay
thường sẽ dẫn đến đồ thị phù hợp hơn với đường thẳng [xem Hình 2b) và Hình 5].
Phần trên của các Hình 3 đến 7 cho thấy hàm phân bố tích lũy so sánh với hàm mật độ tương ứng thể hiện trong phần dưới của mỗi hình.
Nếu đồ thị hàm phân bố tích lũy của các giá trị quan trắc như thể hiện trên Hình 3 hoặc 4 thì phân bố tần suất tương ứng là của độ nhọn bè (platykurtic) hoặc của độ nhọn tù (leptokurtic).
Đồ thị hàm phân bố tích lũy thể hiện trên Hình 5 và 6 ứng với hàm mật độ có độ bất đối xứng dương và độ bất đối xứng âm.
Hình 7 thể hiện hàm phân bố tích lũy và hàm mật độ của sự xếp chồng hai hàm mật độ khác nhau.
Hình 3 - Hàm mật độ với độ nhọn bè | Hình4-Hàmmậtđộvớiđộnhọntù | |
Hình 5 - Hàm mật độ với độ bất đối xứng dương | Hình 6 - Hàm mật độ với độ bất đối xứng âm | |
Hình 7 - Xếp chồng của hai hàm mật độ khác nhau
6.1. Quy định chung
6.1.1. Kiểm nghiệm có hướng xem xét ở đây chỉ liên quan đến đặc trưng độ nhọn hoặc độ bất đối xứng trong phân bố của các quan trắc. Chúng dựa trên thực tế là trong trường hợp biến ngẫu nhiên chuẩn X có trung bình m = E(X), mômen trung tâm bậc ba là
m3 = E [(X - m)3] = 0 …(2)
mômen trung tâm chuẩn hóa bậc ba là
…(3)
và mômen trung tâm chuẩn hóa bậc bốn là
…(4)
trong đó
m2 = E[(X - m)2] ...(5)
m4 = E[X - m)4] ...(6)
là bất đối xứng của tổng thể và có thể lớn hơn, bằng hoặc nhỏ hơn không;
b2là độ nhọn của tổng thể và luôn dương;
b2 - 3 là độ tù của tổng thể;
bất đẳng thức luôn đúng.
6.1.2. Trong kiểm nghiệm độ bất đối xứng, đối giả thuyết là
H1:m3 > 0
hoặc, tương ứng
>0
có nghĩa là bất đối xứng dương (xem Hình 5) hoặc
H1:m3 < 0
hoặc, tương ứng
< 0
có nghĩa là bất đối xứng âm (xem Hình 6).
Nói chung, phân bố có bất đối xứng dương có sự phân tán cao hơn giữa các giá trị biến lớn so với giữa các giá trị biến nhỏ; ngược lại là trường hợp bất đối xứng âm.
6.1.3. Trong kiểm nghiệm độ nhọn, đối giả thuyết là
H1:b2 > 3
có nghĩa là độ nhọn tù (hàm mật độ leptokurtic) (xem Hình 4) hoặc
H1:b2 < 3
có nghĩa là độ nhọn bè (hàm mật độ platykurtic) (xem Hình 3).
So với phân bố chuẩn, phân bố có độ nhọn tù có xu hướng có nhiều giá trị biến gần với trung bình và hướng tới hai phía cực trị. Ngược lại là trường hợp độ nhọn bè.
6.1.4. Việc sử dụng kiểm nghiệm có hướng chỉ hợp lý khi có thông tin cụ thể về cách thức phân bố thực khác biệt so với phân bố chuẩn. Thông tin này có thể có được từ tính chất tự nhiên của dữ liệu hoặc loại nhiễu có thể ảnh hưởng tới quá trình tạo dữ liệu.
Ví dụ, thực tế là biến không âm, có trung bình gần với không so với giá trị độ lệch chuẩn, có thể là lý do của bất đối xứng dương của phân bố thực. Tương tự, nhiễu bất kỳ trong quá trình tạo dữ liệu có thể gây ra sự pha trộn các tổng thể chuẩn của cùng một trung bình nhưng khác phương sai dẫn đến phân bố không chuẩn có b2> 3.
6.1.5. Trong mọi trường hợp, việc lựa chọn kiểm nghiệm hướng cần dựa trên các xem xét chung liên quan đến tính chất của quan trắc hoặc quá trình tạo ra chúng chứ không phải dựa trên dạng phân bố cụ thể của các giá trị quan trắc. Trong trường hợp đề cập sau, chỉ kết quả của kiểm nghiệm vô hướng mới được coi là khách quan.
6.1.6. Nếux1, x2,… xn là loạt các quan trắc thì
…(7)
…(8)
trong đó j = 2, 3, 4
và thống kê kiểm nghiệm độ bất đối xứng và độ nhọn tương ứng là các đại lượng
…(9)
và
…(10)
6.2. Kiểm nghiệm có hướng sử dụng độ nhọn
Kiểm nghiệm này áp dụng cho n ≥ 8; tuy nhiên, vì lý do thực tế, Bảng 8 được giới hạn ở n ≤ 5000.
Nếu đối giả thuyết gồm bất đối xứng dương thì chỉ nên tiến hành kiểm nghiệm nếu m3 > 0. Mặt khác, nếu đối giả thuyết gồm bất đối xứng âm thì chỉ nên tiến hành kiểm nghiệm nếu m3 < 0.
Trong hai trường hợp bất đối xứng, kết luận theo hướng bác bỏ giả thuyết không ở mức ý nghĩa a nếu thống kê vượt quá p-phân vị đối với p = 1 - a.
Bảng 8 thể hiện thống kê kiểm nghiệm p-phân vị này đối với p = 1 - a trong đó a = 0,05 và a = 0,01 và cỡ mẫu n = 8(1)10, 12, 15(5)50(10)100(25)200(50)1000(200)2000(500)5000.
VÍ DỤ 1: Ví dụ về việc sử dụng kiểm nghiệm có hướng đối với độ bất đối xứng sử dụng như sau đây. Bảng2 đưa ra 50 giá trị đo độc lập độ sâu của dác gỗ trong các tấm gỗ dự kiến dùng làm nút điện báo. Vì độ sâu củadác gỗ là một đặc trưng có giá trị không âm về cơ bản gần với “không” nên có thể giả định bất đối xứng dương. Do đó, cần thực hiện kiểm nghiệm có hướng thích hợp với đối giả thuyết
Vì vậy, từ các giá trị quan trắc liệt kê trong Bảng 2, tính được:
(1,25 + 1,35 + … + 5,10)/50 = 2,873
[(1,25 - 2,873)2 + … + (5,10 - 2,873)2)]/50 = 0,937 921
[(1,25 - 2,873)3 + … + (5,10 - 2,873)3)]/50 = 0,254 559
Do đó
= 0,280
Với mức ý nghĩa a = 0,05, nghĩa là p = 1 - a = 0,95 và n = 50, giá trị tới hạn của thống kê kiểm nghiệm là 0,53 (xem Bảng 8). Giá trị này lớn hơn tính được; do đó, giả thuyết không về phân bố chuẩn không bị bác bỏ ở mức ý nghĩa lựa chọn.
Bảng 2 - Độ sâu dác gỗ
1,25 1,35 1,40 1,50 1,55
1,60 1,75 1,75 1,85 1,95 | 2,05 2,10 2,15 2,15 2,15
2,20 2,25 2,35 2,40 2,55 | 2,60 2,60 2,70 2,75 2,75
2,80 2,95 2,95 3,00 3,05 | 3,10 3,15 3,15 3,20 3,30
3,45 3,50 3,50 3,80 3,90 | 4,00 4,00 4,05 4,05 4,10
4,20 4,45 4,50 4,70 5,10 |
CHÚ THÍCH: Dãy giá trị sắp xếp theo thứ tự không giảm của 50 quan trắc. |
6.3. Kiểm nghiệm có hướng nhờ sử dụng độ nhọn b2
Phép kiểm nghiệm này áp dụng cho n ≥ 8; tuy nhiên, vì lý do thực tế, Bảng 9 giới hạn ở n ≤ 5000.
Trong kiểm nghiệm độ nhọn tù, đối giả thuyết là
H1:b2 > 3
Đối giả thuyết phải bị bác bỏ ở mức ý nghĩa xác định trước, ví dụ, a= 0,05 hoặc 0,01 nếu giá trị b2 tính được vượt quá giá trị tới hạn của thống kê kiểm nghiệm ứng với p phân vị đối với p = 1 - a = 0,95 hoặc p = 1 - a = 0,99 và cỡ mẫu n.
Trong kiểm nghiệm độ nhọn bè, đối giả thuyết là
H1:b2 < 3
Đối giả thuyết phải bị bác bỏ ở mức ý nghĩa xác định trước, ví dụ, a - 0,05 hoặc 0,01 nếu giá trịb2 tính được nhỏ hơn giá trị tới hạn của thống kê kiểm nghiệm ứng với p phân vị đối với p = a = 0,05 hoặc p = a = 0,01 và cỡ mẫu n.
Bảng 9 thể hiện giá trị tới hạn của thống kê kiểm nghiệm b2 đối với p = 0,01, 0,05, 0,95 và 0,99 và cỡ mẫu n = 8(1)10, 12, 15(5)50(25)150(50)1000(200)2000(500)5000.
VÍ DỤ 2: Ví dụ về việc sử dụng kiểm nghiệm có hướng sử dụng độ nhọn b2 như sau đây. Bảng 3 đưa ra 50 giá trị đo độc lập, một số trong số đó bị nghi ngờ chịu tác động của lỗi thiết bị đo, lỗi dẫn đến biến động trong sự phân tán của các kết quả đo này.
Do lỗi đề cập ở trên, vì có thể giả định rằng b2 > 3 đối với phân bố các quan trắc nên kiểm nghiệm có hướng tương ứng được áp dụng; đối giả thuyết là
H1:b2> 3
Bảng 3 - Loạt 50 quan trắc bị nghi ngờ chịu ảnh hưởng của sự biến động về độ phân tán của các phép đo
9,5 14,4 10,2 4,2 17,1 4,4 4,5 8,5 9,9 7,7 | 5,1 5,8 9,2 12,9 6,3 3,1 12,9 11,9 11,4 5,9 | 5,7 10,8 22,5 5,5 8,6 7,4 6,9 7,9 3,6 7,3 | 16,6 20,9 21,5 9,1 11,9 12,9 26,6 7,5 5,4 32,0 | 12,9 13,3 8,5 3,3 1,4 12,9 16,3 15,6 11,4 6,0 |
Vì vậy, từ các giá trị quan trắc liệt kê trong Bảng 3, tính được:
= (9,5 + 14,4 + ... + 6,0)/50 = 10,542
m2 = [(9,5 - 10,542)2 + ... + (6,0 - 10,542)2]/50 = 37,996 4
m4 = [(9,5 - 10,542)4 + ... + (6,0 - 10,542)4]/50 = 7 098,04
Do đó
Với mức ý nghĩa a= 0,05, nghĩa là p = 1 - a = 0,95 và cỡ mẫu n = 50, giá trị tới hạn của thống kê kiểm nghiệm là 3,99 (xem Bảng 9). Vì giá trị tính được b2 = 4,916 lớn hơn giá trị tới hạn này nên giả thuyết không bị bác bỏ thiên về đối giả thuyết ở mức ý nghĩa a = 0,05. Điều này có nghĩa là phân bố của các giá trị quan trắc bị xáo trộn và cho thấy độ nhọn tù.
Ngoài ra, vì giá trị tới hạn ở mức ý nghĩa a = 0,01 là 4,88 nên việc bác bỏ giả thuyết không được xác nhận ở mức này. Vì điều này, sự có mặt của nhiễu thực càng trở nên có nhiều khả năng.
7. Kiểm nghiệm sử dụng đồng thời và b2 (kiểm nghiệm đa hướng)
Kiểm nghiệm này áp dụng cho cỡ mẫu 20 ≤ n ≤ 1 000.
7.1. Trong trường hợp này; đối giả thuyết là về phân bố có độ bất đối xứng khác không và/hoặc độ nhọn khác với của phân bố chuẩn, với hướng độ lệch không được quy định:
H1:¹0 và/hoặc b2¹ 3
Không thể phân biệt được các kết hợp khác nhau
¹0vàb2 = 3
hoặc
¹ 0 và b2¹ 3
hoặc
¹0 và b2¹3
Kiểm nghiệm là đa hướng vì nó dự kiến mang lại sự kết hợp độ bất đối xứng khác “không” ¹0) và/hoặc độ nhọn b2¹ 3.
Chú ý là, do lựa chọn thống kê, kiểm nghiệm kết hợp này không được coi là kiểm nghiệm vô hướng theo nghĩa chặt chẽ. Vì đối với kiểm nghiệm có hướng, việc sử dụng chỉ được đánh giá bằng các xem xét theo tính chất của quan trắc hoặc quá trình tạo ra chúng.
7.2. Thống kê kiểm nghiệm của phép kiểm nghiệm này tạo bởi cặp giá trị và b2 xác định trong công thức (9) và (10) (ở 6.1.6). Theo giả thuyết không về tính chuẩn, trong hệ trục tọa độ ở||và b2, các vùng quanh điểm (0; 3) có thể được rút ra trong đó chứa điểm (, b2) với xác suất p. Cácđường cong mô tả các vùng này được cho trên Hình 9a) (p = 0,95) và Hình 9b) (p = 0,99) đối với cỡ mẫu n = 20(5)65(10)85,100,120,150(50)300,500,1000.
Ở mức ý nghĩa a = 1 - p, miền tới hạn của kiểm nghiệm được hình thành bởi các điểm nằm ngoài đường cong ứng với cỡ mẫu n.
VÍ DỤ 3: Kiểm nghiệm kết hợp sử dụng và b2 có thể áp dụng cho dữ liệu của ví dụ 2.
Từ các giá trị quan trắc liệt kê trong Bảng 3, tính được:
m3 = [(9,5 - 10,542)3 + . . . + (6,0 - 10,542)3/50 = 308,106
Do đó
Điểm ( = 1,315; b2 = 4,916) nằm xa ngoài đường cong ứng với cỡ mẫu n = 50 trên Hình 9b) với mức ý nghĩa a = 0,01.
Vì vậy, giả thuyết không về phân bố chuẩn bị bác bỏ ở mức ý nghĩa này thiên về đối giả thuyết. Điều này nghĩa là phân bố của đặc trưng đo được xét không phải là phân bố chuẩn.
8.1.1. Khi không có thông tin tiên nghiệm cơ bản liên quan đến loại sai lệch so với phân bố chuẩn được giả định thì khuyến nghị sử dụng phép kiểm nghiệm vô hướng.
8.1.2. Hai phép kiểm nghiệm vô hướng được trình bày trong tiêu chuẩn này: kiểm nghiệm Shapiro-Wilk và kiểm nghiệm Epps-Pulley. Có rất ít lựa chọn giữa chúng. Quy tắc ngón tay cái là chọn kiểm nghiệm Shapiro-Wilk khi có sẵn lịch sử trước đó gợi ý là đối giả thuyết phân bố đối xứng gần đúng vớiđộ nhọn bè (ví dụ < ½và b2< 3) hoặc từ phân bố bất đối xứng (ví dụ > ½), nếu không thì chọn kiểm nghiệm Epps-Pulley.
Phép kiểm nghiệm này áp dụng cho 8 ≤ n ≤ 50. Các cỡ mẫu nhỏ, với n < 8, không hiệu quả lắm trong việc phát hiện sai lệch so với phân bố chuẩn.
Kiểm nghiệm Shapiro-Wilk dựa trên hồi quy các thống kê thứ tự theo giá trị dự kiến của chúng. Đây là phân tích kiểm nghiệm dạng phương sai đối với mẫu đầy đủ. Thống kê kiểm nghiệm là tỷ số giữa bình phương tổ hợp tuyến tính các thống kê thứ tự mẫu với ước lượng phương sai thông thường.
Kiểm nghiệm này dựa trên các quan trắc theo thứ tự. Nếu, như trong 5.3, loạt n các quan trắc độc lập sắp xếp theo thứ tự không giảm được thiết kế bởi x(1), x(2),… x(n)thì đại lượng S được tính:
… (11)
trong đó chỉ số k có giá trị 1 đến n/2 hoặc 1 đến (n - 1)/2 tùy theo n chẵn hay lẻ, và trong đó các hệ số ak có giá trị đặc biệt đối với cỡ mẫu n. Giá trị của ak được liệt kê trong Bảng 10 và thống kê kiểm nghiệm là đại lượng
W = S2/(nm2) … (12)
Nếu một số quan trắc bằng nhau thì loạt theo thứ tự được liệt kê bằng cách lặplại cácquantrắcbằngnhau tương ứng với số lần xuất hiện của chúng trong loạt ban đầu.
Ở mức ý nghĩa a = p, miền tới hạn của kiểm nghiệm được hình thành bởi các giá trị nhỏ hơn p phân vị đối với p =a. Bảng 11 thể hiện p phân vị của thống kê kiểm nghiệm W đối với p = a = 0,01 và p = a = 0,05.
VÍ DỤ 4: Ví dụ về việc sử dụng kiểm nghiệm Spapiro-Wilk như sau đây. Bảng 4 thể hiện loạt theo thứ tựgồm44giá trị độc lập lượng mưa hàng năm thu được tại trạm khí tượng.
Để thuận lợi cho việc tính toán, các giá trị
và
được trình bày trên cùng một dòng. Từ Bảng 4 giá trị sau đây được tính:
/44= 34545 /44 = 785,114
nm2 == 630872
Hệ số ak được lấy từ Bảng 10 đối với n = 44 và được đưa ra trong Bảng 4, do đó, cho
= 0,387 2 x 554 + 0,266 7 x 500 + ... + 0,004 2x9 = 787,263
Do đó
= (787,262 7)2/630 872,43 = 0,982
Bảng 11 thể hiện p phân vị đối với n = 44 và p = a = 0,05 bằng 0,944. Vì giá trị này nhỏ hơn giá trị của W nên giả thuyết không không bị bác bỏ ở mức ý nghĩa 0,05.
Bảng 4- Lượng mưa hàng năm thu được ở trạm khí tượng
k | x(k) | x(n+1-k) | x(n+1-k) - x(k) | ak |
1 2 3 4 5
6 7 8 9 10
11 12 13 14 15
16 17 18 19 20
21 22 | 520 556 561 616 635
669 686 692 704 707
711 713 714 719 727
735 740 744 745 750
776 777 | 1074 1056 963 952 926
922 904 900 889 879
873 862 851 837 834
826 822 821 794 791
786 786 | 554 500 402 336 291
253 218 208 185 172
162 149 137 118 107
91 82 77 49 41
10 9 | 0,387 2 0,266 7 0,232 3 0,207 2 0,186 8
0,169 5 0,154 2 0,140 5 0,127 8 0,116 0
0,104 9 0,094 3 0,084 2 0,074 5 0,065 1
0,056 0 0,047 1 0,038 3 0,029 6 0,021 1
0,012 6 0,004 2 |
CHÚ THÍCH: Loạt theo thứ tự gồm 44 quan trắc và cácgiá trịak tương ứng. |
Xem tài liệu tham khảo [2] đến [5]. Phép kiểm nghiệm này áp dụng đối với n ≥ 8. Các cỡ mẫu nhỏ, với n < 8, không hiệu quả lắm trong việc phát hiện sai lệch so với phân bố chuẩn.
Kiểm nghiệm Epps-Pulley là kiểm nghiệm vô hướng có hiệu lực cao hơn dựa trên nhiều đối giả thuyết. Kiểm nghiệm này sử dụng tích phân có trọng số của mô đun bình phương hiệu giữa các hàm đặc trưng của mẫu và của phân bố chuẩn.
Từ n quan trắc xj(j = 1, 2, …,n) các đại lượng sau đây được tính:
... (13)
và
… (14)
Thống kê kiểm nghiệm là
… (15)
Thứ tự các giá trị quan trắc là tùy chọn nhưng đặc biệt chú ý đến thực tế là thứ tự được chọn phải duy trì không đổi trong toàn bộ tính toán.
Lưu đồ chương trình thể hiện việc tính toán thống kê kiểm nghiệm TEP được cho trên Hình 8.
Hình 8 - Lưu đồ tính toán thống kê kiểm nghiệm TEP của phép kiểm nghiệm Epps-Pulley
Giả thuyết không bị bác bỏ nếu giá trị tính được của thống kê kiểm nghiệm TEP vượt quá p phân vị đối với mức ý nghĩa a và cỡ mẫu n. Các p phân vị của thống kê kiểm nghiệm TEP đối với p = 1 - a = 0,90; 0,95; 0,975 và 0,99 được liệt kê trong Bảng 12.
VÍ DỤ 5: Ví dụ về việc sử dụng kiểm nghiệm Epps-Pulley như dưới đây. Bảng 5 thể hiện loạt 25 giá trị xj, độ bền kéo đứt của sợi tơ nhân tạo, đo được trong các điều kiện tiêu chuẩn theo đơn vị tùy ý. Ngoài ra, giá trị chuyển đổi zj = Ig (204 - xj) được đưa ra, phân tán quanh đường thẳng trên giấy đồ thị xác suất chuẩn.
Bảng 5 - Độ bền kéo đứt của sợi tơ nhân tạo
xj đo được | zj chuyển đổi | xj đo được | zj chuyển đổi |
147 186 141 183 190
123 155 164 183 150
134 170 144 | 1,756 1,255 1,799 1,322 1,146
1,908 1,690 1,602 1,322 1,732
1,845 1,531 1,778 | 99 156 176 160 174
153 162 167 179 78
173 168 | 2,021 1,681 1,447 1,643 1,477
1,708 1,623 1,568 1,398 2,100
1,491 1,556 |
Từ Bảng 5 tìm được
TEP(x) = 0,612
sử dụng chương trình máy tính ngắn và đơn giản. Đối với n = 25, bằng cách nội suy trong Bảng 12 tìm được p phân vị đối với p = 1 - a = 0,99 bằng 0,567. Giá trị TEP(x) tính được vượt quá giá trị tới hạn này. Vì vậy giả thuyết không bị bác bỏ ở mức ý nghĩa 0,01 đối với các giá trịxj.
Ngoài ra, từ Bảng 5 tìm được
TEP(z) = 0,006
sử dụng cùng một chương trình máy tính. Vì giá trị này nhỏ hơn giá trị tới hạn đối với n = 25 nội suy từ Bảng 12 nên không bác bỏ giả thuyết không đối với các giá trị zj.
Ví dụ này minh họa thực tế đã được biết rõ là độ bền kéo đứt của sợi tơ nhân tạo được phân bố theo phân bố chuẩn logarit.
VÍ DỤ 6: Ví dụ sau đây minh họa chi tiết cách tính thống kê kiểm nghiệm TEPtheo công thức (15).
Cột thứ hai của Bảng 6 thể hiện n = 10 giá trị xj sử dụng để thực hiện kiểm nghiệm Epps-Pulley. Theo công thức (13) và (14),= 10,4 và m2= 11,858 0 được tính.
Tổng kép trong số hạng thứ ba của công thức (15) là chuỗi hữu hạn (n -1) chuỗi con, chuỗi con đầu tiên trong số đó có một số hạng và chuỗi con cuối cùng có (n- 1) số hạng.
Đối với chuỗi con đầu tiên, chỉ số cố định là k= 2 và số hạng duy nhất của chuỗi này là
thu được đối với j = 1. Trong chuỗi con thứ hai, chỉ số cố định là k = 3; chuỗi này có hai số hạng
và
thu được đối với j = 1 vàj = 2. Trong chuỗi con cuối cùng, chỉ số cố định là k = 10 và chín số hạng là
, …,
thu được đối với j = 1, 2, 3,..., 9.
Các số hạng đối với chuỗi con n -1=9 được liệt kê trong cột thứ ba đến mười một của Bảng 6.
Cột thứ mười hai thể hiện n = 10 số hạng đối với tổng trong số hạng thứ tư của công thức (15).
Bảng 6 - Độ bền kéo đứt của sợi tơ nhân tạo - Tính thống kê kiểm nghiệm TEP
j | xj |
| |||||||||
k = 2 j = 1 | k = 3 j = 1,2 | k = 4 j = 1..3 | k = 5 j = 1..4 | k = 6 j=1..5 | k= 7 j= 1..6 | k = 8 j= 1..7 | k = 9 j = 1..8 | k = 10 j=1..9 | j = 1..10 | ||
1 | 4,9 | 0,9996 | 0,8977 | 0,2192 | 0,2083 | 0,1684 | 0,0769 | 0,0587 | 0,0304 | 0,0205 | 0,5285 |
2 | 5,0 | - | 0,9095 | 0,2304 | 0,2192 | 0,1778 | 0,0821 | 0,0629 | 0,0329 | 0,0222 | 0,5407 |
3 | 6,5 | - | - | 0,4421 | 0,4258 | 0,3633 | 0,1977 | 0,1593 | 0,0933 | 0,0673 | 0,7257 |
4 | 10,9 | - | - | - | 0,9996 | 0,9895 | 0,8723 | 0,8154 | 0,6668 | 0,5790 | 0,9947 |
5 | 11,0 | - | - | - | - | 0,9933 | 0,8853 | 0,8303 | 0,6842 | 0,5966 | 0,9924 |
6 | 11,4 | - | - | - | - | - | 0,9312 | 0,8853 | 0,7520 | 0,6668 | 0,9791 |
7 | 12,7 | - | - | - | - | - | - | 0,9933 | 0,9312 | 0,8723 | 0,8945 |
8 | 13,1 | - | - | - | - | - | - | - | 0,9664 | 0,9207 | 0,8575 |
9 | 14,0 | - | - | - | - | - | - | - | - | 0,9895 | 0,7609 |
10 | 14,5 | - | - | - | - | - | - | - | - | - | 0,7016 |
Tổng | 104,0 | 0,9996 | 1,8072 | 0,8916 | 1,8528 | 2,6923 | 3,0455 | 3,8052 | 4,1573 | 4,7350 | 7,9757 |
Tổngcộng |
| 23,9865 |
|
Mỗi trong số mười cột cuối của Bảng 6, tổng của chúng đều được tính và nhập ở cuối cột.
Tất cả 45 số hạng thuộc về tổng trong số hạng thứ ba của công thức (15) được cộng lại thành giá trị tổng cộng
= 23,9865
Cuối cùng công thức (15) được tính bằng
= 0,2914
Đối với n = 10 Bảng 12 cho thấy rằng p phân vị đối với p = 1 - a= 0,95 bằng 0,357. Giá trị TEP = 0,2914 không vượt quá giá trị tới hạn này. Vì vậy không bác bỏ giả thuyết không ở mức ý nghĩa 0,05 đối với ví dụ này.
9. Kiểm nghiệm sử dụng đồng thời nhiều mẫu độc lập
Kiểm nghiệm này áp dụng cho nhiều mẫu, mỗi mẫu cỡ n với n ≥ 8, tuy nhiên, vì lý do thực tế,Bảng 13 giới hạn ở n ≤ 50. Cơ sở giả định là các mẫu độc lập được lấy từ cùng một tổng thể.
Trong nhiều trường hợp, cần kiểm nghiệm sai lệch so với phân bố chuẩn bằng cách sử dụng nhiều mẫu độc lập vì từng mẫu độc lập quá nhỏ để phát hiện ngay cả sai lệch đáng kể so với phân bố chuẩn. Trong trường hợp này, kiểm nghiệm Shapiro-Wilk được áp dụng.
Đối với h mẫu liên tiếp lấy từ cùng một tổng thể mỗi mẫu có cỡ n, các giá trị Wj (j = 1,2, …, h) đượctính theo công thức (12). Đối với kiểm nghiệm kết hợp các giá trị tương ứng Gj được tính từ quan hệ sau đây:
… (16)
trong đó
… (17)
Các hệ số g(n), d(n) và e(n) dùng để chuyển đổi Wj thành biến Gj được lấy từ Bảng 13.
Trong trường hợp phân bố đang xét là chuẩn thì biến Gj gần như tuân theo phân bố chuẩn chuẩn hóa.
Giá trị trung bình của biến Gj là
… (18)
và thống kê kiểm nghiệm là .
Giả thuyết không bị bác bỏ ở mức ý nghĩa anếu
... (19)
trong đó up= u1-a là p phân vị của phân bố chuẩn chuẩn hóa.
VÍ DỤ 7: Ví dụ về việc sử dụng kiểm nghiệm kết hợp sử dụng nhiều mẫu độc lập như dưới đây. h = 22 mẫu ngẫu nhiên, mỗi mẫu cỡ n = 20 được lấy từ cùng một tổng thể và đặc trưng X của 20 cá thể này được đo. Đặc trưng này không được giả định là có phân bố chuẩn. Đối với mỗi trong số các mẫu này, các giá trị tương ứng Wj (j =1, 2, … 22)đượctínhtheo công thức (12). Trong Bảng 7 liệt kê 22 giá trị Wj. Từ Bảng 13, các hệ số sau đâyđược lấy ra:
g(20) = -5,153; d(20) = 1,802; e (20) = 0,2359
Sử dụng các con số này, 22 giá trị tương ứng của Gj được tính theo công thức (16) và (17), đồng thời cũng được liệt kê trong Bảng 7.
Theo Bảng 11 giá trị tới hạn của thống kê Wlà 0,868 đối với n = 20 ở mức ý nghĩa a= 0,01. Từ Bảng 14, giá trị tới hạn cho là
= - 2,326
ở mức ý nghĩa a= 0,01.
Bảng 7 - Giá trị của Wj và Gjđối với 22 mẫu cỡ n = 20 được lấy từ cùng một tổng thể
Mẫu số j | Wj | Gj |
1 | 0,9543 | -0,189 |
2 | 0,9645 | +0,292 |
3 | 0,9148 | -1,413 |
4 | 0,8864 | -2,008 |
5 | 0,9573 | -0,059 |
6 | 0,9158 | -1,389 |
7 | 0,9462 | -0,503 |
8 | 0,9277 | -1,083 |
9 | 0,9639 | +0,260 |
10 | 0,9363 | -0,833 |
11 | 0,9067 | -1,598 |
12 | 0,9218 | -1,240 |
13 | 0,9551 | -0,155 |
14 | 0,9338 | -0,909 |
15 | 0,9584 | -0,009 |
16 | 0,9088 | -1,552 |
17 | 0,9028 | -1,683 |
18 | 0,8947 | -1,849 |
19 | 0,9488 | -0,407 |
20 | 0,9445 | -0,563 |
21 | 0,9471 | -0,470 |
22 | 0,9451 | -0,542 |
Tổng |
| -17,902 |
Nếu bất kỳ trong số 22 mẫu này được xử lý riêng thì không mẫu nào cóthể cho thấy sai lệch so với phân bố chuẩn ở mức ý nghĩa a= 0,01 vì không một giá trị nào của Wj nhỏ hơn giá trị tới hạn 0,868 và không giá trị nào của Gj nhỏ hơn giá trị tới hạn - 2,326.
Tuy nhiên, đánh giá kết hợp tất cả 22 mẫu được
= - 17,902/22 = -0,814
và
= - 3,82
Giá trị này được so với giá trị tới hạn -up = - 2,326 ở mức ý nghĩa a= 0,01 đã cho. Vì giá trị tính được - 3,82 nằm dưới giá trị tới hạn này nên giả thuyết không bị bác bỏ ở mức ý nghĩa a = 0,01.
Bảng 8 - Kiểm nghiệm độ bất đối xứng,
(p phân vị của đối vớip = 1 - a= 0,95 và 0,99)
n | p | n | p | ||
0,95 | 0,99 | 0,95 | 0,99 | ||
8 9 10 12 15 20
25 30 35 40 45 50
60 70 80 90 100 125
150 170 200 250 300 350 | 0,99 0,97 0,95 0,91 0,85 0,77
0,71 0,66 0,62 0,59 0,56 0,53
0,49 0,46 0,43 0,41 0,39 0,35
0,32 0,30 0,28 0,25 0,23 0,21 | 1,42 1,41 1,39 1,34 1,26 1,15
1,06 0,98 0,92 0,87 0,82 0,79
0,72 0,67 0,63 0,60 0,57 0,51
0,46 0,43 0,40 0,36 0,33 0,30 | 400 450 500 550 600 650
700 750 800 850 900 950
1000 1200 1400 1600 1800 2000
2500 3000 3500 4000 4500 5000 | 0,20 0,19 0,18 0,17 0,16 0,16
0,15 0,15 0,14 0,14 0,13 0,13
0,13 0,12 0,11 0,10 0,10 0,09
0,08 0,07 0,07 0,06 0,06 0,06 | 0,28 0,27 0,26 0,24 0,23 0,22
0,22 0,21 0,20 0,20 0,19 0,18
0,18 0,16 0,15 0,14 0,13 0,13
0,11 0,10 0,10 0,09 0,08 0,08 |
CHÚ THÍCH: Lấy từ tài liệu tham khảo [6] và [7]. |
Bảng 9 - Kiểm nghiệm độ nhọn,b2 (p phân vị của b2 đối vớip = a= 0,01 và 0,05 vàp = 1 - a= 0,95 và 0,99
n | p | P | ||
0,01 | 0,05 | 0,95 | 0,99 | |
8 9 10 12
15 20 25 30 35
40 45 50 75 100
125 150 200 250 300
350 400 450 500 550
600 650 700 750 800
850 900 950 1000 1200
1400 1600 1800 2000 2500
3000 3500 4000 4500 5000 | 1,31 1,35 1,39 1,46
1,55 1,65 1,72 1,79 1,84
1,89 1,93 1,95 2,08 2,18
2,24 2,29 2,37 2,42 2,46
2,50 2,52 2,55 2,57 2,58
2,60 2,61 2,62 2,64 2,65
2,66 2,66 2,67 2,68 2,71
2,72 2,74 2,76 2,77 2,79
2,81 2,82 2,83 2,84 2,85 | 1,46 1,53 1,56 1,64
1,72 1,82 1,91 1,98 2,03
2,07 2,11 2,15 2,27 2,35
2,40 2,45 2,51 2,55 2,59
2,62 2,64 2,66 2,67 2,69
2,70 2,71 2,72 2,73 2,74
2,74 2,75 2,76 2,76 2,78
2,80 2,81 2,82 2,83 2,85
2,86 2,87 2,88 2,88 2,89 | 3,70 3,86 3,95 4,05
4,13 4,17 4,16 4,11 4,10
4,06 4,00 3,99 3,87 3,77
3,71 3,65 3,57 3,52 3,47
3,44 3,41 3,39 3,37 3,35
3,34 3,33 3,31 3,30 3,29
3,28 3,28 3,27 3,26 3,24
3,22 3,21 3,20 3,18 3,16
3,15 3,14 3,13 3,12 3,12 | 4,53 4,82 5,00 5,20
5,30 5,36 5,30 5,21 5,13
5,04 4,94 4,88 4,59 4,39
4,24 4,13 3,98 3,87 3,79
3,72 3,67 3,63 3,60 3,57
3,54 3,52 3,50 3,48 3,46
3,45 3,43 3,42 3,41 3,37
3,34 3,32 3,30 3,28 3,25
3,22 3,21 3,19 3,18 3,17 |
CHÚ THÍCH: Lấy từ tài liệu tham khảo [7] và [8]. |
a) Các đường cong mô tả miền tới hạn ở mức ý nghĩa a= 0,05
CHÚ THÍCH: Lấy từ Tài liệu tham khảo [9].
Hình 9 - Kiểm nghiệm kết hợp sử dụng và b2 (kiểm nghiệm đa hướng)
b) Các đường cong mô tả miền tới hạn ở mức ý nghĩa a= 0,01
CHÚ THÍCH: Lấy từ Tài liệu tham khảo [9].
Hình 9 - Kiểm nghiệm kết hợp sử dụng và b2 (kiểm nghiệm đa hướng)
Bảng 10 - Hệ số ak kiểm nghiệm Shapiro-Wilk dùng cho tính toán thống kê kiểm nghiệm W
k | n | |||||||||
|
|
|
|
|
|
| 8 | 9 | 10 | |
1 2 3 4 5 | - - - - - | - - - - - | - - - - - | - - - - - | - - - - - | - - - - - | - - - - - | 0,605 2 0,316 4 0,174 3 0,056 1 - | 0,588 8 0,324 4 0,197 6 0,094 7 - | 0,573 9 0,329 1 0,214 1 0,122 4 0,039 9 |
| 11 | 12 | 13 | 14 | 15 | 16 | 17 | 18 | 19 | 20 |
1 2 3 4 5
6 7 8 9 10 | 0,560 1 0,331 5 0,226 0 0,142 9 0,069 5
- - - - - | 0,547 5 0,332 5 0,234 7 0,158 6 0,092 2
0,030 3 - - - - | 0,535 9 0,332 5 0,241 2 0,170 7 0,1099
0,053 9 - - - - | 0,525 1 0,331 8 0,246 0 0,180 2 0,124 0
0,072 7 0,024 0 - - - | 0,515 0 0,330 6 0,249 5 0,187 8 0,135 3
0,098 0 0,043 3 - - - | 0,505 6 0,329 0 0,252 1 0,193 9 0,144 7
0,100 5 0,059 3 0,019 6 - - | 0,496 8 0,327 3 0,254 0 0,198 8 0,152 4
0,1109 0,072 5 0,035 9 - - | 0,488 6 0,325 3 0,255 3 0,202 7 0,158 7
0,1197 0,083 7 0,049 6 0,016 3 - | 0,480 8 0,323 2 0,256 1 0,205 9 0,164 1
0,127 1 0,093 2 0,061 2 0,030 3 - | 0,473 4 0,321 1 0,256 5 0,208 5 0,168 6
0,133 4 0,101 3 0,071 1 0,042 2 0,014 0 |
| 21 | 22 | 23 | 24 | 25 | 26 | 27 | 28 | 29 | 30 |
1 2 3 4 5
6 7 8 9 10
11 12 13 14 15 | 0,464 3 0,318 5 0,257 8 0,211 9 0,173 6
0,139 9 0,109 2 0,080 4 0,053 0 0,026 3
- - - - | 0,459 0 0,3156 0,257 1 0,213 1 0,176 4
0,144 3 0,115 0 0,087 8 0,061 8 0,036 8
0,012 2 - - - - | 0,454 2 0,312 6 0,256 3 0,213 9 0,178 7
0,148 0 0,1201 0,094 1 0,069 6 0,045 9
0,022 8 - - - - | 0,449 3 0,309 8 0,255 4 0,214 5 0,180 7
0,151 2 0,124 5 0,099 7 0,076 4 0,053 9
0,032 1 0,010 7 - - - | 0,445 0 0,306 9 0,254 3 0,214 8 0,182 2
0,153 9 0,128 3 0,104 6 0,082 3 0,061 0
0,040 3 0,020 0 - - - | 0,440 7 0,304 3 0,253 3 0,215 1 0,183 6
0,156 3 0,131 6 0,108 9 0,087 6 0,067 2
0,047 6 0,028 4 0,009 4 - - | 0,436 6 0,301 8 0,252 2 0,215 2 0,184 8
0,158 4 0,134 6 0,1128 0,092 3 0,072 8
0,054 0 0,035 8 0,017 8 - - | 0,432 8 0,299 2 0,251 0 0,215 1 0,185 7
0,160 1 0,137 2 0,116 2 0,096 5 0,077 8
0,059 8 0,042 4 0,025 3 0,008 4 - | 0,429 1 0,296 8 0,249 9 0,215 0 0,186 4
0,161 6 0,139 5 0,1192 0,1002 0,082 2
0,065 0 0,048 3 0,032 0 0,015 9 - | 0,425 4 0,294 4 0,248 7 0,214 8 0,187 0
0,163 0 0,141 5 0,121 9 0,103 6 0,086 2
0,069 7 0,053 7 0,038 1 0,022 7 0,007 6 |
| 31 | 32 | 33 | 34 | 35 | 36 | 37 | 38 | 39 | 40 |
1 2 3 4 5
6 7 8 9 10
11 12 13 14 15
16 17 18 19 20 | 0,422 0 0,292 1 0,247 5 0,214 5 0,187 4
0,164 1 0,143 3 0,124 3 0,1066 0,089 9
0,073 0 0,058 5 0,043 5 0,028 9 0,014 4
- - - - - | 0,418 8 0,289 8 0,246 3 0,214 1 0,187 8
0,165 1 0,144 9 0,126 5 0,109 3 0,093 1
0,077 7 0,062 9 0,048 5 0,034 4 0,020 6
0,006 8 - - - - | 0,415 6 0,287 6 0,245 1 0,213 7 0,188 0
0,166 0 0,146 3 0,128 4 0,111 8 0,096 1
0,081 2 0,066 9 0,053 0 0,039 5 0,026 2
0,013 1 - - - - | 0,412 7 0,285 4 0,243 9 0,213 2 0,188 2
0,166 7 0,147 5 0,130 1 0,114 0 0,098 8
0,084 4 0,070 6 0,057 2 0,044 1 0,031 4
0,018 7 0,006 2 - - - | 0,409 8 0,283 4 0,242 7 0,212 7 0,188 3
0,167 3 0,148 7 0,131 7 0,116 0 0,101 3
0,087 3 0,073 9 0,061 0 0,048 4 0,036 1
0,023 9 0,011 9 - - - | 0,406 8 0,281 3 0,241 5 0,212 1 0,188 3
0,167 8 0,1496 0,133 1 0,117 9 0,103 6
0,090 0 0,077 0 0,064 5 0,052 3 0,040 4
0,028 7 0,017 2 0,005 7 - - | 0,404 0 0,279 4 0,240 3 0,211 6 0,188 3
0,168 3 0,150 5 0,134 4 0,1196 0,105 6
0,092 4 0,079 8 0,067 7 0,055 9 0,044 4
0,033 1 0,022 0 0,011 0 - - | 0,401 5 0,277 4 0,239 1 0,211 0 0,188 1
0,168 6 0,151 3 0,135 6 0,121 1 0,107 5
0,094 7 0,082 4 0,070 6 0,059 2 0,048 1
0,037 2 0,026 4 0,015 8 0,005 3 - | 0,398 9 0,275 5 0,238 0 0,210 4 0,188 0
0,168 9 0,152 0 0,136 6 0,122 5 0,109 2
0,096 7 0,084 8 0,073 3 0,062 2 0,051 5
0,040 9 0,030 5 0,020 3 0,010 1 - | 0,396 4 0,273 7 0,236 8 0,209 8 0,187 8
0,169 1 0,152 6 0,137 6 0,123 7 0,110 8
0,098 6 0,087 0 0,075 9 0,065 1 0,054 6
0,044 4 0,034 3 0,024 4 0,014 6 0,004 9 |
| 41 | 42 | 43 | 44 | 45 | 46 | 47 | 48 | 49 | 50 |
1 2 3 4 5
6 7 8 9 10
11 12 13 14 15
16 17 18 19 20
21 22 23 24 25 | 0,394 0 0,271 9 0,235 7 0,209 1 0,187 6
0,169 3 0,153 1 0,138 4 0,124 9 0,112 3
0,100 4 0,089 1 0,078 2 0,067 7 0,057 5
0,047 6 0,037 9 0,028 3 0,0188 0,009 4
- - - - - | 0,391 7 0,270 1 0,234 5 0,208 5 0,187 4
0,169 4 0,153 5 0,139 2 0,125 9 0,1136
0,102 0 0,090 9 0,080 4 0,070 1 0,060 2
0,050 6 0,041 1 0,031 8 0,022 7 0,0136
0,004 5 - - - - | 0,389 4 0,268 4 0,233 4 0,207 8 0,187 1
0,169 5 0,153 9 0,139 8 0,126 9 0,114 9
0,103 5 0,092 7 0,082 4 0,072 4 0,062 8
0,053 4 0,044 2 0,035 2 0,026 3 0,017 5
0,008 7 - - - - | 0,387 2 0,266 7 0,232 3 0,207 2 0,186 8
0,169 5 0,154 2 0,140 5 0,127 8 0,116 0
0,104 9 0,094 3 0,084 2 0,074 5 0,065 1
0,056 0 0,047 1 0,038 3 0,029 6 0,021 1
0,012 6 0,004 2 - - - | 0,385 0 0,265 1 0,231 3 0,206 5 0,1868
0,169 5 0,154 5 0,141 0 0,128 6 0,117 0
0,106 2 0,090 9 0,086 0 0,076 5 0,067 3
0,058 4 0,049 7 0,041 2 0,032 8 0,024 5
0,016 3 0,008 1 - - - | 0,383 0 0,263 5 0,230 2 0,205 8 0,186 2
0,169 5 0,1548 0,141 5 0,1293 0,118 0
0,107 3 0,097 2 0,087 6 0,078 3 0,069 4
0,060 7 0,052 2 0,043 9 0,035 7 0,027 7
0,019 7 0,011 8 0,003 9 - - | 0,380 8 0,262 0 0,229 1 0,205 2 0,186 9
0,169 5 0,155 0 0,142 0 0,130 0 0,118 9
0,108 5 0,098 6 0,089 2 0,080 1 0,071 3
0,062 8 0,054 6 0,046 5 0,038 5 0,030 7
0,022 9 0,015 3 0,007 6 - - | 0,378 9 0,260 4 0,228 1 0,204 5 0,185 5
0,169 3 0,155 1 0,142 3 0,130 6 0,119 7
0,109 5 0,099 8 0,090 6 0,081 7 0,073 1
0,064 8 0,056 8 0,048 9 0,041 1 0,033 5
0,025 9 0,018 5 0,011 1 0,003 7 - | 0,377 0 0,258 9 0,227 1 0,203 8 0,185 1
0,169 2 0,155 3 0,142 7 0,131 2 0,120 5
0,110 5 0,101 0 0,091 9 0,083 2 0,074 8
0,066 7 0,058 8 0,051 1 0,043 6 0,036 1
0,028 8 0,021 5 0,014 3 0,007 1 - | 0,375 1 0,257 4 0,226 0 0,203 2 0,184 7
0,169 1 0,155 4 0,143 0 0,131 7 0,121 2
0,111 3 0,102 0 0,093 2 0,084 6 0,076 4
0,068 5 0,060 8 0,053 2 0,045 9 0,038 6
0,031 4 0,024 4 0,017 4 0,010 4 0,003 5 |
CHÚ THÍCH: Lấy từ tài liệu tham khảo [10]. |
Bảng 11 - Kiểm nghiệm Shapiro-Wilk: p phân vị của thống kê kiểm nghiệm Wđối với p =a= 0,01 và 0,05
n | p | n | p | ||
0,01 | 0,05 | 0,01 | 0,05 | ||
8 9 10
11 12 13 14 15
16 17 18 19 20
21 22 23 24 25 |
0,749 0,764 0,781
0,792 0,805 0,814 0,825 0,835
0,844 0,851 0,858 0,863 0,868
0,873 0,878 0,881 0,884 0,888 |
0,818 0,829 0,842
0,850 0,859 0,866 0,874 0,881
0,887 0,892 0,897 0,901 0,905
0,908 0,911 0,914 0,916 0,918 | 26 27 28 29 30
31 32 33 34 35
36 37 38 39 40
41 42 43 44 45
46 47 48 49 50 | 0,891 0,894 0,896 0,898 0,900
0,902 0,904 0,906 0,908 0,910
0,912 0,914 0,916 0,917 0,919
0,920 0,922 0,923 0,924 0,926
0,927 0,928 0,929 0,929 0,930 | 0,920 0,923 0,924 0,926 0,927
0,929 0,930 0,931 0,933 0,934
0,935 0,936 0,938 0,939 0,940
0,941 0,942 0,943 0,944 0,945
0,945 0,946 0,947 0,947 0,947 |
CHÚTHÍCH: Lấy từ tài liệu tham khảo [10]. Xem tài liệu tham khảo [11] đối với cỡ mẫu mở rộng 51 ≤ n ≤ 99. |
Bảng 12 - Kiểm nghiệm Epps-Pulley: p phân vị của thống kê kiểm nghiệm TEP đối với p = 1 - a= 0,90; 0,95; 0,975 và 0,99
n | 1 -a | |||
0,90 | 0,95 | 0,975 | 0,99 | |
8
9 10 15 20 30
50 100 200 | 0,271
0,275 0,279 0,284 0,287 0,288
0,290 0,291 0,290 | 0,347
0,350 0,357 0,366 0,368 0,371
0,374 0,376 0,379 | 0,426
0,428 0,437 0,447 0,450 0,459
0,461 0,464 0,467 | 0,526
0,537 0,545 0,560 0,564 0,569
0,574 0,583 0,590 |
CHÚ THÍCH: Lấy từ tài liệu tham khảo [5]. |
Bảng 13 - Kiểm nghiệm kết hợp sử dụng nhiềumẫu độc lập: Hệ số để chuyển đổi W thànhchuẩn hóabiến chuẩn chuẩn hóa đối với n = 8(1)50
| Bảng 14 - Đại lượng up của phân bố chuẩn chuẩn hóa
|