Tiêu chuẩn quốc gia TCVN 9603:2013 (ISO 5479:1997) về Giải thích dữ liệu thống kê - Kiểm nghiệm sai lệch so với phân bố chuẩn

Từ khóa: Số Hiệu, Tiêu đề hoặc Nội dung Văn bản.

+ Tìm kiếm nâng cao

Loại văn bản

Lĩnh vực

Cơ quan ban hành

Người ký văn bản

Ngày ban hành

Ngày hiệu lực

Ngày hết hiệu lực

Từ khóa: Tiêu đề hoặc Nội dung ngắn gọn Tin tức...

Từ khóa: Tên thành viên

Xin mời bạn đăng nhập, đăng ký để xem/thao tác với nội dung này.

Nội dung đang được cập nhật

TIÊU CHUẨN QUỐC GIA

TCVN 9603:2013

ISO 5479:1997

GIẢI THÍCH CÁC DỮ LIỆU THỐNG KÊ - KIỂM NGHIỆM SAI LỆCH SO VỚI PHÂN BỐ CHUẨN

Statistical interpretation ofdata - Tests for departure from the normal distribution

Lời nói đầu

TCVN 9603:2013 hoàn toàn tương đương với ISO 5479:1997;

TCVN 9603:2013 do Ban kỹ thuật tiêu chuẩn quốc gia TCVN/TC 69 Ứng dụng các phương pháp thống kê biên soạn, Tổng cục Tiêu chuẩn Đo lường Chất lượng đề nghị, Bộ Khoa học và Công nghệ công bố.

Lời giới thiệu

Nhiều phương pháp thống kê được khuyến nghị trong tiêu chuẩn này, như các phương pháp mô tả trong ISO 2854 [1], đều dựa trên giả định rằng (các) biến ngẫu nhiên áp dụng với các phương pháp này là độc lập có phân bố chuẩn với một hoặc cả hai tham số chưa biết.

Do đó nảy sinh câu hỏi sau đây. Phân bố thể hiện bởi mẫu đủ gần với phân bố chuẩn để có thể sử dụng một cách tin cậy các phương pháp trong tiêu chuẩn này không?

Không có câu trả lời đơn giản là có hoặc không cho câu hỏi này có hiệu lực trong mọi trường hợp. Vì lý do này, nhiều “kiểm nghiệm tính chuẩn” đã được xây dựng, mỗi phép kiểm nghiệm ít nhiều nhạy với đặc trưng cụ thể của phân bố được xem xét; ví dụ như độ bất đối xứng hay độ nhọn.

Nói chung, phép kiểm nghiệm sử dụng được thiết kế để tương ứng với rủi ro tiên nghiệm xác định trước rằng giả thuyết tính chuẩn bị bác bỏ ngay cả khi nó đúng (sai lầm loại một). Mặt khác, không thể xác định được xác suất giả thuyết này không bị bác bỏ khi nó không đúng (sai lầm loại hai) nếu như đối giả thuyết (nghĩa là ngược với giả thuyết về tính chuẩn) có thể xác định chính xác. Điều này nhìn chung là không thể và, hơn nữa, nó đòi hỏi nỗ lực tính toán. Đối với phép kiểm nghiệm riêng rẽ, rủi ro này đặc biệt lớn nếu cỡ mẫu nhỏ.

GIẢI THÍCH CÁC DỮ LIỆU THỐNG KÊ -KIỂM NGHIỆM SAI LỆCH SO VỚI PHÂN BỐ CHUẨN

Statistical interpretation ofdata - Tests for departure from the normal distribution

1. Phạm vi áp dụng

1.1. Tiêu chuẩn này đưa ra hướng dẫn về các phương pháp và phép kiểm nghiệm để sử dụng trong việc xác định có nên bác bỏ giả thuyết về phân bố chuẩn hay không, giả định rằng các quan trắc là độc lập.

1.2. Bất cứ khi nào có nghi ngờ về việc các quan trắc có phân bố chuẩn hay không, việc sử dụng phép kiểm nghiệm sai lệch so với phân bố chuẩn sẽ rất hữu ích hay thậm chí là cần thiết. Tuy nhiên, trong trường hợp các phương pháp ổn định (nghĩa là khi các kết quả chỉ thay đổi rất ít khi phân bố xác suất thực tế của quan trắc không phải là phân bố chuẩn), thì phép kiểm nghiệm sai lệch so với phân bố chuẩn không hữu ích lắm. Đây là trường hợp, ví dụ, khi trung bình của mẫu ngẫu nhiên đơn của quan trắc được kiểm tra dựa trên giá trị lý thuyết cho trước bằng cách sử dụng phép kiểm nghiệm t.

1.3. Không nhất thiết phải sử dụng phép kiểm nghiệm như vậy khi đề cập đến các phương pháp thống kê dựa trên giả thuyết về tính chuẩn. Có khả năng là không nghi ngờ gì về phân bố chuẩn của quan trắc cho dù có các lý do lý thuyết (ví dụ vật lý) khẳng định giả thuyết đó hoặc vì giả thuyết này được coi là có thể chấp nhận được theo thông tin trước đó.

1.4. Các phép kiểm nghiệm sai lệch so với phân bố chuẩn lựa chọn trong tiêu chuẩn này chủ yếu dùng cho dữ liệu đầy đủ, không phải dữ liệu phân nhóm. Chúng không thích hợp với dữ liệu bị mất theo dõi.

1.5. Các phép kiểm nghiệm sai lệch so với phân bố chuẩn lựa chọn trong tiêu chuẩn này có thể áp dụng cho các giá trị quan trắc hoặc các hàm của chúng, như logarit hoặc căn bậc hai.

1.6. Phép kiểm nghiệm sai lệch so với phân bố chuẩn rất kém hiệu quả đối với các cỡ mẫu nhỏ hơn tám. Vì vậy, tiêu chuẩn này giới hạn ở cỡ mẫu từ tám trở lên.

2. Tài liệu viện dẫn

Các tài liệu viện dẫn trong tiêu chuẩn này rất cần thiết cho việc áp dụng tiêu chuẩn. Đối với các tài liệu có ghi năm công bố thì áp dụng bản được nêu. Đối với các tài liệu không ghi năm công bố thì áp dụng phiên bản mới nhất, bao gồm cả các sửa đổi.

TCVN 8244-1 (ISO 3534-1), Thống kê - Từ vựng và ký hiệu - Phần 1: Thuật ngữ chung về xác suất và thống kê

3. Thuật ngữ, định nghĩa và ký hiệu

3.1. Thuật ngữ và định nghĩa

Tiêu chuẩn này áp dụng các thuật ngữ và định nghĩa trong TCVN 8244-1 (ISO 3534-1).

3.2. Ký hiệu

Tiêu chuẩn này sử dụng các ký hiệu dưới đây.

a_k hệ số của phép kiểm nghiệm Shapiro-Wilk

A đại lượng phụ trợ cho phép kiểm nghiệm Epps-Pulley

b₂độ nhọn thực nghiệm

độ bất đối xứng thực nghiệm

B đại lượng phụ trợ cho phép kiểm nghiệm Epps-Pulley

Ekỳ vọng

G_jđại lượng phụ trợ cho phép kiểm nghiệm kết hợp sử dụng nhiều mẫu độc lập

hsố lượng mẫu liên tiếp

H₀giả thuyết không

H₁đối giả thuyết

ksố giá trị quan trắc x trong mẫu, sắp xếp theo thứ tự không giảm

m_jmômen trung tâm bậc j của mẫu

ncỡ mẫu

pxác suất kèm với phân vị p của phânbố

Pxác suất

P_kxác suất kèm với phân vị X_(k)

Sđại lượng phụ trợ cho phép kiểm nghiệmShapiro-Wilk

Tthống kê kiểm nghiệm

T_E_P thống kê kiểm nghiệm của phép kiểm nghiệm Epps-Pulley

u_pp-phân vị của phân bố chuẩn chuẩn hóa

v_jđại lượng phụ trợ cho phép kiểm nghiệmkếthợp sử dụngnhiều mẫu độclập

W thống kê kiểm nghiệm của phép kiểm nghiệm Shapiro-Wilk

W_jđại lượng phụ trợ cho phép kiểm nghiệmkếthợp sử dụngnhiều mẫu độclập

xgiá trị của X

X biến ngẫu nhiên

x_(j)giá trị thứ j trong mẫu, sắp xếp theo thứ tự không giảm

x_(k)giá trị thứ k trong mẫu, sắp xếp theo thứ tự không giảm

trung bình số học

amức ý nghĩa

bxác suất sai lầm loại hai

b₂độ nhọn của tổng thể

b₂-3 độ tù của tổng thể

độ bất đối xứng của tổng thể

g đại lượng phụ trợ cho phép kiểm nghiệm kết hợp sử dụng nhiều mẫu độc lập

g_(n)hệ số của phép kiểm nghiệm kết hợp sử dụng nhiều mẫu độc lập

dđại lượng phụ trợ cho phép kiểm nghiệm kết hợp sử dụng nhiều mẫu độc lập

d₍_n)hệ số của phép kiểm nghiệm kết hợp sử dụng nhiều mẫu độc lập

eđại lượng phụ trợ cho phép kiểm nghiệm kết hợp sử dụng nhiều mẫu độc lập

e_(n)hệ số của phép kiểm nghiệm kết hợp sử dụng nhiều mẫu độc lập

mkỳ vọng

m₂ phương sai của tổng thể

m₃mômen trung tâm bậc bacủamẫu

m₄mômen trung tâm bậc bốncủamẫu

s độ lệch chuẩn của tổng thể ()

4. Khái quát

4.1. Có nhiều loại phép kiểm nghiệm sai lệch so với tính chuẩn. Trong tiêu chuẩn này xem xét các phương pháp đồ thị, kiểm nghiệm mômen, kiểm nghiệm hồi quy và kiểm nghiệm hàm đặc trưng. Phép kiểm nghiệm khi-bình phương chỉ thích hợp với dữ liệu nhóm nhưng vì việc phân nhóm dẫn đến mất thông tin nên chúng không được xem xét trong tiêu chuẩn này.

4.2. Nếu không có sẵn thông tin bổ sung về mẫu thì khuyến nghị trước tiên vẽ đồ thị xác suất chuẩn; nghĩa là vẽ hàm phân bố tích lũy của các giá trị quan trắc trên biểu đồ xác suất chuẩn gồm một hệ trục tọa độ trong đó hàm phân bố tích lũy của phân bố chuẩn được thể hiện bằng một đường thẳng.

Phương pháp này, được mô tả trong điều 5, cho phép “thấy” ngay phân bố quan trắc có gần với phân bố chuẩn hay không. Với thông tin bổ sung này có thể quyết định tiến hành phép kiểm nghiệm định hướng hay tiến hành kiểm nghiệm hồi quy hoặc kiểm nghiệm hàm đặc trưng, hay không thực hiện kiểm nghiệm nào cả. Ngoài ra, mặc dù cách trình bày bằng đồ thị không được coi là kiểm nghiệm chặt chẽ nhưng thông tin tổng hợp mà nó đưa ra là bổ trợ thiết yếu cho bất kỳ phép kiểm nghiệm độ chệch so với phân bố chuẩn nào. Trong trường hợp bác bỏ giả thuyết không thì bằng cách này thường có khả năng ước đoán loại đối giả thuyết có thể áp dụng được.

4.3. Phép kiểm nghiệm sai lệch so với phân bố chuẩn là kiểm nghiệm giả thuyết không rằng mẫu gồm n quan trắc độc lập từ một và cùng phân bố chuẩn. Phép kiểm nghiệm gồm việc tính toán hàm T của các quan trắc được gọi là thống kê kiểm nghiệm. Giả thuyết không của phân bố chuẩn sau đó không bị bác bỏ hoặc bác bỏ tùy thuộc vào việc giá trị của T có nằm trong phạm vi tập hợp giá trị gần giá trị dự kiến tương ứng với phân bố chuẩn hay không.

4.4. Miền tới hạn của phép kiểm nghiệm này là tập hợp giá trị T dẫn đến việc bác bỏ giả thuyết không. Mức ý nghĩa của kiểm nghiệm là xác suấtPthu được giá trị T nằm trong miền tới hạn khi giả thuyết không là đúng. Mức này cho xác suất bác bỏ sai giả thuyết không (sai lầm loại một).

Ranh giới của miền tới hạn (hoặc trong trường hợp kiểm nghiệm hai phía, các ranh giới của miền tới hạn) là (các) giá trị tới hạn của thống kê kiểm nghiệm.

4.5. Hiệu lực của phép kiểm nghiệm là xác suất bác bỏ giả thuyết không khi nó không đúng. Hiệu lực cao ứng với xác suất thấp của việc không bác bỏ giả thuyết không một cách sai lầm (sai lầm loại hai).

Cần nhấn mạnh rằng hiệu lực của phép kiểm nghiệm (nghĩa là trong trường hợp nhất định, xác suất giả thuyết không về phân bố chuẩn sẽ bị bác bỏ nếu như điều này sai) sẽ tăng khi số quan trắc tăng. Ví dụ, độ lệch khỏi phân bố chuẩn có thể trở nên rõ ràng khi sử dụng phép kiểm nghiệm sai lệch so với phân bố chuẩn trên mẫu lớn có thể không phát hiện được bằng chính phép kiểm nghiệm đó nếu có ít quan trắc hơn.

4.6. Có sự khác biệt giữa hai loại kiểm nghiệm sai lệch so với phân bố chuẩn. Khi dạng sai lệch so với phân bố chuẩn được quy định trong đối giả thuyết thì đó là kiểm nghiệm có hướng. Tuy nhiên, khi dạng sai lệch so với phân bố chuẩn không được quy định trong đối giả thuyết thì kiểm nghiệm là kiểm nghiệm vô hướng.

Trong kiểm nghiệm có hướng, miền tới hạn được xác định sao cho hiệu lực của phép kiểm nghiệm đạt giá trị cực đại. Trong phép kiểm nghiệm vô hướng, cần chia miền tới hạn sao cho miền tới hạn bao gồm các giá trị của thống kê kiểm nghiệm nằm cách xa giá trị dự kiến.

Nếu các giả định thể hiện loại sai lệch so với phân bố chuẩn, nghĩa là khi phân bố được nghiên cứu có độ bất đối xứng hay độ nhọn khác so với của phân bố chuẩn, thì cần áp dụng kiểm nghiệm có hướng vì hiệu lực của nó lớn hơn hiệu lực của kiểm nghiệm vô hướng.

4.7. Chú ý là kiểm nghiệm có hướng nhất thiết là một phía. Trong trường hợp bất đối xứng, ví dụ, nó tập trung vào bất đối xứng dương hoặc bất đối xứng âm. Tuy nhiên, khi cùng xem xét nhiều lựa chọn thì kiểm nghiệm là đa hướng. Đây là trường hợp đặc biệt khi độ bất đối xứng khác không và độ nhọn khác so với phân bố chuẩn được xem xét.

4.8. Các Bảng 8 đến Bảng 14 và Hình 9 cho phép thực hiện các kiểm nghiệm cho hầu hết các mức a thông thường; nghĩa là a = 0,05 và a = 0,01. Mức ý nghĩa phải được quy định trước khi thực hiện kiểm nghiệm. Chú ý rằng kiểm nghiệm có thể dẫn đến bác bỏ giả thuyết không ở mức 0,05 và không bác bỏ chính giả thuyết này ở mức 0,01.

4.9. Trong quá trình tính toán các thống kê kiểm nghiệm, cần sử dụng ít nhất sáu chữ số có nghĩa. Các tổng phụ, kết quả trung gian và đại lượng phụ trợ không được làm tròn đến ít hơn sáu chữ số có nghĩa.

5. Phương pháp đồ thị

5.1. Hàm phân bố tích lũy của các giá trị quan trắc được vẽ trên giấy đồ thị xác suất chuẩn. Trên đồ thị này, một trong các trục (trong tiêu chuẩn này là trục tung) có thang phi tuyến tính theo vùng nằm trong hàm phân bố chuẩn chuẩn hóa và được ghi các giá trị tương ứng của tần suất tích lũy. Trục còn lại có thang tuyến tính cho các giá trị X theo thứ tự. Hàm phân bố tích lũy của biến X khi đó gần như một đường thẳng.

Đôi khi, hai trục này thay đổi cho nhau. Ngoài ra, nếu có sự chuyển đổi chuẩn hóa biến X, thì thang tuyến tính có thể được thay bằng thang logarit, bậc hai, nghịch đảo hoặc thang đo khác.

Hình 1 đưa ra ví dụ về giấy đồ thị xác suất chuẩn. Trên trục tung, giá trị tần suất tích lũy được cho theo phần trăm, trong khi trục hoành có thang đo tuyến tính tùy ý.

Giấy đồ thị xác suất chuẩn để trống được cho trong Phụ lục A.

Nếu đồ thị trong bảng này đưa ra tập hợp các điểm xuất hiện rải rác quanh đường thẳng thì điều này cung cấp hỗ trợ sơ bộ cho giả định rằng mẫu có thể được xem xét một cách hợp lý là xuất phát từ phân bố chuẩn.

Tuy nhiên, nếu có độ lệch hệ thống so với đường thẳng thì đồ thị thường gợi ý loại phân bố cần đưa vào xem xét.

Tầm quan trọng của cách tiếp cận này là nó cung cấp thông tin rõ ràng về loại sai lệch so với phân bố chuẩn.

Nếu đồ thị chỉ ra rằng dữ liệu đến từ phân bố định dạng (ví dụ nếu đồ thị hàm phân bố tích lũy như thể hiện trên Hình 5 hoặc 6) thì việc chuyển đổi dữ liệu có thể dẫn đến phân bố chuẩn.

Nếu đồ thị chỉ ra rằng dữ liệu không đến từ phân bố thuần nhất đơn giản mà từ sự pha trộn hai hoặc nhiều tổng thể con thuần nhất (ví dụ nếu đồ thị hàm phân bố tích lũy như thể hiện trên Hình 7) thì khuyến nghị là cần nhận biết các tổng thể con và tiếp tục phân tích từng tổng thể con một cách riêng rẽ.

Cần lưu ý rằng đồ thị như vậy không thể kiểm nghiệm sai lệch so với phân bố chuẩn một cách chặt chẽ. Trong trường hợp mẫu nhỏ, các đường cong rõ rệt có thể xuất hiện đối với phân bố chuẩn, trong khi đối với mẫu lớn, các đường cong không rõ nét có thể chỉ ra phân bố không phải phân bố chuẩn.

5.2. Quy trình vẽ đồ thị bao gồm sắp xếp các giá trị quan trắc (x₍₁₎, x₍₂₎, …,x_(n₎) theo thứ tự không giảmvà sau đó vẽ đồ thị

P_k = (k - 3/8)/(n + 1/4) (1)

theo x_(k) trên giấy đồ thị xác suất chuẩn.

CHÚ THÍCH 1: Các thay thế cho công thức (1) thường được sử dụng là

P_k = (k - 1/2)/n

và

P_k = k/(n + 1)

Đây là các phép gần đúng kém hơn cho hàm phân bố chuẩn của các thống kê thứ tự dự kiến,F[E(X_(k))] vàviệcsử dụng chúng không được khuyến nghị.

5.3. Ví dụ về cách sử dụng giấy đồ thị xác suất chuẩn được cho trên Hình 2.

Tiêu chuẩn quốc gia TCVN 9603:2013 (ISO 5479:1997) về Giải thích dữ liệu thống kê - Kiểm nghiệm sai lệch so với phân bố chuẩn

Hình 1 - Giấy đồ thị xác suất chuẩn được chú giải

Hình 2 - Bảng đồ thị xác suất chuẩn được chú giải

Bảng 1 thể hiện các giá trị x_(k) theo thứ tự không giảm kết quả của loạt 15 phép thử chịu uốn luân phiên độc lập.

Bảng 1 - Kết quả, x_(k) của loạt 15 phép thử chịu uốn luân phiên và các giá trị tương ứng lg (10x_(k))

x_(k)

lg(10x_(k))

0,041

0,107

0,172

0,238

0,303

0,369

0,434

0,500

0,566

0,631

0,697

0,762

0,828

0,893

0,959

0,200

0,330

0,445

0,490

0,780

0,920

0,950

0,970

1,040

1,710

2,220

2,275

3,650

7,000

8,800

0,301

0,519

0,648

0,690

0,892

0,964

0,978

0,987

1,017

0,233

1,346

1,357

1,562

1,845

1,944

CHÚ THÍCH 2: Trong Bảng 1 và các ví dụ dưới đây, đơn vị của các quan trắc được bỏ qua vì chúng không thích hợp cho các phép thử trong tiêu chuẩn này.

Bằng cách kết hợp xác suất

P_k = (k - 3/8)/(n + 1/4)

với giá trị x_(k) nhỏ nhất thứ k, thu được loạt các điểm thể hiện trên Hình 2a). Có thể thấy ngay từ đồ thị là các điểm này không tạo thành đường thẳng. Tuy nhiên, nếu x_(k) được thay bằng lg(10x_(k)) thì đồ thị mới [Hình 2b)] dẫn đến một loạt các điểm lúc này nằm khá gần với đường thẳng.

Do đó, giả thuyết về phân bố chuẩn của logarit của các quan trắc có vẻ thích hợp.

5.4. Cần chú ý rằng các giá trị quan trắc cực trị có phương sai lớn hơn các giá trị ở giữa. Do đó và vì thang đo tần suất tích lũy mở rộng về phía các cực trị, nên một số ít giá trị nằm ở một trong hai đầu của phân bố tích lũy tách biệt khỏi đường thẳng xác định bởi các giá trị ở giữa không được coi là chỉ thị sai lệch so với phân bố chuẩn.

Cỡ mẫu càng lớn thì các kết luận có thể rút ra từ hình dạng của đồ thị càng đáng tin cậy.

Nếu đồ thị hàm phân bố tích lũy của các giá trị quan trắc trong đó các giá trị lớn có xu hướng nằm phía dưới đường thẳng xác định bởi các giá trị khác thì việc chuyển đổi như

y = log x

hay

thường sẽ dẫn đến đồ thị phù hợp hơn với đường thẳng [xem Hình 2b) và Hình 5].

Phần trên của các Hình 3 đến 7 cho thấy hàm phân bố tích lũy so sánh với hàm mật độ tương ứng thể hiện trong phần dưới của mỗi hình.

Nếu đồ thị hàm phân bố tích lũy của các giá trị quan trắc như thể hiện trên Hình 3 hoặc 4 thì phân bố tần suất tương ứng là của độ nhọn bè (platykurtic) hoặc của độ nhọn tù (leptokurtic).

Đồ thị hàm phân bố tích lũy thể hiện trên Hình 5 và 6 ứng với hàm mật độ có độ bất đối xứng dương và độ bất đối xứng âm.

Hình 7 thể hiện hàm phân bố tích lũy và hàm mật độ của sự xếp chồng hai hàm mật độ khác nhau.


Hình 3 - Hàm mật độ với độ nhọn bè	Hình4-Hàmmậtđộvớiđộnhọntù

Hình 5 - Hàm mật độ với độ bất đối xứng dương		Hình 6 - Hàm mật độ với độ bất đối xứng âm

Hình 7 - Xếp chồng của hai hàm mật độ khác nhau

6. Kiểm nghiệm có hướng

6.1. Quy định chung

6.1.1. Kiểm nghiệm có hướng xem xét ở đây chỉ liên quan đến đặc trưng độ nhọn hoặc độ bất đối xứng trong phân bố của các quan trắc. Chúng dựa trên thực tế là trong trường hợp biến ngẫu nhiên chuẩn X có trung bình m = E(X), mômen trung tâm bậc ba là

m₃ = E [(X - m)³] = 0 …(2)

mômen trung tâm chuẩn hóa bậc ba là

…(3)

và mômen trung tâm chuẩn hóa bậc bốn là

…(4)

trong đó

m₂ = E[(X - m)²] ...(5)

m₄ = E[X - m)⁴] ...(6)

là bất đối xứng của tổng thể và có thể lớn hơn, bằng hoặc nhỏ hơn không;

b₂là độ nhọn của tổng thể và luôn dương;

b₂ - 3 là độ tù của tổng thể;

bất đẳng thức luôn đúng.

6.1.2. Trong kiểm nghiệm độ bất đối xứng, đối giả thuyết là

H₁:m₃ > 0

hoặc, tương ứng

có nghĩa là bất đối xứng dương (xem Hình 5) hoặc

H₁:m₃ < 0

hoặc, tương ứng

< 0

có nghĩa là bất đối xứng âm (xem Hình 6).

Nói chung, phân bố có bất đối xứng dương có sự phân tán cao hơn giữa các giá trị biến lớn so với giữa các giá trị biến nhỏ; ngược lại là trường hợp bất đối xứng âm.

6.1.3. Trong kiểm nghiệm độ nhọn, đối giả thuyết là

H₁:b₂ > 3

có nghĩa là độ nhọn tù (hàm mật độ leptokurtic) (xem Hình 4) hoặc

H₁:b₂ < 3

có nghĩa là độ nhọn bè (hàm mật độ platykurtic) (xem Hình 3).

So với phân bố chuẩn, phân bố có độ nhọn tù có xu hướng có nhiều giá trị biến gần với trung bình và hướng tới hai phía cực trị. Ngược lại là trường hợp độ nhọn bè.

6.1.4. Việc sử dụng kiểm nghiệm có hướng chỉ hợp lý khi có thông tin cụ thể về cách thức phân bố thực khác biệt so với phân bố chuẩn. Thông tin này có thể có được từ tính chất tự nhiên của dữ liệu hoặc loại nhiễu có thể ảnh hưởng tới quá trình tạo dữ liệu.

Ví dụ, thực tế là biến không âm, có trung bình gần với không so với giá trị độ lệch chuẩn, có thể là lý do của bất đối xứng dương của phân bố thực. Tương tự, nhiễu bất kỳ trong quá trình tạo dữ liệu có thể gây ra sự pha trộn các tổng thể chuẩn của cùng một trung bình nhưng khác phương sai dẫn đến phân bố không chuẩn có b₂> 3.

6.1.5. Trong mọi trường hợp, việc lựa chọn kiểm nghiệm hướng cần dựa trên các xem xét chung liên quan đến tính chất của quan trắc hoặc quá trình tạo ra chúng chứ không phải dựa trên dạng phân bố cụ thể của các giá trị quan trắc. Trong trường hợp đề cập sau, chỉ kết quả của kiểm nghiệm vô hướng mới được coi là khách quan.

6.1.6. Nếux₁, x₂,… x_n là loạt các quan trắc thì

…(7)

…(8)

trong đó j = 2, 3, 4

và thống kê kiểm nghiệm độ bất đối xứng và độ nhọn tương ứng là các đại lượng

…(9)

và

…(10)

6.2. Kiểm nghiệm có hướng sử dụng độ nhọn

Kiểm nghiệm này áp dụng cho n ≥ 8; tuy nhiên, vì lý do thực tế, Bảng 8 được giới hạn ở n ≤ 5000.

Nếu đối giả thuyết gồm bất đối xứng dương thì chỉ nên tiến hành kiểm nghiệm nếu m₃ > 0. Mặt khác, nếu đối giả thuyết gồm bất đối xứng âm thì chỉ nên tiến hành kiểm nghiệm nếu m₃ < 0.

Trong hai trường hợp bất đối xứng, kết luận theo hướng bác bỏ giả thuyết không ở mức ý nghĩa a nếu thống kê vượt quá p-phân vị đối với p = 1 - a.

Bảng 8 thể hiện thống kê kiểm nghiệm p-phân vị này đối với p = 1 - a trong đó a = 0,05 và a = 0,01 và cỡ mẫu n = 8(1)10, 12, 15(5)50(10)100(25)200(50)1000(200)2000(500)5000.

VÍ DỤ 1: Ví dụ về việc sử dụng kiểm nghiệm có hướng đối với độ bất đối xứng sử dụng như sau đây. Bảng2 đưa ra 50 giá trị đo độc lập độ sâu của dác gỗ trong các tấm gỗ dự kiến dùng làm nút điện báo. Vì độ sâu củadác gỗ là một đặc trưng có giá trị không âm về cơ bản gần với “không” nên có thể giả định bất đối xứng dương. Do đó, cần thực hiện kiểm nghiệm có hướng thích hợp với đối giả thuyết

Vì vậy, từ các giá trị quan trắc liệt kê trong Bảng 2, tính được:

(1,25 + 1,35 + … + 5,10)/50 = 2,873

[(1,25 - 2,873)² + … + (5,10 - 2,873)²)]/50 = 0,937 921

[(1,25 - 2,873)³ + … + (5,10 - 2,873)³)]/50 = 0,254 559

Do đó

= 0,280

Với mức ý nghĩa a = 0,05, nghĩa là p = 1 - a = 0,95 và n = 50, giá trị tới hạn của thống kê kiểm nghiệm là 0,53 (xem Bảng 8). Giá trị này lớn hơn tính được; do đó, giả thuyết không về phân bố chuẩn không bị bác bỏ ở mức ý nghĩa lựa chọn.

Bảng 2 - Độ sâu dác gỗ

1,25

1,35

1,40

1,50

1,55

1,60

1,75

1,85

1,95

2,05

2,10

2,15

2,20

2,25

2,35

2,40

2,55

2,60

2,70

2,75

2,80

2,95

3,00

3,05

3,10

3,15

3,20

3,30

3,45

3,50

3,80

3,90

4,00

4,05

4,10

4,20

4,45

4,50

4,70

5,10

CHÚ THÍCH: Dãy giá trị sắp xếp theo thứ tự không giảm của 50 quan trắc.

6.3. Kiểm nghiệm có hướng nhờ sử dụng độ nhọn b₂

Phép kiểm nghiệm này áp dụng cho n ≥ 8; tuy nhiên, vì lý do thực tế, Bảng 9 giới hạn ở n ≤ 5000.

Trong kiểm nghiệm độ nhọn tù, đối giả thuyết là

H₁:b₂ > 3

Đối giả thuyết phải bị bác bỏ ở mức ý nghĩa xác định trước, ví dụ, a= 0,05 hoặc 0,01 nếu giá trị b₂ tính được vượt quá giá trị tới hạn của thống kê kiểm nghiệm ứng với p phân vị đối với p = 1 - a = 0,95 hoặc p = 1 - a = 0,99 và cỡ mẫu n.

Trong kiểm nghiệm độ nhọn bè, đối giả thuyết là

H₁:b₂ < 3

Đối giả thuyết phải bị bác bỏ ở mức ý nghĩa xác định trước, ví dụ, a - 0,05 hoặc 0,01 nếu giá trịb₂ tính được nhỏ hơn giá trị tới hạn của thống kê kiểm nghiệm ứng với p phân vị đối với p = a = 0,05 hoặc p = a = 0,01 và cỡ mẫu n.

Bảng 9 thể hiện giá trị tới hạn của thống kê kiểm nghiệm b₂ đối với p = 0,01, 0,05, 0,95 và 0,99 và cỡ mẫu n = 8(1)10, 12, 15(5)50(25)150(50)1000(200)2000(500)5000.

VÍ DỤ 2: Ví dụ về việc sử dụng kiểm nghiệm có hướng sử dụng độ nhọn b₂ như sau đây. Bảng 3 đưa ra 50 giá trị đo độc lập, một số trong số đó bị nghi ngờ chịu tác động của lỗi thiết bị đo, lỗi dẫn đến biến động trong sự phân tán của các kết quả đo này.

Do lỗi đề cập ở trên, vì có thể giả định rằng b₂ > 3 đối với phân bố các quan trắc nên kiểm nghiệm có hướng tương ứng được áp dụng; đối giả thuyết là

H₁:b₂> 3

Bảng 3 - Loạt 50 quan trắc bị nghi ngờ chịu ảnh hưởng của sự biến động về độ phân tán của các phép đo

9,5

14,4

10,2

4,2

17,1

4,4

4,5

8,5

9,9

7,7

5,1

5,8

9,2

12,9

6,3

3,1

12,9

11,9

11,4

5,9

5,7

10,8

22,5

5,5

8,6

7,4

6,9

7,9

3,6

7,3

16,6

20,9

21,5

9,1

11,9

12,9

26,6

7,5

5,4

32,0

12,9

13,3

8,5

3,3

1,4

12,9

16,3

15,6

11,4

6,0

Vì vậy, từ các giá trị quan trắc liệt kê trong Bảng 3, tính được:

= (9,5 + 14,4 + ... + 6,0)/50 = 10,542

m₂ = [(9,5 - 10,542)² + ... + (6,0 - 10,542)²]/50 = 37,996 4

m₄ = [(9,5 - 10,542)⁴ + ... + (6,0 - 10,542)⁴]/50 = 7 098,04

Do đó

Với mức ý nghĩa a= 0,05, nghĩa là p = 1 - a = 0,95 và cỡ mẫu n = 50, giá trị tới hạn của thống kê kiểm nghiệm là 3,99 (xem Bảng 9). Vì giá trị tính được b₂ = 4,916 lớn hơn giá trị tới hạn này nên giả thuyết không bị bác bỏ thiên về đối giả thuyết ở mức ý nghĩa a = 0,05. Điều này có nghĩa là phân bố của các giá trị quan trắc bị xáo trộn và cho thấy độ nhọn tù.

Ngoài ra, vì giá trị tới hạn ở mức ý nghĩa a = 0,01 là 4,88 nên việc bác bỏ giả thuyết không được xác nhận ở mức này. Vì điều này, sự có mặt của nhiễu thực càng trở nên có nhiều khả năng.

7. Kiểm nghiệm sử dụng đồng thời và b2 (kiểm nghiệm đa hướng)

Kiểm nghiệm này áp dụng cho cỡ mẫu 20 ≤ n ≤ 1 000.

7.1. Trong trường hợp này; đối giả thuyết là về phân bố có độ bất đối xứng khác không và/hoặc độ nhọn khác với của phân bố chuẩn, với hướng độ lệch không được quy định:

H₁:¹0 và/hoặc b₂¹ 3

Không thể phân biệt được các kết hợp khác nhau

¹0vàb₂ = 3

hoặc

¹ 0 và b₂¹ 3

hoặc

¹0 và b₂¹3

Kiểm nghiệm là đa hướng vì nó dự kiến mang lại sự kết hợp độ bất đối xứng khác “không” ¹0) và/hoặc độ nhọn b₂¹ 3.

Chú ý là, do lựa chọn thống kê, kiểm nghiệm kết hợp này không được coi là kiểm nghiệm vô hướng theo nghĩa chặt chẽ. Vì đối với kiểm nghiệm có hướng, việc sử dụng chỉ được đánh giá bằng các xem xét theo tính chất của quan trắc hoặc quá trình tạo ra chúng.

7.2. Thống kê kiểm nghiệm của phép kiểm nghiệm này tạo bởi cặp giá trị và b₂ xác định trong công thức (9) và (10) (ở 6.1.6). Theo giả thuyết không về tính chuẩn, trong hệ trục tọa độ ở||và b₂, các vùng quanh điểm (0; 3) có thể được rút ra trong đó chứa điểm (, b₂) với xác suất p. Cácđường cong mô tả các vùng này được cho trên Hình 9a) (p = 0,95) và Hình 9b) (p = 0,99) đối với cỡ mẫu n = 20(5)65(10)85,100,120,150(50)300,500,1000.

Ở mức ý nghĩa a = 1 - p, miền tới hạn của kiểm nghiệm được hình thành bởi các điểm nằm ngoài đường cong ứng với cỡ mẫu n.

VÍ DỤ 3: Kiểm nghiệm kết hợp sử dụng và b₂ có thể áp dụng cho dữ liệu của ví dụ 2.

Từ các giá trị quan trắc liệt kê trong Bảng 3, tính được:

m₃ = [(9,5 - 10,542)³ + . . . + (6,0 - 10,542)³/50 = 308,106

Do đó

Điểm ( = 1,315; b₂ = 4,916) nằm xa ngoài đường cong ứng với cỡ mẫu n = 50 trên Hình 9b) với mức ý nghĩa a = 0,01.

Vì vậy, giả thuyết không về phân bố chuẩn bị bác bỏ ở mức ý nghĩa này thiên về đối giả thuyết. Điều này nghĩa là phân bố của đặc trưng đo được xét không phải là phân bố chuẩn.

8. Kiểm nghiệm vô hướng

8.1. Quy định chung

8.1.1. Khi không có thông tin tiên nghiệm cơ bản liên quan đến loại sai lệch so với phân bố chuẩn được giả định thì khuyến nghị sử dụng phép kiểm nghiệm vô hướng.

8.1.2. Hai phép kiểm nghiệm vô hướng được trình bày trong tiêu chuẩn này: kiểm nghiệm Shapiro-Wilk và kiểm nghiệm Epps-Pulley. Có rất ít lựa chọn giữa chúng. Quy tắc ngón tay cái là chọn kiểm nghiệm Shapiro-Wilk khi có sẵn lịch sử trước đó gợi ý là đối giả thuyết phân bố đối xứng gần đúng vớiđộ nhọn bè (ví dụ < ½và b₂< 3) hoặc từ phân bố bất đối xứng (ví dụ > ½), nếu không thì chọn kiểm nghiệm Epps-Pulley.

8.2. Kiểm nghiệm Shapiro-Wilk

Phép kiểm nghiệm này áp dụng cho 8 ≤ n ≤ 50. Các cỡ mẫu nhỏ, với n < 8, không hiệu quả lắm trong việc phát hiện sai lệch so với phân bố chuẩn.

Kiểm nghiệm Shapiro-Wilk dựa trên hồi quy các thống kê thứ tự theo giá trị dự kiến của chúng. Đây là phân tích kiểm nghiệm dạng phương sai đối với mẫu đầy đủ. Thống kê kiểm nghiệm là tỷ số giữa bình phương tổ hợp tuyến tính các thống kê thứ tự mẫu với ước lượng phương sai thông thường.

Kiểm nghiệm này dựa trên các quan trắc theo thứ tự. Nếu, như trong 5.3, loạt n các quan trắc độc lập sắp xếp theo thứ tự không giảm được thiết kế bởi x₍₁₎, x₍₂₎,… x_(n)thì đại lượng S được tính:

… (11)

trong đó chỉ số k có giá trị 1 đến n/2 hoặc 1 đến (n - 1)/2 tùy theo n chẵn hay lẻ, và trong đó các hệ số a_k có giá trị đặc biệt đối với cỡ mẫu n. Giá trị của a_k được liệt kê trong Bảng 10 và thống kê kiểm nghiệm là đại lượng

W = S²/(nm₂) … (12)

Nếu một số quan trắc bằng nhau thì loạt theo thứ tự được liệt kê bằng cách lặplại cácquantrắcbằngnhau tương ứng với số lần xuất hiện của chúng trong loạt ban đầu.

Ở mức ý nghĩa a = p, miền tới hạn của kiểm nghiệm được hình thành bởi các giá trị nhỏ hơn p phân vị đối với p =a. Bảng 11 thể hiện p phân vị của thống kê kiểm nghiệm W đối với p = a = 0,01 và p = a = 0,05.

VÍ DỤ 4: Ví dụ về việc sử dụng kiểm nghiệm Spapiro-Wilk như sau đây. Bảng 4 thể hiện loạt theo thứ tựgồm44giá trị độc lập lượng mưa hàng năm thu được tại trạm khí tượng.

Để thuận lợi cho việc tính toán, các giá trị

và

được trình bày trên cùng một dòng. Từ Bảng 4 giá trị sau đây được tính:

/44= 34545 /44 = 785,114

nm₂ == 630872

Hệ số a_k được lấy từ Bảng 10 đối với n = 44 và được đưa ra trong Bảng 4, do đó, cho

= 0,387 2 x 554 + 0,266 7 x 500 + ... + 0,004 2x9 = 787,263

Do đó

= (787,262 7)²/630 872,43 = 0,982

Bảng 11 thể hiện p phân vị đối với n = 44 và p = a = 0,05 bằng 0,944. Vì giá trị này nhỏ hơn giá trị của W nên giả thuyết không không bị bác bỏ ở mức ý nghĩa 0,05.

Bảng 4- Lượng mưa hàng năm thu được ở trạm khí tượng

x_(k)

x_(n+1-k)

x_(n+1-k) - x_(k)

a_k

520

556

561

616

635

669

686

692

704

707

711

713

714

719

727

735

740

744

745

750

776

777

1074

1056

963

952

926

922

904

900

889

879

873

862

851

837

834

826

822

821

794

791

786

554

500

402

336

291

253

218

208

185

172

162

149

137

118

107

0,387 2

0,266 7

0,232 3

0,207 2

0,186 8

0,169 5

0,154 2

0,140 5

0,127 8

0,116 0

0,104 9

0,094 3

0,084 2

0,074 5

0,065 1

0,056 0

0,047 1

0,038 3

0,029 6

0,021 1

0,012 6

0,004 2

CHÚ THÍCH: Loạt theo thứ tự gồm 44 quan trắc và cácgiá trịa_k tương ứng.

8.3. Kiểm nghiệm Epps-Pulley

Xem tài liệu tham khảo [2] đến [5]. Phép kiểm nghiệm này áp dụng đối với n ≥ 8. Các cỡ mẫu nhỏ, với n < 8, không hiệu quả lắm trong việc phát hiện sai lệch so với phân bố chuẩn.

Kiểm nghiệm Epps-Pulley là kiểm nghiệm vô hướng có hiệu lực cao hơn dựa trên nhiều đối giả thuyết. Kiểm nghiệm này sử dụng tích phân có trọng số của mô đun bình phương hiệu giữa các hàm đặc trưng của mẫu và của phân bố chuẩn.

Từ n quan trắc x_j(j = 1, 2, …,n) các đại lượng sau đây được tính:

... (13)

và

… (14)

Thống kê kiểm nghiệm là

… (15)

Thứ tự các giá trị quan trắc là tùy chọn nhưng đặc biệt chú ý đến thực tế là thứ tự được chọn phải duy trì không đổi trong toàn bộ tính toán.

Lưu đồ chương trình thể hiện việc tính toán thống kê kiểm nghiệm T_E_P được cho trên Hình 8.

Tiêu chuẩn quốc gia TCVN 9603:2013 (ISO 5479:1997) về Giải thích dữ liệu thống kê - Kiểm nghiệm sai lệch so với phân bố chuẩn - Ảnh minh hoạ 6

Hình 8 - Lưu đồ tính toán thống kê kiểm nghiệm T_EP của phép kiểm nghiệm Epps-Pulley

Giả thuyết không bị bác bỏ nếu giá trị tính được của thống kê kiểm nghiệm T_E_P vượt quá p phân vị đối với mức ý nghĩa a và cỡ mẫu n. Các p phân vị của thống kê kiểm nghiệm T_EP đối với p = 1 - a = 0,90; 0,95; 0,975 và 0,99 được liệt kê trong Bảng 12.

VÍ DỤ 5: Ví dụ về việc sử dụng kiểm nghiệm Epps-Pulley như dưới đây. Bảng 5 thể hiện loạt 25 giá trị x_j, độ bền kéo đứt của sợi tơ nhân tạo, đo được trong các điều kiện tiêu chuẩn theo đơn vị tùy ý. Ngoài ra, giá trị chuyển đổi z_j = Ig (204 - x_j) được đưa ra, phân tán quanh đường thẳng trên giấy đồ thị xác suất chuẩn.

Bảng 5 - Độ bền kéo đứt của sợi tơ nhân tạo

x_j

đo được

z_j

chuyển đổi

x_j

đo được

z_j

chuyển đổi

147

186

141

183

190

123

155

164

183

150

134

170

144

1,756

1,255

1,799

1,322

1,146

1,908

1,690

1,602

1,322

1,732

1,845

1,531

1,778

156

176

160

174

153

162

167

179

173

168

2,021

1,681

1,447

1,643

1,477

1,708

1,623

1,568

1,398

2,100

1,491

1,556

Từ Bảng 5 tìm được

T_EP₍_x₎ = 0,612

sử dụng chương trình máy tính ngắn và đơn giản. Đối với n = 25, bằng cách nội suy trong Bảng 12 tìm được p phân vị đối với p = 1 - a = 0,99 bằng 0,567. Giá trị T_EP(_x₎ tính được vượt quá giá trị tới hạn này. Vì vậy giả thuyết không bị bác bỏ ở mức ý nghĩa 0,01 đối với các giá trịx_j.

Ngoài ra, từ Bảng 5 tìm được

T_EP₍_z₎ = 0,006

sử dụng cùng một chương trình máy tính. Vì giá trị này nhỏ hơn giá trị tới hạn đối với n = 25 nội suy từ Bảng 12 nên không bác bỏ giả thuyết không đối với các giá trị z_j.

Ví dụ này minh họa thực tế đã được biết rõ là độ bền kéo đứt của sợi tơ nhân tạo được phân bố theo phân bố chuẩn logarit.

VÍ DỤ 6: Ví dụ sau đây minh họa chi tiết cách tính thống kê kiểm nghiệm T_E_Ptheo công thức (15).

Cột thứ hai của Bảng 6 thể hiện n = 10 giá trị x_j sử dụng để thực hiện kiểm nghiệm Epps-Pulley. Theo công thức (13) và (14),= 10,4 và m₂= 11,858 0 được tính.

Tổng kép trong số hạng thứ ba của công thức (15) là chuỗi hữu hạn (n -1) chuỗi con, chuỗi con đầu tiên trong số đó có một số hạng và chuỗi con cuối cùng có (n- 1) số hạng.

Đối với chuỗi con đầu tiên, chỉ số cố định là k= 2 và số hạng duy nhất của chuỗi này là

thu được đối với j = 1. Trong chuỗi con thứ hai, chỉ số cố định là k = 3; chuỗi này có hai số hạng

và

thu được đối với j = 1 vàj = 2. Trong chuỗi con cuối cùng, chỉ số cố định là k = 10 và chín số hạng là

, …,

thu được đối với j = 1, 2, 3,..., 9.

Các số hạng đối với chuỗi con n -1=9 được liệt kê trong cột thứ ba đến mười một của Bảng 6.

Cột thứ mười hai thể hiện n = 10 số hạng đối với tổng trong số hạng thứ tư của công thức (15).

Bảng 6 - Độ bền kéo đứt của sợi tơ nhân tạo - Tính thống kê kiểm nghiệm T_EP

j	x_j
j	x_j	k = 2 j = 1	k = 3 j = 1,2	k = 4 j = 1..3	k = 5 j = 1..4	k = 6 j=1..5	k= 7 j= 1..6	k = 8 j= 1..7	k = 9 j = 1..8	k = 10 j=1..9	j = 1..10
1	4,9	0,9996	0,8977	0,2192	0,2083	0,1684	0,0769	0,0587	0,0304	0,0205	0,5285
2	5,0	-	0,9095	0,2304	0,2192	0,1778	0,0821	0,0629	0,0329	0,0222	0,5407
3	6,5	-	-	0,4421	0,4258	0,3633	0,1977	0,1593	0,0933	0,0673	0,7257
4	10,9	-	-	-	0,9996	0,9895	0,8723	0,8154	0,6668	0,5790	0,9947
5	11,0	-	-	-	-	0,9933	0,8853	0,8303	0,6842	0,5966	0,9924
6	11,4	-	-	-	-	-	0,9312	0,8853	0,7520	0,6668	0,9791
7	12,7	-	-	-	-	-	-	0,9933	0,9312	0,8723	0,8945
8	13,1	-	-	-	-	-	-	-	0,9664	0,9207	0,8575
9	14,0	-	-	-	-	-	-	-	-	0,9895	0,7609
10	14,5	-	-	-	-	-	-	-	-	-	0,7016
Tổng	104,0	0,9996	1,8072	0,8916	1,8528	2,6923	3,0455	3,8052	4,1573	4,7350	7,9757
Tổngcộng		23,9865

Mỗi trong số mười cột cuối của Bảng 6, tổng của chúng đều được tính và nhập ở cuối cột.

Tất cả 45 số hạng thuộc về tổng trong số hạng thứ ba của công thức (15) được cộng lại thành giá trị tổng cộng

= 23,9865

Cuối cùng công thức (15) được tính bằng

= 0,2914

Đối với n = 10 Bảng 12 cho thấy rằng p phân vị đối với p = 1 - a= 0,95 bằng 0,357. Giá trị T_EP = 0,2914 không vượt quá giá trị tới hạn này. Vì vậy không bác bỏ giả thuyết không ở mức ý nghĩa 0,05 đối với ví dụ này.

9. Kiểm nghiệm sử dụng đồng thời nhiều mẫu độc lập

Kiểm nghiệm này áp dụng cho nhiều mẫu, mỗi mẫu cỡ n với n ≥ 8, tuy nhiên, vì lý do thực tế,Bảng 13 giới hạn ở n ≤ 50. Cơ sở giả định là các mẫu độc lập được lấy từ cùng một tổng thể.

Trong nhiều trường hợp, cần kiểm nghiệm sai lệch so với phân bố chuẩn bằng cách sử dụng nhiều mẫu độc lập vì từng mẫu độc lập quá nhỏ để phát hiện ngay cả sai lệch đáng kể so với phân bố chuẩn. Trong trường hợp này, kiểm nghiệm Shapiro-Wilk được áp dụng.

Đối với h mẫu liên tiếp lấy từ cùng một tổng thể mỗi mẫu có cỡ n, các giá trị W_j (j = 1,2, …, h) đượctính theo công thức (12). Đối với kiểm nghiệm kết hợp các giá trị tương ứng G_j được tính từ quan hệ sau đây:

… (16)

trong đó

… (17)

Các hệ số g(n), d(n) và e(n) dùng để chuyển đổi W_j thành biến G_j được lấy từ Bảng 13.

Trong trường hợp phân bố đang xét là chuẩn thì biến G_j gần như tuân theo phân bố chuẩn chuẩn hóa.

Giá trị trung bình của biến G_j là

… (18)

và thống kê kiểm nghiệm là .

Giả thuyết không bị bác bỏ ở mức ý nghĩa anếu

... (19)

trong đó u_p= u_1-_a là p phân vị của phân bố chuẩn chuẩn hóa.

VÍ DỤ 7: Ví dụ về việc sử dụng kiểm nghiệm kết hợp sử dụng nhiều mẫu độc lập như dưới đây. h = 22 mẫu ngẫu nhiên, mỗi mẫu cỡ n = 20 được lấy từ cùng một tổng thể và đặc trưng X của 20 cá thể này được đo. Đặc trưng này không được giả định là có phân bố chuẩn. Đối với mỗi trong số các mẫu này, các giá trị tương ứng W_j (j =1, 2, … 22)đượctínhtheo công thức (12). Trong Bảng 7 liệt kê 22 giá trị W_j. Từ Bảng 13, các hệ số sau đâyđược lấy ra:

g(20) = -5,153; d(20) = 1,802; e (20) = 0,2359

Sử dụng các con số này, 22 giá trị tương ứng của G_j được tính theo công thức (16) và (17), đồng thời cũng được liệt kê trong Bảng 7.

Theo Bảng 11 giá trị tới hạn của thống kê Wlà 0,868 đối với n = 20 ở mức ý nghĩa a= 0,01. Từ Bảng 14, giá trị tới hạn cho là

= - 2,326

ở mức ý nghĩa a= 0,01.

Bảng 7 - Giá trị của W_j và G_jđối với 22 mẫu cỡ n = 20 được lấy từ cùng một tổng thể

Mẫu số j	W_j	G_j
1	0,9543	-0,189
2	0,9645	+0,292
3	0,9148	-1,413
4	0,8864	-2,008
5	0,9573	-0,059
6	0,9158	-1,389
7	0,9462	-0,503
8	0,9277	-1,083
9	0,9639	+0,260
10	0,9363	-0,833
11	0,9067	-1,598
12	0,9218	-1,240
13	0,9551	-0,155
14	0,9338	-0,909
15	0,9584	-0,009
16	0,9088	-1,552
17	0,9028	-1,683
18	0,8947	-1,849
19	0,9488	-0,407
20	0,9445	-0,563
21	0,9471	-0,470
22	0,9451	-0,542
Tổng		-17,902

Nếu bất kỳ trong số 22 mẫu này được xử lý riêng thì không mẫu nào cóthể cho thấy sai lệch so với phân bố chuẩn ở mức ý nghĩa a= 0,01 vì không một giá trị nào của W_j nhỏ hơn giá trị tới hạn 0,868 và không giá trị nào của G_j nhỏ hơn giá trị tới hạn - 2,326.

Tuy nhiên, đánh giá kết hợp tất cả 22 mẫu được

= - 17,902/22 = -0,814

và

= - 3,82

Giá trị này được so với giá trị tới hạn -u_p = - 2,326 ở mức ý nghĩa a= 0,01 đã cho. Vì giá trị tính được - 3,82 nằm dưới giá trị tới hạn này nên giả thuyết không bị bác bỏ ở mức ý nghĩa a = 0,01.

10. Bảng thống kê

Bảng 8 - Kiểm nghiệm độ bất đối xứng,

(p phân vị của đối vớip = 1 - a= 0,95 và 0,99)

n	p		n	p
	0,95	0,99		0,95	0,99
8 9 10 12 15 20 25 30 35 40 45 50 60 70 80 90 100 125 150 170 200 250 300 350	0,99 0,97 0,95 0,91 0,85 0,77 0,71 0,66 0,62 0,59 0,56 0,53 0,49 0,46 0,43 0,41 0,39 0,35 0,32 0,30 0,28 0,25 0,23 0,21	1,42 1,41 1,39 1,34 1,26 1,15 1,06 0,98 0,92 0,87 0,82 0,79 0,72 0,67 0,63 0,60 0,57 0,51 0,46 0,43 0,40 0,36 0,33 0,30	400 450 500 550 600 650 700 750 800 850 900 950 1000 1200 1400 1600 1800 2000 2500 3000 3500 4000 4500 5000	0,20 0,19 0,18 0,17 0,16 0,16 0,15 0,15 0,14 0,14 0,13 0,13 0,13 0,12 0,11 0,10 0,10 0,09 0,08 0,07 0,07 0,06 0,06 0,06	0,28 0,27 0,26 0,24 0,23 0,22 0,22 0,21 0,20 0,20 0,19 0,18 0,18 0,16 0,15 0,14 0,13 0,13 0,11 0,10 0,10 0,09 0,08 0,08
CHÚ THÍCH: Lấy từ tài liệu tham khảo [6] và [7].

Bảng 9 - Kiểm nghiệm độ nhọn,b₂ (p phân vị của b₂ đối vớip = a= 0,01 và 0,05 vàp = 1 - a= 0,95 và 0,99

n	p		P
	0,01	0,05	0,95	0,99
8 9 10 12 15 20 25 30 35 40 45 50 75 100 125 150 200 250 300 350 400 450 500 550 600 650 700 750 800 850 900 950 1000 1200 1400 1600 1800 2000 2500 3000 3500 4000 4500 5000	1,31 1,35 1,39 1,46 1,55 1,65 1,72 1,79 1,84 1,89 1,93 1,95 2,08 2,18 2,24 2,29 2,37 2,42 2,46 2,50 2,52 2,55 2,57 2,58 2,60 2,61 2,62 2,64 2,65 2,66 2,66 2,67 2,68 2,71 2,72 2,74 2,76 2,77 2,79 2,81 2,82 2,83 2,84 2,85	1,46 1,53 1,56 1,64 1,72 1,82 1,91 1,98 2,03 2,07 2,11 2,15 2,27 2,35 2,40 2,45 2,51 2,55 2,59 2,62 2,64 2,66 2,67 2,69 2,70 2,71 2,72 2,73 2,74 2,74 2,75 2,76 2,76 2,78 2,80 2,81 2,82 2,83 2,85 2,86 2,87 2,88 2,88 2,89	3,70 3,86 3,95 4,05 4,13 4,17 4,16 4,11 4,10 4,06 4,00 3,99 3,87 3,77 3,71 3,65 3,57 3,52 3,47 3,44 3,41 3,39 3,37 3,35 3,34 3,33 3,31 3,30 3,29 3,28 3,28 3,27 3,26 3,24 3,22 3,21 3,20 3,18 3,16 3,15 3,14 3,13 3,12 3,12	4,53 4,82 5,00 5,20 5,30 5,36 5,30 5,21 5,13 5,04 4,94 4,88 4,59 4,39 4,24 4,13 3,98 3,87 3,79 3,72 3,67 3,63 3,60 3,57 3,54 3,52 3,50 3,48 3,46 3,45 3,43 3,42 3,41 3,37 3,34 3,32 3,30 3,28 3,25 3,22 3,21 3,19 3,18 3,17
CHÚ THÍCH: Lấy từ tài liệu tham khảo [7] và [8].

Tiêu chuẩn quốc gia TCVN 9603:2013 (ISO 5479:1997) về Giải thích dữ liệu thống kê - Kiểm nghiệm sai lệch so với phân bố chuẩn - Ảnh minh hoạ 7

a) Các đường cong mô tả miền tới hạn ở mức ý nghĩa a= 0,05

CHÚ THÍCH: Lấy từ Tài liệu tham khảo [9].

Hình 9 - Kiểm nghiệm kết hợp sử dụng và b₂ (kiểm nghiệm đa hướng)

Tiêu chuẩn quốc gia TCVN 9603:2013 (ISO 5479:1997) về Giải thích dữ liệu thống kê - Kiểm nghiệm sai lệch so với phân bố chuẩn - Ảnh minh hoạ 8

b) Các đường cong mô tả miền tới hạn ở mức ý nghĩa a= 0,01

CHÚ THÍCH: Lấy từ Tài liệu tham khảo [9].

Hình 9 - Kiểm nghiệm kết hợp sử dụng và b₂ (kiểm nghiệm đa hướng)

Bảng 10 - Hệ số a_k kiểm nghiệm Shapiro-Wilk dùng cho tính toán thống kê kiểm nghiệm W

k	n
k								8	9	10
1 2 3 4 5	- - - - -	- - - - -	- - - - -	- - - - -	- - - - -	- - - - -	- - - - -	0,605 2 0,316 4 0,174 3 0,056 1 -	0,588 8 0,324 4 0,197 6 0,094 7 -	0,573 9 0,329 1 0,214 1 0,122 4 0,039 9
	11	12	13	14	15	16	17	18	19	20
1 2 3 4 5 6 7 8 9 10	0,560 1 0,331 5 0,226 0 0,142 9 0,069 5 - - - - -	0,547 5 0,332 5 0,234 7 0,158 6 0,092 2 0,030 3 - - - -	0,535 9 0,332 5 0,241 2 0,170 7 0,1099 0,053 9 - - - -	0,525 1 0,331 8 0,246 0 0,180 2 0,124 0 0,072 7 0,024 0 - - -	0,515 0 0,330 6 0,249 5 0,187 8 0,135 3 0,098 0 0,043 3 - - -	0,505 6 0,329 0 0,252 1 0,193 9 0,144 7 0,100 5 0,059 3 0,019 6 - -	0,496 8 0,327 3 0,254 0 0,198 8 0,152 4 0,1109 0,072 5 0,035 9 - -	0,488 6 0,325 3 0,255 3 0,202 7 0,158 7 0,1197 0,083 7 0,049 6 0,016 3 -	0,480 8 0,323 2 0,256 1 0,205 9 0,164 1 0,127 1 0,093 2 0,061 2 0,030 3 -	0,473 4 0,321 1 0,256 5 0,208 5 0,168 6 0,133 4 0,101 3 0,071 1 0,042 2 0,014 0
	21	22	23	24	25	26	27	28	29	30
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15	0,464 3 0,318 5 0,257 8 0,211 9 0,173 6 0,139 9 0,109 2 0,080 4 0,053 0 0,026 3 - - - -	0,459 0 0,3156 0,257 1 0,213 1 0,176 4 0,144 3 0,115 0 0,087 8 0,061 8 0,036 8 0,012 2 - - - -	0,454 2 0,312 6 0,256 3 0,213 9 0,178 7 0,148 0 0,1201 0,094 1 0,069 6 0,045 9 0,022 8 - - - -	0,449 3 0,309 8 0,255 4 0,214 5 0,180 7 0,151 2 0,124 5 0,099 7 0,076 4 0,053 9 0,032 1 0,010 7 - - -	0,445 0 0,306 9 0,254 3 0,214 8 0,182 2 0,153 9 0,128 3 0,104 6 0,082 3 0,061 0 0,040 3 0,020 0 - - -	0,440 7 0,304 3 0,253 3 0,215 1 0,183 6 0,156 3 0,131 6 0,108 9 0,087 6 0,067 2 0,047 6 0,028 4 0,009 4 - -	0,436 6 0,301 8 0,252 2 0,215 2 0,184 8 0,158 4 0,134 6 0,1128 0,092 3 0,072 8 0,054 0 0,035 8 0,017 8 - -	0,432 8 0,299 2 0,251 0 0,215 1 0,185 7 0,160 1 0,137 2 0,116 2 0,096 5 0,077 8 0,059 8 0,042 4 0,025 3 0,008 4 -	0,429 1 0,296 8 0,249 9 0,215 0 0,186 4 0,161 6 0,139 5 0,1192 0,1002 0,082 2 0,065 0 0,048 3 0,032 0 0,015 9 -	0,425 4 0,294 4 0,248 7 0,214 8 0,187 0 0,163 0 0,141 5 0,121 9 0,103 6 0,086 2 0,069 7 0,053 7 0,038 1 0,022 7 0,007 6
	31	32	33	34	35	36	37	38	39	40
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20	0,422 0 0,292 1 0,247 5 0,214 5 0,187 4 0,164 1 0,143 3 0,124 3 0,1066 0,089 9 0,073 0 0,058 5 0,043 5 0,028 9 0,014 4 - - - - -	0,418 8 0,289 8 0,246 3 0,214 1 0,187 8 0,165 1 0,144 9 0,126 5 0,109 3 0,093 1 0,077 7 0,062 9 0,048 5 0,034 4 0,020 6 0,006 8 - - - -	0,415 6 0,287 6 0,245 1 0,213 7 0,188 0 0,166 0 0,146 3 0,128 4 0,111 8 0,096 1 0,081 2 0,066 9 0,053 0 0,039 5 0,026 2 0,013 1 - - - -	0,412 7 0,285 4 0,243 9 0,213 2 0,188 2 0,166 7 0,147 5 0,130 1 0,114 0 0,098 8 0,084 4 0,070 6 0,057 2 0,044 1 0,031 4 0,018 7 0,006 2 - - -	0,409 8 0,283 4 0,242 7 0,212 7 0,188 3 0,167 3 0,148 7 0,131 7 0,116 0 0,101 3 0,087 3 0,073 9 0,061 0 0,048 4 0,036 1 0,023 9 0,011 9 - - -	0,406 8 0,281 3 0,241 5 0,212 1 0,188 3 0,167 8 0,1496 0,133 1 0,117 9 0,103 6 0,090 0 0,077 0 0,064 5 0,052 3 0,040 4 0,028 7 0,017 2 0,005 7 - -	0,404 0 0,279 4 0,240 3 0,211 6 0,188 3 0,168 3 0,150 5 0,134 4 0,1196 0,105 6 0,092 4 0,079 8 0,067 7 0,055 9 0,044 4 0,033 1 0,022 0 0,011 0 - -	0,401 5 0,277 4 0,239 1 0,211 0 0,188 1 0,168 6 0,151 3 0,135 6 0,121 1 0,107 5 0,094 7 0,082 4 0,070 6 0,059 2 0,048 1 0,037 2 0,026 4 0,015 8 0,005 3 -	0,398 9 0,275 5 0,238 0 0,210 4 0,188 0 0,168 9 0,152 0 0,136 6 0,122 5 0,109 2 0,096 7 0,084 8 0,073 3 0,062 2 0,051 5 0,040 9 0,030 5 0,020 3 0,010 1 -	0,396 4 0,273 7 0,236 8 0,209 8 0,187 8 0,169 1 0,152 6 0,137 6 0,123 7 0,110 8 0,098 6 0,087 0 0,075 9 0,065 1 0,054 6 0,044 4 0,034 3 0,024 4 0,014 6 0,004 9
	41	42	43	44	45	46	47	48	49	50
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25	0,394 0 0,271 9 0,235 7 0,209 1 0,187 6 0,169 3 0,153 1 0,138 4 0,124 9 0,112 3 0,100 4 0,089 1 0,078 2 0,067 7 0,057 5 0,047 6 0,037 9 0,028 3 0,0188 0,009 4 - - - - -	0,391 7 0,270 1 0,234 5 0,208 5 0,187 4 0,169 4 0,153 5 0,139 2 0,125 9 0,1136 0,102 0 0,090 9 0,080 4 0,070 1 0,060 2 0,050 6 0,041 1 0,031 8 0,022 7 0,0136 0,004 5 - - - -	0,389 4 0,268 4 0,233 4 0,207 8 0,187 1 0,169 5 0,153 9 0,139 8 0,126 9 0,114 9 0,103 5 0,092 7 0,082 4 0,072 4 0,062 8 0,053 4 0,044 2 0,035 2 0,026 3 0,017 5 0,008 7 - - - -	0,387 2 0,266 7 0,232 3 0,207 2 0,186 8 0,169 5 0,154 2 0,140 5 0,127 8 0,116 0 0,104 9 0,094 3 0,084 2 0,074 5 0,065 1 0,056 0 0,047 1 0,038 3 0,029 6 0,021 1 0,012 6 0,004 2 - - -	0,385 0 0,265 1 0,231 3 0,206 5 0,1868 0,169 5 0,154 5 0,141 0 0,128 6 0,117 0 0,106 2 0,090 9 0,086 0 0,076 5 0,067 3 0,058 4 0,049 7 0,041 2 0,032 8 0,024 5 0,016 3 0,008 1 - - -	0,383 0 0,263 5 0,230 2 0,205 8 0,186 2 0,169 5 0,1548 0,141 5 0,1293 0,118 0 0,107 3 0,097 2 0,087 6 0,078 3 0,069 4 0,060 7 0,052 2 0,043 9 0,035 7 0,027 7 0,019 7 0,011 8 0,003 9 - -	0,380 8 0,262 0 0,229 1 0,205 2 0,186 9 0,169 5 0,155 0 0,142 0 0,130 0 0,118 9 0,108 5 0,098 6 0,089 2 0,080 1 0,071 3 0,062 8 0,054 6 0,046 5 0,038 5 0,030 7 0,022 9 0,015 3 0,007 6 - -	0,378 9 0,260 4 0,228 1 0,204 5 0,185 5 0,169 3 0,155 1 0,142 3 0,130 6 0,119 7 0,109 5 0,099 8 0,090 6 0,081 7 0,073 1 0,064 8 0,056 8 0,048 9 0,041 1 0,033 5 0,025 9 0,018 5 0,011 1 0,003 7 -	0,377 0 0,258 9 0,227 1 0,203 8 0,185 1 0,169 2 0,155 3 0,142 7 0,131 2 0,120 5 0,110 5 0,101 0 0,091 9 0,083 2 0,074 8 0,066 7 0,058 8 0,051 1 0,043 6 0,036 1 0,028 8 0,021 5 0,014 3 0,007 1 -	0,375 1 0,257 4 0,226 0 0,203 2 0,184 7 0,169 1 0,155 4 0,143 0 0,131 7 0,121 2 0,111 3 0,102 0 0,093 2 0,084 6 0,076 4 0,068 5 0,060 8 0,053 2 0,045 9 0,038 6 0,031 4 0,024 4 0,017 4 0,010 4 0,003 5
CHÚ THÍCH: Lấy từ tài liệu tham khảo [10].

Bảng 11 - Kiểm nghiệm Shapiro-Wilk: p phân vị của thống kê kiểm nghiệm Wđối với p =a= 0,01 và 0,05

n	p		n	p
	0,01	0,05		0,01	0,05
8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25	0,749 0,764 0,781 0,792 0,805 0,814 0,825 0,835 0,844 0,851 0,858 0,863 0,868 0,873 0,878 0,881 0,884 0,888	0,818 0,829 0,842 0,850 0,859 0,866 0,874 0,881 0,887 0,892 0,897 0,901 0,905 0,908 0,911 0,914 0,916 0,918	26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50	0,891 0,894 0,896 0,898 0,900 0,902 0,904 0,906 0,908 0,910 0,912 0,914 0,916 0,917 0,919 0,920 0,922 0,923 0,924 0,926 0,927 0,928 0,929 0,929 0,930	0,920 0,923 0,924 0,926 0,927 0,929 0,930 0,931 0,933 0,934 0,935 0,936 0,938 0,939 0,940 0,941 0,942 0,943 0,944 0,945 0,945 0,946 0,947 0,947 0,947
CHÚTHÍCH: Lấy từ tài liệu tham khảo [10]. Xem tài liệu tham khảo [11] đối với cỡ mẫu mở rộng 51 ≤ n ≤ 99.

Bảng 12 - Kiểm nghiệm Epps-Pulley: p phân vị của thống kê kiểm nghiệm T_E_P đối với p = 1 - a= 0,90; 0,95; 0,975 và 0,99

n	1 -a
n	0,90	0,95	0,975	0,99
8 9 10 15 20 30 50 100 200	0,271 0,275 0,279 0,284 0,287 0,288 0,290 0,291 0,290	0,347 0,350 0,357 0,366 0,368 0,371 0,374 0,376 0,379	0,426 0,428 0,437 0,447 0,450 0,459 0,461 0,464 0,467	0,526 0,537 0,545 0,560 0,564 0,569 0,574 0,583 0,590
CHÚ THÍCH: Lấy từ tài liệu tham khảo [5].

Bảng 13 - Kiểm nghiệm kết hợp sử dụng nhiềumẫu độc lập: Hệ số để chuyển đổi W thànhchuẩn hóabiến chuẩn chuẩn hóa đối với n = 8(1)50

g(n)

d(n)

e(n)

-2,696

-2,968

-3,262

-3,485

-3,731

-3,936

-4,155

-4,373

-4,567

-4,713

-4,885

-5,018

-5,153

-5,291

-5,413

-5,508

-5,605

-5,704

-5,803

-5,905

-5,988

-6,074

-6,150

-6,248

-6,324

-6,402

-6,480

-6,559

-6,640

-6,721

-6,803

-6,887

-6,961

-7,035

-7,111

-7,188

-7,266

-7,345

-7,414

-7,484

-7,555

-7,615

-7,677

1,333

1,400

1,471

1,515

1,571

1,613

1,655

1,695

1,724

1,739

1,770

1,786

1,802

1,818

1,835

1,848

1,862

1,876

1,890

1,905

1,919

1,934

1,949

1,965

1,976

1,988

2,000

2,012

2,024

2,037

2,049

2,062

2,075

2,088

2,101

2,114

2,128

2,141

2,155

2,169

2,183

2,198

2,212

0,4186

0,3900

0,3660

0,3451

0,3270

0,3111

0,2969

0,2842

0,2727

0,2622

0,2528

0,2440

0,2359

0,2264

0,2207

0,2157

0,2106

0,2063

0,2020

0,1980

0,1943

0,1907

0,1872

0,1840

0,1811

0,1781

0,1755

0,1727

0,1702

0,1677

0,1656

0,1633

0,1612

0,1591

0,1572

0,1552

0,1534

0,1516

0,1499

0,1482

0,1466

0,1451

0,1436

CHÚ THÍCH: Lấy từ tài liệu tham khảo [12].

Bảng 14 - Đại lượng u_p của phân bố chuẩn chuẩn hóa

Ngày bắt đầu hiệu lực: -

Tình trạng: Còn hiệu lực

Đăng bởi Vanbanphapluat

Xin mời bạn đăng nhập, đăng ký để xem/thao tác với nội dung này.

Sửa

Theo dõi

Thích

Yêu cầu cập nhật lại

Ý kiến bạn đọc

ĐĂNG KÝ THÀNH VIÊN

Thống kê văn bản

Hệ thống văn bản pháp luật Việt Nam

Cộng đồng chung về văn bản, với cơ sở dữ liệu văn bản lớn; người dùng được phép tự xây dựng, thiết lập trang văn bản riêng cho cá nhân, cơ quan, đơn vị; khi tra cứu một văn bản thì người dùng biết được tình trạng văn bản (văn bản còn hiệu lực hay không còn hiệu lực,…), xem được “Sơ đồ” văn bản để biết được mối liên hệ của văn bản đang xem với các văn bản liên quan và nhiều tiện tính năng, tiện ích khác; người dùng hoàn toàn đượn “MIỄN PHÍ” sử dụng tính năng, tiện ích của website

Đơn vị chủ quản: Công ty Cổ phần luật AZ; Địa chỉ: Quận 1, thành phố Hồ Chí Minh

Bạn đã không sử dụng Site, Bấm vào đây để duy trì trạng thái đăng nhập. Thời gian chờ: 60 giây

u_p

90,0

95,0

97,5

99,0

99,5

0,10

0,05

0,025

0,01

0,005

1,282

1,645

1,960

2,326

2,576