Traffine I/O

Bahasa Indonesia

2022-03-26

Varian Tidak Bias Sebagai Estimator dari Varian Populasi

Populasi dan Sampel Varian

Dalam statistik, varian adalah ukuran sebaran data dalam sebuah dataset. Ini adalah konsep penting ketika menganalisis dan membandingkan dataset yang berbeda.

Varian populasi merepresentasikan varian sebenarnya dari seluruh populasi. Idealnya, ketika melakukan penelitian atau menganalisis data, kita akan memiliki akses ke seluruh populasi. Namun, dalam kebanyakan kasus, tidak mungkin atau tidak praktis untuk mengumpulkan data dari setiap individu dalam populasi. Inilah di mana sampel varian berperan.

Sampel varian dihitung menggunakan subset dari populasi, yang dikenal sebagai sampel. Sampel digunakan untuk membuat inferensi tentang seluruh populasi, termasuk memperkirakan varian populasi. Penting untuk memilih sampel yang representatif untuk memastikan estimasi yang akurat.

Mengestimasi Varian Populasi

Rumus untuk Varian Populasi

Varian populasi, yang ditandai dengan \sigma^2, adalah ukuran sebaran dalam sebuah dataset. Ini dihitung dengan mengambil rata-rata perbedaan kuadrat antara setiap titik data dan rata-rata populasi (\mu). Rumus untuk varian populasi adalah:

\sigma^2 = \frac{\sum(x - \mu)^2}{N}

di mana x mewakili setiap titik data, \mu adalah rata-rata populasi, dan N adalah ukuran populasi.

Rumus untuk Sampel Varian

Sampel varian, yang ditandai dengan s^2, dihitung menggunakan metode yang mirip dengan varian populasi. Perbedaan utamanya adalah rata-rata sampel (\bar{x}) digunakan sebagai ganti rata-rata populasi, dan ukuran sampel (n) digunakan sebagai ganti ukuran populasi:

s^2 = \frac{\sum(x - \bar{x})^2}{n}

Karena sampel varian cenderung meremehkan varian populasi, kita perlu menerapkan faktor koreksi untuk memperoleh estimator yang tidak bias untuk varian populasi. Koreksi ini dikenal sebagai koreksi Bessel, dan melibatkan penggunaan n-1 pada penyebutnya daripada n:

s^2 = \frac{\sum(x - \bar{x})^2}{n - 1}

Dengan menggunakan rumus yang dikoreksi ini untuk sampel varian, kita dapat memperoleh perkiraan varian populasi yang lebih akurat dan tidak bias.

Dasar Matematika untuk Menggunakan n-1

Kita mengeksplorasi dasar matematika untuk menggunakan n-1 pada penyebut rumus sampel varian. Penyesuaian ini membantu memberikan perkiraan yang tidak bias dari varian populasi dengan memperhitungkan hilangnya satu derajat kebebasan karena penggunaan rata-rata sampel.

Harapan Matematika dan Estimator Tidak Bias

Dalam statistik, estimator adalah fungsi yang menghitung perkiraan parameter populasi berdasarkan sampel. Estimator yang tidak bias adalah salah satu yang, pada rata-rata, memberikan perkiraan yang akurat dari parameter populasi, artinya nilai harapannya sama dengan nilai parameter sebenarnya. Secara matematis, untuk estimator yang tidak bias \hat{\theta} dari parameter populasi \theta, kita memiliki:

E[\hat{\theta}] = \theta

Sampel varian, dihitung menggunakan n pada penyebutnya, adalah estimator yang bias untuk varian populasi. Untuk melihat mengapa, pertimbangkan hal berikut:

Misalkan X_1, X_2, ..., X_n adalah sampel acak dari sebuah populasi dengan rata-rata \mu dan varian \sigma^2. Sampel varian yang bias, S_n^2, dapat didefinisikan sebagai:

S_n^2 = \frac{\sum_{i=1}^{n}(X_i - \bar{X})^2}{n}

di mana \bar{X} adalah rata-rata sampel. Untuk menunjukkan bahwa ini adalah estimator yang bias, kita perlu menghitung nilai harapan dari S_n^2:

E[S_n^2] = E\left[\frac{\sum_{i=1}^{n}(X_i - \bar{X})^2}{n}\right]

Setelah beberapa manipulasi aljabar (yang melampaui cakupan ringkasan ini), dapat ditunjukkan bahwa:

E[S_n^2] = \frac{n-1}{n}\sigma^2

Dengan demikian, nilai harapan dari sampel varian yang bias lebih kecil dari varian populasi sebenarnya, menunjukkan bahwa ini adalah estimator yang bias.

Mendapatkan Rumus Estimator Tidak Bias untuk Varian Populasi

Untuk mendapatkan estimator yang tidak bias untuk varian populasi, kita harus menyesuaikan rumus sampel varian dengan menggunakan n-1 pada penyebutnya daripada n. Sampel varian yang tidak bias, S_{n-1}^2, didefinisikan sebagai:

S_{n-1}^2 = \frac{\sum_{i=1}^{n}(X_i - \bar{X})^2}{n-1}

Dengan menghitung nilai harapan dari estimator baru ini, kita dapat menunjukkan bahwa ini adalah estimator yang tidak bias:

E[S_{n-1}^2] = E\left[\frac{\sum_{i=1}^{n}(X_i - \bar{X})^2}{n-1}\right]

Setelah manipulasi aljabar yang serupa seperti sebelumnya, kita temukan bahwa:

E[S_{n-1}^2] = \sigma^2

Hasil ini mengkonfirmasi bahwa rumus sampel varian yang tidak bias, yang menggunakan n-1 pada penyebutnya, memberikan perkiraan yang akurat dari varian populasi sebenarnya secara rata-rata.

Mengapa Sampel Varian Cenderung Lebih Kecil Dari Varian Populasi

Sampel varian cenderung meremehkan varian populasi. Ini disebabkan oleh fakta bahwa rata-rata sampel, \bar{x}, dihitung dari titik data yang sama yang digunakan untuk menghitungkan sampel varian. Akibatnya, perbedaan kuadrat antara setiap titik data dan rata-rata sampel umumnya lebih kecil, menghasilkan nilai varian yang lebih kecil. Underestimasi sistematis ini disebut sebagai bias.

Berikut adalah contoh Python yang menunjukkan bias dalam sampel varian:

python
import numpy as np

population = np.random.normal(50, 10, 10000)  # Simulate a population with mean=50 and std_dev=10
biased_variances = []

for _ in range(1000):
    sample = np.random.choice(population, 30)  # Draw a sample of size 30
    sample_variance = np.var(sample, ddof=0)  # Compute biased sample variance
    biased_variances.append(sample_variance)

mean_biased_variance = np.mean(biased_variances)
population_variance = np.var(population)

print("Mean Biased Variance:", mean_biased_variance)
print("Population Variance:", population_variance)
Mean Biased Variance: 97.12419679509834
Population Variance: 99.90071273636632

Contoh ini menunjukkan bahwa, secara rata-rata, sampel varian yang bias meremehkan varian populasi yang sebenarnya.

Varian Tidak Bias sebagai Estimator Varian Populasi

Untuk mendapatkan estimator yang tidak bias untuk varian populasi, koreksi Bessel diterapkan pada rumus sampel varian. Koreksi ini melibatkan penggunaan n-1 pada penyebutnya daripada n, yang mengompensasi untuk bias yang diperkenalkan oleh penggunaan rata-rata sampel daripada rata-rata populasi:

s^2 = \frac{\sum(x - \bar{x})^2}{n - 1}

Dengan menggunakan rumus yang dikoreksi ini untuk sampel varian, kita dapat memperoleh perkiraan varian populasi yang lebih akurat dan tidak bias. Penyesuaian ini terutama penting ketika bekerja dengan ukuran sampel kecil, di mana bias dapat lebih nyata.

Untuk mengilustrasikan efektivitas koreksi Bessel, mari modifikasi contoh Python dari bab sebelumnya untuk menghitung sampel varian yang tidak bias:

python
import numpy as np

population = np.random.normal(50, 10, 10000)  # Simulate a population with mean=50 and std_dev=10
unbiased_variances = []

for _ in range(1000):
    sample = np.random.choice(population, 30)  # Draw a sample of size 30
    sample_variance = np.var(sample, ddof=1)  # Compute unbiased sample variance
    unbiased_variances.append(sample_variance)

mean_unbiased_variance = np.mean(unbiased_variances)
population_variance = np.var(population)

print("Mean Unbiased Variance:", mean_unbiased_variance)
print("Population Variance:", population_variance)
Mean Unbiased Variance: 101.69170154048732
Population Variance: 101.5789887073244

Seperti yang ditunjukkan oleh contoh ini, menggunakan rumus sampel varian yang tidak bias dengan koreksi Bessel memberikan perkiraan yang lebih akurat dari varian populasi yang sebenarnya. Dengan menggunakan n-1 daripada n pada penyebut, kita dapat efektif mengkoreksi bias yang diperkenalkan oleh penggunaan rata-rata sampel dalam perhitungan kita.

Ryusei Kakujo

researchgatelinkedingithub

Focusing on data science for mobility

Bench Press 100kg!