2022-03-22

Statistik

Apa itu Statistik

Statistik adalah bidang ilmu yang berurusan dengan pengumpulan, analisis, interpretasi, penyajian, dan organisasi data. Dengan meningkatnya ketersediaan data dalam dunia saat ini, pentingnya statistik telah berkembang pesat. Statistik memungkinkan individu dan organisasi untuk membuat keputusan berdasarkan data, mengekstrak wawasan yang bermakna, dan merumuskan kebijakan yang berbasis bukti.

Jenis-jenis Statistik

Ada dua cabang utama statistik: statistik deskriptif dan statistik inferensial. Statistik deskriptif bertujuan untuk merangkum dan mengorganisir data dengan menyediakan ukuran numerik dan grafis untuk menggambarkan fitur utama data. Sebaliknya, statistik inferensial berfokus pada membuat generalisasi atau prediksi tentang populasi berdasarkan sampel data. Ini menggunakan teori probabilitas dan alat matematika lainnya untuk menarik kesimpulan dan menilai ketidakpastian yang terkait dengan kesimpulan ini.

Statistik Deskriptif

Statistik deskriptif adalah cabang statistik yang berfokus pada merangkum, mengorganisir, dan menggambarkan fitur utama dataset. Ini memberikan cara untuk menyederhanakan jumlah data yang besar menjadi ukuran yang lebih mudah dipahami yang membantu kita memahami pola dan struktur keseluruhan data. Statistik deskriptif melibatkan perhitungan ukuran tendensi sentral, dispersi, dan bentuk, serta membuat representasi grafis dari data.

Ukuran Tendensi Sentral

Ukuran tendensi sentral memberikan ringkasan lokasi pusat atau nilai rata-rata dari dataset. Tiga ukuran paling umum adalah mean, median, dan mode.

Mean
Mean, atau rata-rata aritmatika, adalah jumlah semua nilai data dibagi dengan jumlah nilai. Ini mewakili nilai tipikal dari dataset dan sangat dipengaruhi oleh nilai ekstrem atau outlier.
Median
Median adalah nilai tengah dari dataset ketika nilai data diatur dalam urutan naik atau turun. Jika ada jumlah nilai yang genap, median adalah rata-rata dari dua nilai tengah. Median kurang sensitif terhadap nilai ekstrem daripada mean.
Mode
Mode adalah nilai yang muncul paling sering dalam dataset. Dataset dapat memiliki tidak ada mode, satu mode (unimodal), atau beberapa mode (multimodal). Mode dapat berguna untuk menganalisis data kategoris atau mengidentifikasi nilai yang paling umum dalam dataset.

Ukuran Dispersi

Ukuran dispersi menggambarkan sebaran atau variabilitas dataset. Mereka membantu kita memahami sejauh mana nilai data berbeda dari tendensi sentral. Ukuran dispersi kunci termasuk rentang, varian, dan Deviasi standar.

Rentang
Rentang adalah perbedaan antara nilai maksimum dan minimum dalam dataset. Meskipun ini adalah ukuran dispersi yang sederhana, dapat sangat dipengaruhi oleh outlier.
Varian (Variance)
Varians adalah rata-rata perbedaan kuadrat antara setiap nilai data dan mean. Ini mengukur sebaran nilai data di sekitar mean dan berguna untuk membandingkan variabilitas dataset yang berbeda.
Deviasi standar (Standard Deviation)
Deviasi standar adalah akar kuadrat dari varian. Ini mengukur jarak rata-rata antara setiap nilai data dan mean. Seperti varian, ini berguna untuk membandingkan sebaran dataset yang berbeda tetapi memiliki keuntungan berada dalam unit yang sama dengan data asli.

Ukuran Bentuk

Ukuran bentuk menggambarkan distribusi nilai data dalam dataset. Dua ukuran bentuk paling umum adalah skewness dan kurtosis.

Skewness
Skewness mengukur asimetri distribusi dataset. Distribusi yang condong positif memiliki ekor yang lebih panjang di sisi kanan, sedangkan distribusi yang condong negatif memiliki ekor yang lebih panjang di sisi kiri. Distribusi simetris memiliki skewness nol.
Kurtosis
Kurtosis mengukur "keekstreman" distribusi dataset. Kurtosis tinggi menunjukkan distribusi dengan nilai ekstrem atau outlier yang lebih banyak, sedangkan kurtosis rendah menunjukkan distribusi dengan nilai ekstrem yang lebih sedikit. Distribusi normal memiliki kurtosis nol.

Representasi Grafis

Representasi grafis dari data adalah alat visual yang membantu kita mengeksplorasi dan memahami struktur dataset. Beberapa jenis grafik yang umum digunakan dalam statistik deskriptif adalah histogram, box plot, dan scatter plot.

Histogram
Histogram adalah representasi grafis dari distribusi frekuensi dataset. Ini membagi data menjadi interval, disebut bin, dan mewakili frekuensi masing-masing bin dengan bar vertikal. Histogram berguna untuk menganalisis bentuk, tendensi sentral, dan dispersi dataset.
Box Plot
Box plot, juga dikenal sebagai box-and-whisker plot, adalah representasi grafis yang menampilkan ringkasan lima angka dari dataset: minimum, kuartil pertama (Q1), median, kuartil ketiga (Q3), dan maksimum. "Box" mewakili rentang interquartile (IQR), yang merupakan rentang antara Q1 dan Q3, dan "whisker" menghubungkan box ke nilai minimum dan maksimum. Box plot berguna untuk mengidentifikasi outlier, membandingkan distribusi, dan memvisualisasikan tendensi sentral dan dispersi dataset.
Scatter Plot
Scatter plot adalah representasi grafis yang menampilkan hubungan antara dua variabel kontinu. Setiap titik data diplot sebagai titik pada sistem koordinat Cartesius, dengan sumbu x mewakili satu variabel dan sumbu y mewakili variabel lainnya. Scatter plot berguna untuk mengeksplorasi korelasi antar variabel, mengidentifikasi tren, dan mendeteksi outlier.

Statistik Inferensial

Statistik inferensial adalah cabang statistik yang berfokus pada membuat generalisasi atau prediksi tentang populasi berdasarkan sampel data. Ini menggunakan teori probabilitas dan alat matematika lainnya untuk memperkirakan parameter populasi, menguji hipotesis, dan memperkirakan ketidakpastian yang terkait dengan kesimpulan ini. Statistik inferensial memungkinkan kita membuat inferensi tentang kelompok yang lebih besar berdasarkan informasi yang dikumpulkan dari sampel yang lebih kecil.

Probabilitas dan Distribusi Sampling

Probabilitas adalah konsep mendasar dalam statistik inferensial. Ini mengukur kemungkinan suatu peristiwa atau hasil terjadi. Dengan memahami probabilitas, kita dapat membuat keputusan dan prediksi yang berdasarkan data.

Distribusi sampling menggambarkan distribusi probabilitas dari suatu statistik sampel, seperti mean sampel atau proporsi sampel, yang diperoleh dari beberapa sampel acak yang diambil dari populasi yang sama. Teorema Batas Pusat, salah satu dasar statistik inferensial, menyatakan bahwa distribusi sampling dari rata-rata sampel mendekati distribusi normal ketika ukuran sampel bertambah, terlepas dari bentuk distribusi populasi.

Pengujian Hipotesis

Pengujian hipotesis adalah metode yang digunakan dalam statistik inferensial untuk membuat keputusan atau kesimpulan tentang populasi berdasarkan data sampel. Ini melibatkan merumuskan hipotesis nol dan alternatif, menghitung statistik uji, dan menentukan probabilitas pengamatan statistik uji di bawah hipotesis nol (nilai p).

Interval Kepercayaan

Interval kepercayaan adalah rentang nilai di mana parameter populasi yang sebenarnya kemungkinan besar jatuh, dengan tingkat kepercayaan tertentu (misalnya 95% atau 99%). Interval kepercayaan memberikan perkiraan ketidakpastian yang terkait dengan statistik sampel, dengan mempertimbangkan variabilitas dalam data sampel.

Uji Parametrik dan Non-Parametrik

Uji parametrik adalah uji statistik yang mengasumsikan data mengikuti distribusi probabilitas tertentu, seperti distribusi normal. Uji ini sering memiliki kekuatan statistik yang lebih besar tetapi membutuhkan data untuk memenuhi asumsi tertentu. Uji non-parametrik, di sisi lain, membuat asumsi yang lebih sedikit tentang distribusi data dan lebih tahan terhadap pelanggaran asumsi tersebut, tetapi mungkin memiliki kekuatan statistik yang lebih rendah.

Analisis Regresi

Analisis regresi adalah teknik yang digunakan untuk memodelkan hubungan antara variabel dependen dan satu atau lebih variabel independen. Ini membantu kita memahami bagaimana perubahan dalam variabel independen mempengaruhi variabel dependen dan dapat digunakan untuk prediksi, estimasi, dan pengujian hipotesis.