Pengenalan
Histogram adalah alat visualisasi yang memungkinkan kita untuk memahami distribusi dari sebuah dataset dengan memvisualisasikan frekuensi atau jumlah nilai dalam interval yang berbeda, yang disebut sebagai bin. Dalam artikel ini, saya akan memperkenalkan cara menggambar histogram menggunakan Pandas.
Histogram Variabel Tunggal
Pertama, kita perlu mengimpor library yang diperlukan dan menghasilkan beberapa data.
import pandas as pd
import matplotlib.pyplot as plt
import numpy as np
# Generating a DataFrame with 1000 random values
np.random.seed(0) # To maintain consistency in generated values
df = pd.DataFrame({'Value':np.random.normal(10, 2, 1000)})
Kita memiliki DataFrame df
dengan 1000 observasi yang diambil dari distribusi normal dengan rata-rata 10 dan standar deviasi 2. Sekarang, kita akan menggambar histogram menggunakan metode hist()
:
df['Value'].hist(edgecolor='black')
plt.title('Histogram of Values')
plt.xlabel('Value')
plt.ylabel('Frequency')
plt.show()
Histogram Variabel Ganda
Untuk variabel ganda, mari tambahkan kolom lain ke DataFrame kita.
df['Value_2'] = np.random.normal(15, 3, 1000)
Di sini, kita telah membuat kolom baru Value_2
dengan 1000 observasi yang diambil dari distribusi normal dengan rata-rata 15 dan standar deviasi 3. Mari menggambar histogram untuk kedua variabel tersebut:
df[['Value', 'Value_2']].plot(kind='hist', rwidth=0.8, alpha=0.5, bins=30)
plt.title('Histogram of Values')
plt.xlabel('Value')
plt.ylabel('Frequency')
plt.show()
Kode ini akan menghasilkan histogram yang tumpang tindih untuk Value
dan Value_2
. Parameter alpha
mengontrol transparansi warna, sehingga memungkinkan kita melihat daerah yang tumpang tindih.
Mengubah Ukuran Bin
Argumen bins
dalam fungsi hist()
menentukan jumlah bin dengan interval yang sama dalam rentang data. Mari ubah ukuran bin menjadi 20:
df['Value'].hist(bins=20, edgecolor='black')
plt.title('Histogram of Values with 20 Bins')
plt.xlabel('Value')
plt.ylabel('Frequency')
plt.show()
Menambahkan Judul dan Label
Menambahkan judul dan label dilakukan menggunakan plt.title()
, plt.xlabel()
, dan plt.ylabel()
. Kita telah menggunakan fungsi-fungsi ini sebelumnya.
Mengubah Warna dan Gaya
Anda dapat mengubah warna histogram menggunakan parameter color
, dan juga menambahkan grid menggunakan plt.grid()
:
df['Value'].hist(bins=20, color='green', edgecolor='black')
plt.title('Green Histogram of Values with 20 Bins')
plt.xlabel('Value')
plt.ylabel('Frequency')
plt.grid(True)
plt.show()
Kode ini mengubah warna histogram menjadi hijau dan menambahkan grid untuk memudahkan visibilitas. Anda dapat memilih warna dan gaya lain sesuai dengan preferensi Anda.