Traffine I/O

Bahasa Indonesia

2022-11-13

Menggambar Histogram dengan Pandas

Pengenalan

Histogram adalah alat visualisasi yang memungkinkan kita untuk memahami distribusi dari sebuah dataset dengan memvisualisasikan frekuensi atau jumlah nilai dalam interval yang berbeda, yang disebut sebagai bin. Dalam artikel ini, saya akan memperkenalkan cara menggambar histogram menggunakan Pandas.

Histogram Variabel Tunggal

Pertama, kita perlu mengimpor library yang diperlukan dan menghasilkan beberapa data.

python
import pandas as pd
import matplotlib.pyplot as plt
import numpy as np

# Generating a DataFrame with 1000 random values
np.random.seed(0)  # To maintain consistency in generated values
df = pd.DataFrame({'Value':np.random.normal(10, 2, 1000)})

Kita memiliki DataFrame df dengan 1000 observasi yang diambil dari distribusi normal dengan rata-rata 10 dan standar deviasi 2. Sekarang, kita akan menggambar histogram menggunakan metode hist():

python
df['Value'].hist(edgecolor='black')
plt.title('Histogram of Values')
plt.xlabel('Value')
plt.ylabel('Frequency')
plt.show()

Single histogrammu

Histogram Variabel Ganda

Untuk variabel ganda, mari tambahkan kolom lain ke DataFrame kita.

df['Value_2'] = np.random.normal(15, 3, 1000)

Di sini, kita telah membuat kolom baru Value_2 dengan 1000 observasi yang diambil dari distribusi normal dengan rata-rata 15 dan standar deviasi 3. Mari menggambar histogram untuk kedua variabel tersebut:

python
df[['Value', 'Value_2']].plot(kind='hist', rwidth=0.8, alpha=0.5, bins=30)
plt.title('Histogram of Values')
plt.xlabel('Value')
plt.ylabel('Frequency')
plt.show()

Multiple histogram

Kode ini akan menghasilkan histogram yang tumpang tindih untuk Value dan Value_2. Parameter alpha mengontrol transparansi warna, sehingga memungkinkan kita melihat daerah yang tumpang tindih.

Mengubah Ukuran Bin

Argumen bins dalam fungsi hist() menentukan jumlah bin dengan interval yang sama dalam rentang data. Mari ubah ukuran bin menjadi 20:

python
df['Value'].hist(bins=20, edgecolor='black')
plt.title('Histogram of Values with 20 Bins')
plt.xlabel('Value')
plt.ylabel('Frequency')
plt.show()

Histogram bin

Menambahkan Judul dan Label

Menambahkan judul dan label dilakukan menggunakan plt.title(), plt.xlabel(), dan plt.ylabel(). Kita telah menggunakan fungsi-fungsi ini sebelumnya.

Mengubah Warna dan Gaya

Anda dapat mengubah warna histogram menggunakan parameter color, dan juga menambahkan grid menggunakan plt.grid():

python
df['Value'].hist(bins=20, color='green', edgecolor='black')
plt.title('Green Histogram of Values with 20 Bins')
plt.xlabel('Value')
plt.ylabel('Frequency')
plt.grid(True)
plt.show()

Histogram color

Kode ini mengubah warna histogram menjadi hijau dan menambahkan grid untuk memudahkan visibilitas. Anda dapat memilih warna dan gaya lain sesuai dengan preferensi Anda.

Ryusei Kakujo

researchgatelinkedingithub

Focusing on data science for mobility

Bench Press 100kg!