Traffine I/O

Bahasa Indonesia

2022-11-10

Panduan Singkat Mengenai Pandas

Apa itu Perpustakaan Pandas

Pandas adalah perpustakaan Python untuk analisis dan manipulasi data. Perpustakaan ini menyediakan struktur data untuk menyimpan dan memanipulasi data secara efisien, serta alat untuk membersihkan, menyaring, dan mentransformasi data. Pandas dibangun di atas perpustakaan NumPy, yang menyediakan komputasi numerik yang efisien di Python. Pandas banyak digunakan dalam ilmu data dan pembelajaran mesin, dan merupakan alat penting bagi siapa saja yang bekerja dengan data di Python.

Fitur Utama Pandas

Beberapa fitur utama Pandas antara lain:

  • Struktur data untuk penyimpanan dan manipulasi data tabular secara efisien, termasuk data frame dan seri.
  • Alat untuk membersihkan, menyaring, dan mentransformasi data, seperti kemampuan untuk menangani data yang hilang dan nilai duplikat.
  • Integrasi dengan perpustakaan Python lainnya, seperti NumPy, Matplotlib, dan Scikit-learn.
  • Dukungan bawaan untuk membaca dan menulis data dalam berbagai format, termasuk CSV, Excel, dan database SQL.
  • Kemampuan indeks dan pemilihan yang kuat, memungkinkan pemotongan dan penyaringan data yang kompleks.
  • Integrasi mudah dengan perpustakaan Python lainnya dan alat untuk analisis dan visualisasi data.

Instalasi

Untuk menggunakan Pandas, Anda perlu menginstalnya di komputer Anda. Pandas dapat diinstal menggunakan manajer paket pip.

bash
$ pip install pandas

Struktur Data di Pandas

Pandas menyediakan dua struktur data utama untuk menyimpan dan memanipulasi data: data frame dan seri.
Dalam bab ini, saya akan menjelajahi dua struktur data utama yang disediakan oleh perpustakaan Pandas untuk menyimpan dan memanipulasi data: dataframe dan series.

Dataframe

Dataframe adalah tabel dua dimensi data, mirip dengan lembar kerja. Ini terdiri dari baris dan kolom, di mana setiap kolom mewakili variabel dan setiap baris mewakili observasi. Dataframe adalah struktur data yang paling sering digunakan dalam Pandas, dan memberikan cara yang kuat untuk bekerja dengan data tabular.

Untuk membuat dataframe di Pandas, Anda dapat menggunakan fungsi DataFrame() dan memasukkan kamus atau daftar dari daftar. Kunci kamus atau daftar pertama dalam daftar akan menjadi nama kolom, dan nilai atau daftar yang tersisa akan menjadi baris. Contohnya adalah:

python
import pandas as pd

data = {'Name': ['Alice', 'Bob', 'Charlie', 'David'],
        'Age': [25, 30, 35, 40],
        'City': ['New York', 'Paris', 'London', 'Tokyo']}

df = pd.DataFrame(data)

print(df)
       Name  Age      City
0     Alice   25  New York
1       Bob   30     Paris
2   Charlie   35    London
3     David   40     Tokyo

Anda dapat mengakses kolom dalam data frame menggunakan nama mereka, misalnya:

python
ages = df['Age']
print(ages)
0    25
1    30
2    35
3    40
Name: Age, dtype: int64

Anda juga dapat mengakses baris dalam data frame menggunakan metode loc[], yang mengambil label baris, atau metode iloc[], yang mengambil indeks baris. Contohnya adalah:

python
row = df.loc[1]
print(row)
Name        Bob
Age          30
City      Paris
Name: 1, dtype: object

Series

Series adalah array satu dimensi data, mirip dengan kolom dalam lembar kerja. Series sering digunakan untuk mewakili satu variabel atau satu kolom data dalam dataframe. Series memberikan cara yang kuat untuk bekerja dengan data satu dimensi di Pandas.

Untuk membuat seri di Pandas, Anda dapat menggunakan fungsi Series() dan memasukkan daftar atau array. Contohnya adalah:

python
import pandas as pd

ages = pd.Series([25, 30, 35, 40])

print(ages)
0    25
1    30
2    35
3    40
dtype: int64

Anda dapat mengakses elemen dalam series menggunakan indeks mereka, misalnya:

python
age = ages[1]
print(age)
30

Anda juga dapat melakukan operasi pada elemen series, misalnya:

doubled_ages = ages * 2
print(doubled_ages)
0    50
1    60
2    70
3    80
dtype: int64

Referensi

https://pandas.pydata.org/docs/reference/index.html

Ryusei Kakujo

researchgatelinkedingithub

Focusing on data science for mobility

Bench Press 100kg!