Cara Menggunakan Scikit-Learn untuk Machine Learning

Daftar Isi

 

Machine learning telah menjadi topik yang sangat populer dalam beberapa tahun terakhir. Hal ini disebabkan oleh kemampuan mesin untuk mempelajari pola dari data dan memberikan prediksi akurat dalam berbagai domain seperti kesehatan, keuangan, dan bisnis. Salah satu alat utama yang digunakan dalam machine learning adalah Scikit-Learn, sebuah perpustakaan Python untuk machine learning. Scikit-Learn menyediakan berbagai algoritma machine learning yang dapat digunakan untuk membangun model dan melakukan prediksi. Dalam artikel ini, akan dibahas cara menggunakan Scikit-Learn untuk machine learning.

1. Instalasi Scikit-Learn

Sebelum dapat menggunakan Scikit-Learn, Anda harus menginstalnya terlebih dahulu. Caranya adalah dengan menggunakan pip, yaitu manajer paket Python. Berikut ini adalah perintah untuk menginstal Scikit-Learn:

1
pip install scikit-learn

Setelah selesai menginstal, Anda dapat mengimpor Scikit-Learn ke dalam kode Python Anda menggunakan perintah berikut:

1
import sklearn

2. Memuat Data

Langkah pertama dalam machine learning adalah memuat data. Scikit-Learn menyediakan beberapa dataset yang dapat digunakan untuk latihan. Salah satu dataset yang umum digunakan adalah dataset iris. Dataset ini berisi informasi tentang tiga jenis bunga iris (Setosa, Versicolor, dan Virginica) dan berbagai fitur seperti panjang kelopak, lebar kelopak, panjang daun, dan lebar daun.

Untuk memuat dataset iris, Anda dapat menggunakan perintah berikut:

1
2
3
4
5
from sklearn.datasets import load_iris

iris = load_iris()
X = iris.data
y = iris.target

Variabel X berisi data fitur dan variabel y berisi label kelas. Dalam kasus ini, label kelas adalah jenis bunga iris.

3. Membagi Data

Setelah memuat data, langkah selanjutnya adalah membagi data menjadi dua bagian: data pelatihan dan data pengujian. Data pelatihan digunakan untuk membangun model, sedangkan data pengujian digunakan untuk menguji seberapa baik model yang dibangun dapat melakukan prediksi pada data yang belum pernah dilihat sebelumnya.

Anda dapat menggunakan fungsi train_test_split dari Scikit-Learn untuk membagi data menjadi dua bagian. Berikut ini adalah contoh penggunaannya:

1
2
3
from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

Fungsi train_test_split membagi data menjadi dua bagian, di mana 80% data digunakan untuk pelatihan dan 20% data digunakan untuk pengujian.

4. Memilih Model

Setelah membagi data, langkah selanjutnya adalah memilih model untuk membangun prediksi. Scikit-Learn menyediakan berbagai algoritma machine learning seperti regresi linear, regresi logistik, k-NN, SVM, dan Naive Bayes.

Dalam contoh ini, akan digunakan algoritma k-NN. Algoritma k-NN memprediksi kelas dari data baru berdasarkan jarak antara data baru dan data pelatihan terdekat.

Anda dapat membuat model dengan mengimpor kelas KNeighborsClassifier dari Scikit-Learn dan membuat objek model seperti di bawah ini:

1
2
3
from sklearn.neighbors import KNeighborsClassifier

model = KNeighborsClassifier(n_neighbors=3)

Pada contoh di atas, kelas KNeighborsClassifier diberikan argumen n_neighbors=3, yang menandakan bahwa model akan mempertimbangkan tiga tetangga terdekat dalam membuat prediksi.

5. Melatih Model

Setelah memilih model, langkah selanjutnya adalah melatih model dengan menggunakan data pelatihan. Anda dapat melakukannya dengan memanggil metode fit pada objek model seperti di bawah ini:

1
model.fit(X_train, y_train)

Metode fit akan menyesuaikan model dengan data pelatihan yang diberikan.

6. Menguji Model

Setelah melatih model, langkah selanjutnya adalah menguji model dengan menggunakan data pengujian. Anda dapat melakukannya dengan memanggil metode predict pada objek model seperti di bawah ini:

1
y_pred = model.predict(X_test)

Variabel y_pred akan berisi prediksi dari model pada data pengujian.

7. Evaluasi Model

Setelah melakukan prediksi, langkah selanjutnya adalah mengevaluasi kinerja model. Scikit-Learn menyediakan berbagai metrik evaluasi seperti akurasi, presisi, recall, dan F1-score.

Dalam contoh ini, akan digunakan metrik akurasi untuk mengevaluasi kinerja model. Akurasi adalah rasio antara jumlah prediksi benar dan jumlah total prediksi. Anda dapat menggunakan fungsi accuracy_score dari Scikit-Learn untuk menghitung akurasi. Berikut ini adalah contoh penggunaannya:

1
2
3
4
from sklearn.metrics import accuracy_score

accuracy = accuracy_score(y_test, y_pred)
print("Akurasi model: ", accuracy)

Output dari kode di atas adalah akurasi model pada data pengujian.

Kesimpulan

Scikit-Learn adalah perpustakaan Python yang sangat berguna untuk machine learning. Dalam artikel ini, telah dijelaskan cara menggunakan Scikit-Learn untuk memuat data, membagi data, memilih model, melatih model, menguji model, dan mengevaluasi kinerja model. Dengan menggunakan Scikit-Learn, Anda dapat membangun model machine learning dengan mudah dan menghasilkan prediksi yang akurat.


Posting Komentar