Penggunaan Deep Learning dimulai pada tahun 1989 dimana jaringan saraf konvolusional (CNN) pertama, LeNet, dikembangkan oleh Yann LeCun dan timnya untuk pengenalan karakter tulisan tangan.
Pada penelitian kali ini, kami akan mencoba membandingkan 3 (tiga) model deep learning untuk computer vision dengan menggunakan Pytorch, yaitu :
- Convolution Neurat Network (CNN) dengan menggunakan arsitektur LeNet
- Neural Network (NN) saja
- Vision Transformer (Vit)
Seluruh Model dibuat dari scrath, yang bertujuan untuk eksperimen lainnya di kemudian hari. Ketiga model tersebut juga tidak mengharuskan resize gambar ke dimensi tertentu, sehingga komputasi untuk training ketiga model tersebut masih nyaman dilakukan dengan CPU. Dataset yang digunakan adalah dataset MNIST yaitu dataset yang sama digunakan oleh Yann LeCun dalam melatih dan menguji LeNet. Di dalam dataset MNIST terdapat 6000 gambar angka yang berupa tulisan tangan mulai dari angka 0 (nol) sampai dengan 9 (sembilan).
Hasil pengujian dari ketiga model tersebut ditampilkan dalam tabel berikut :
| Rank | Model | Test Accuracy | Test Loss | Validation Accuracy | Validation Loss |
|---|---|---|---|---|---|
| 1 | CNN-LeNet | 0.99548 | 0.01385 | 0.99019 | 0.04113 |
| 2 | NN | 0.99198 | 0.02333 | 0.97856 | 0.08939 |
| 3 | ViT | 0.90568 | 0.29639 | 0.90575 | 0.28151 |
Berikut adalah Grafik Hasil uji Accuracy dan Loss untuk Test dan Validasi dari masing-masing model :
(https://github.com/firstyanto/comvis/blob/main/CNN_Lenet_MNIST.ipynb)
(https://github.com/firstyanto/comvis/blob/main/NN_MNIST.ipynb)
(https://github.com/firstyanto/comvis/blob/main/ViT_MNIST.ipynb)
Dari pengujian ketiga model tersebut terlihat bahwa LeNet masih unggul dibandingkan model Neural Network (NN) dan Vision Transformer (ViT). Vit menunjukan bahwa arsitektur Transformer dapat digunakan dalam Computer Vision. Penelitian ini juga menunjukan model yang menggunakan arsitektur Neural Network saja bisa digunakan untuk klasifikasi dalam Computer Vision, meskipun dengan model yang lebih ringkas.
Note
Tulisan ini dibuat untuk pemenuhan tugas Mata Kuliah Computer Vision
Universita Pamulang (Unpam), Tahun 2025
Nama : Doni Fristiyanto
Nim : 241012000122