Perbandingan Model CNN vs NN vs ViT pada Computer Vision

Penggunaan Deep Learning dimulai pada tahun 1989 dimana jaringan saraf konvolusional (CNN) pertama, LeNet, dikembangkan oleh Yann LeCun dan timnya untuk pengenalan karakter tulisan tangan.

Pada penelitian kali ini, kami akan mencoba membandingkan 3 (tiga) model deep learning untuk computer vision dengan menggunakan Pytorch, yaitu :

Convolution Neurat Network (CNN) dengan menggunakan arsitektur LeNet
Neural Network (NN) saja
Vision Transformer (Vit)

Seluruh Model dibuat dari scrath, yang bertujuan untuk eksperimen lainnya di kemudian hari. Ketiga model tersebut juga tidak mengharuskan resize gambar ke dimensi tertentu, sehingga komputasi untuk training ketiga model tersebut masih nyaman dilakukan dengan CPU. Dataset yang digunakan adalah dataset MNIST yaitu dataset yang sama digunakan oleh Yann LeCun dalam melatih dan menguji LeNet. Di dalam dataset MNIST terdapat 6000 gambar angka yang berupa tulisan tangan mulai dari angka 0 (nol) sampai dengan 9 (sembilan).

Hasil pengujian dari ketiga model tersebut ditampilkan dalam tabel berikut :

Rank	Model	Test Accuracy	Test Loss	Validation Accuracy	Validation Loss
1	CNN-LeNet	0.99548	0.01385	0.99019	0.04113
2	NN	0.99198	0.02333	0.97856	0.08939
3	ViT	0.90568	0.29639	0.90575	0.28151

*Ket : Nilai Accuracy dan Loss yang ditampilkan adalah nilai terbaik dari pengujian

Berikut adalah Grafik Hasil uji Accuracy dan Loss untuk Test dan Validasi dari masing-masing model :

Kesimpulan

Dari pengujian ketiga model tersebut terlihat bahwa LeNet masih unggul dibandingkan model Neural Network (NN) dan Vision Transformer (ViT). Vit menunjukan bahwa arsitektur Transformer dapat digunakan dalam Computer Vision. Penelitian ini juga menunjukan model yang menggunakan arsitektur Neural Network saja bisa digunakan untuk klasifikasi dalam Computer Vision, meskipun dengan model yang lebih ringkas.

Note

Tulisan ini dibuat untuk pemenuhan tugas Mata Kuliah Computer Vision

Universita Pamulang (Unpam), Tahun 2025

Nama : Doni Fristiyanto

Nim : 241012000122

Name		Name	Last commit message	Last commit date
Latest commit History 15 Commits
assets		assets
CNN_Lenet_MNIST.ipynb		CNN_Lenet_MNIST.ipynb
NN_MNIST.ipynb		NN_MNIST.ipynb
README.md		README.md
ViT_MNIST.ipynb		ViT_MNIST.ipynb

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

Repository files navigation

Perbandingan Model CNN vs NN vs ViT pada Computer Vision

*Ket : Nilai Accuracy dan Loss yang ditampilkan adalah nilai terbaik dari pengujian

LeNet

NN

Vit

Kesimpulan

About

Uh oh!

Releases

Packages

Languages

firstyanto/comvis

Folders and files

Latest commit

History

Repository files navigation

Perbandingan Model CNN vs NN vs ViT pada Computer Vision

*Ket : Nilai Accuracy dan Loss yang ditampilkan adalah nilai terbaik dari pengujian

LeNet

NN

Vit

Kesimpulan

About

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages