Contrastive Divergence untuk Deep Learning

oleh Abu Ahmad (abuahmad@promtionme,com)

Restricted Boltzmann machines (RBM) merupakan kunci dalam deep learning. Permasalahan dalam deep learning adalah sering kali jaringan syaraf tiruan yang menggunakan banyak layer (lapisan) akan tersendat di tengah jalan yaitu ketika saat training. Karena jumlah Weight (bobot) yang digunakan dalam deep learning sangat banyak.sehingga bisa jadi jaringan syaraf tiruan akan tersendat atau terperangkap pada minimum lokal.

Lukisan yang dibuat oleh jaringan syaraf manusia

Lukisan yang dibuat oleh jaringan syaraf manusia

Lalu kenapa beralih ke deep learning yang mempunyai banyak lapis yang sulit untuk dilatih? pada Multi Layer Perceptron (MLP) yang terdiri atas beberapa layer jaringan yang terdiri atas satu atau dua layer tersembunyi, akurasi dari jaringan syaraf tiruan akan sangat rendah, Karena itu dibutuhkan lebih banyak lapisan untuk meningkatkan memampuan jaringan syaraf tiruan. Semakin banyak lapisan, maka akan semakin tinggi kemampuan jaringan syaraf tiruan. Namun, semakin banyak lapisan yang digunakan, waktu atau iterasi yang dibutuhkan juga semakin banyak. hal ini dikarenakan, karena metode Back propagation yang digunakan untuk memperbaharui (update) bobot jaringan akan mengecil seiring makin banyaknya jaringan atau lapisan. Permasalahan ini disebut vanishing gradient problem (permasalahan gradien yang menghilang).

Hal ini sering terjadi pada kasus di mana bobot awal jaringan diatur secara acak. Namun jika bobot awal jaringan dekat atau berada pada nilai yang dekat dengan nilai optimal, maka training biasa akan bisa dengan cepat mendapatkan solusi optimal.

Untuk mendapatkan bobot awal yang ideal, kita bisa menggunakan RBM untuk mencari titik yang dekat dengan optimal. Pelatihan untuk RBM disebut pre-training atau pra pelatihan.

untuk melatih RBm sendiri, kita membutuhakn metode un-supervised learning atau pelatihan tak terawasi dengan menggunakan Contrastive Divergence.  RBM telah digunakan sebagai pemodelan generatif untuk banyak jenis data termasuk gambar dengan label atau tanpa label, potongan koefisien mel-cepstral atau yang mewakili data suara, kumpulan kata-kata yang mewakili dokumen teks , dan rating penonton pada film. dalam kondisi bentuk mereka, data tersebut bisa digunakan untuk memodelkan urutan waktu berdimensi tingi seperti video atau data film, atau juga pembicaraan. Penggunaan yang paling penting adalah sebagai modul permbelajaran yang disusun untuk membentuk deep belief networks (DBN).

RBM biasanya dilatih menggunakan prosedur contrastive divergence CD. Untuk memahami CD untuk melatih RBM dibutuhkan sejumlah waktu untuk pengalaman praktik untuk menentukan nilai dari meta-parameter angka seperti laju pembelajran, momentum, bobot biaya, dan target kerenggangan, nilai untuk bobot awal dari jaringan, jumlah unit tersembunyi, dan ukuran dari tiap batch mini. terdapat juga keputusan jenis unit apa yang digunakan apakah akan meperbaharui statusnya secara stokastik atau atau secara deterministik, seberapa banyak waktu untuk update status dari unit tersembunyi untuk tiap kasus training, dan apakah memulai tiap urutan dari update stattus pada sebuah vektor data. sebagai tambahan, sngat berguna untuk mengetahui bagaimana cara mengawasi laju pembelajaran dan kapan harus menghentikan training.

 

Leave a Reply

Your email address will not be published. Required fields are marked *

*

You may use these HTML tags and attributes: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <strike> <strong>