Probabilitas Bayes, Prior, dan Posterior

Probabilitas Bayes adalah interpretasi dari konsep probabilitas yang mana probabilitas dimakdai sebagi sebuah ekspektasi yang masuk akal yang mewakili sebuah status pengetahuan atau sebagai kuantifikasi dari sebuah kepercayaan pribadi, dari pada sekedar frekuensi atau kecenderungan.

Balon dengan probabilitas prior dan posterior

Balon dengan probabilitas prior dan posterior

Statistika Bayes adalah sebuah teori dibidang statistik yang mana bukti tentang status yang sebenarnya dari semesta dinyatakan dalam bentuk derajat kepercayaan yang disebut probabilitas Bayes.

Probabilitas posterior dari sebuah kejadian acak atau dari sebuah pernyataan tak tentu adalah kondisi probabilitas yang disematkan setelah kejadian terkait atau latar belakang ikut diperhitungkan.

Distribusi probabilitas posterior adalah distribusi probabilitas dari sebuah kuantitas yang tidak diketahui, yang diperlakukan sebagai sebuah variabel acak, yang tergantung pada bukti yang diperoleh dari sebuah percobaan atau survei.
Continue reading

Proses Markov dengan Contoh Penjualan Printer Canon Pixma MG2440

Misalkan X_n adalah penjualan printer Canon Pixma MG2440 pada tahun n dan S_n adalah jumlah penjualan printer tersebut dari tahun 1 hingga tahun n. Penjualan tersebut bisa kita modelkan dengan persamaan berikut.

(1)   \begin{equation*}  S_n=X_1+X_2+\hdots+X_n=S_{n-1}+X_n \end{equation*}

Printer Pixma MG2440

Printer Pixma MG2440

di mana X_i adalah sederet variabel acak yang independen dan terdistribusi secara identik dan S_0=0.  S_n adalah proses Markov karena

(2)   \begin{equation*}  P[ S_n=s_n|S_{n-1}=s_{n-1}, \hdots, S_{1}=s_{1}]=P[X_n=s_{n}-s_{n-1}] \end{equation*}

Continue reading

Hukum Pertama Newton

Hukum pertama Newton menyatakan bahwa jumlah atau resultan benda yang diam atau bergerak dengan kecepatan konstan atau tetap adalah nol.

(1)   \begin{equation*}  \sum F=0 \end{equation*}

Contoh dari hukum ini adalah benda diam seperti mobil yang sedang diam atau mobil yang bergerak dengan kecepatan tetap misalkan 60 Km/jam.

 

Bagaimana cara mengumpulkan statistik pada Contrastive Divergence(CD)?

Oleh: Abu Ahmad (abuahmad@promotionme.com)

Sebagai awalan, kita asumsikan bahwa semua unit visible dan hidden adalah unit biner. Jenis unit lain akan kita bahas kemudian hari. Kita juga akan asumsikan bahwa tujuan dari pembelajaran adalah untuk menghasilkan sebuah model generatif yang bagus untuk sekumpulan vektor training. Ketika menggunakan Restricted Boltzmann Machine (RBM) untuk pembelajaran Deep Belief Nets (DBN) yang selanjutnya akan diperbaiki menggunakan propagasi balik, model generatif bukanlah tujuan akhir dan mungkin untuk dibiarkan dalam kondisi di bawah sesuai (underfitting) untuk menghemat waktu, namun hal tersebut akan kita abaikan di sini.

Syaraf Manusia Mengindra Gambar dan Rangsangan dari Luar

Syaraf Manusia Mengindra Gambar dan Rangsangan dari Luar

Pembaharuan status hidden

Asumsikan bahwa unit hidden adalah unit biner dan kita sedang menggunakan CD_1, unit hidden seharusnya mempunyai status biner stokastik ketika dihasilkan oleh sebuah vektor data. Probabilitas mengaktifkan sebuah unit hidden j, dihitung dengan menerapkan fungsi logistik \sigma(x)=1/(1+exp(-x)) pada total masukannya.

(1)   \begin{equation*}  p(h_j=1)=\sigma(b_j + \sum_iv_iw_{ij}) \end{equation*}

dan unit hidden menjadi aktif jika probabilitas ini lebih besar daripada angka acak yang dibangkitkan secara merata antar 0 dan 1.

Continue reading

Mengenal Restricted Boltzmann Machine (RBM)

Oleh Abu Ahmad (abuahmad@promotionme.com)

Untuk melatih vektor biner yang akan kita asumsikan sebagai citra biner untuk penjelasan. Himpunan untuk latihan bisa dimodelkan menggunakan jaringan dua lapis yang disebut “Restricted Boltzmann Machine” (RBM) yang pixel biner stokastik yang terhubung ke detektor fitur biner stokastik menggunakan koneksi simetris berbobot. Pixel yang berpasangan dengan unit visible (terlihat) dari RBM karena statusnya bisa diobservasi; detektor fitur yang berpasangan dengan unit hidden (tersembunyi). Sebuah konfigurasi bersama (v,h) yang merupakan unit visible dan hidden mempunyai energi yang ditentukan oleh :

(1)   \begin{equation*}  E(v,h)=-\sum_{i\in visible} a_i v_i -\sum_{j\in hidden} b_j h_j -\sum_{i,j} v_i h_j w_{ij} \end{equation*}

di mana v_i,h_j adalah status biner dari unit visible i dan unit j , a_i, b_j adalah bias dari unit tersebut dan w_ij adalah bobot antara mereka. Jaringan memberikan sebuah probabilitas pada setiap pasang vektor unit visble dan hidden melalui fungsi energi berikut:

(2)   \begin{equation*}  p(v,h)=\frac{1}{Z}e^{-E(v,h)} \end{equation*}

dimana fungsi partisi, Z didapatkan dengan menjumlahkan semua pasangan yang mungkin dari vektor visible dan hidden”

(3)   \begin{equation*}  Z=\sum_{v,h}e^{-E(v,h)} \end{equation*}

Probabilitas dari jaringan memberikan sebuah vektor visible v didapatkan dengan menjumlahkan semua vektor tersembunyi yang mungkin

(4)   \begin{equation*}  p(v)=\frac{1}{Z}\sum_{h}e^{-E(v,h)} \end{equation*}

Probabilitas bahwa jaringan memberikan sebuah citra training bisa ditingkatkan dengan menyesuaikan bobot dan bias ke energi yang lebih rendah dari citra tersebut dan meningkatkan energi dari citra lain, terutama citra yang mempunyai energi rendah dan oleh karena itu akan memberi bobot yang besar pada fungsi partisi. Continue reading

Contrastive Divergence untuk Deep Learning

oleh Abu Ahmad (abuahmad@promtionme,com)

Restricted Boltzmann machines (RBM) merupakan kunci dalam deep learning. Permasalahan dalam deep learning adalah sering kali jaringan syaraf tiruan yang menggunakan banyak layer (lapisan) akan tersendat di tengah jalan yaitu ketika saat training. Karena jumlah Weight (bobot) yang digunakan dalam deep learning sangat banyak.sehingga bisa jadi jaringan syaraf tiruan akan tersendat atau terperangkap pada minimum lokal.

Lukisan yang dibuat oleh jaringan syaraf manusia

Lukisan yang dibuat oleh jaringan syaraf manusia

Lalu kenapa beralih ke deep learning yang mempunyai banyak lapis yang sulit untuk dilatih? pada Multi Layer Perceptron (MLP) yang terdiri atas beberapa layer jaringan yang terdiri atas satu atau dua layer tersembunyi, akurasi dari jaringan syaraf tiruan akan sangat rendah, Karena itu dibutuhkan lebih banyak lapisan untuk meningkatkan memampuan jaringan syaraf tiruan. Semakin banyak lapisan, maka akan semakin tinggi kemampuan jaringan syaraf tiruan. Namun, semakin banyak lapisan yang digunakan, waktu atau iterasi yang dibutuhkan juga semakin banyak. hal ini dikarenakan, karena metode Back propagation yang digunakan untuk memperbaharui (update) bobot jaringan akan mengecil seiring makin banyaknya jaringan atau lapisan. Permasalahan ini disebut vanishing gradient problem (permasalahan gradien yang menghilang).

Continue reading

Probabilitas Gabungan dengan Asumsi Markov

oleh Abu Ahmad (abuahmad@promotionme.com)

Kita bisa nyatakan probabilitas gabungan dengan menggunakan asumsi Markov,

(1)   \begin{equation*}  P(w_1,\hdots,w_n)=\prod^n_{i=1}P(w_i|w_{i-1}) \end{equation*}

Pohon kurma di musim panas

Pohon kurma di musim panas

Sekarang, Kita telah menemukan bahwa jumlah riwayat yang kita punyai untuk menemukan statistik untuk sekarang kita hanya memutuhkan 3^2=9 bilangan untuk menentukan probabilitas dari semua urutan. Asumsi ini bisa jadi valid atau tidak tergantung situasi, dalam kasus cuaca, mungkin tidak valid, namun, kita bisa menggunakan asumsi ini untuk menyederhanakan situasi.

Continue reading

Prakiraan Cuaca dengan Markov Model

Mari kita bahas tentang cuaca. Di Lembang, kita punya tiga macam cuaca: cerah, hujan, dan berkabut. Asumsikan untuk saat di mana cuaca berlangsung sepanjang hari, yaitu dimana cuaca tidak berubah dari hujan ke panas di tengah-tengah hari.

Prediksi atau prakiraan cuaca adalah cara untuk menebak atau mengira-ngira bagaimana cuaca keesokan hari berdasarkan riwayat pengamatan cuaca. Asumsikan sebuah model sederhana untuk perkiraan cuaca: kita mengumpulkan statistik tentang bagaimana cuaca hari ini berdasarkan cuaca kemarin, hari sebelumnya dan seterusnya. kita ingin mendapatkan probabilitas atau kemungkinan berikut:

(1)   \begin{equation*}  P(w_n|w_{n-1},w_{n-2},\hdots,w_1) \end{equation*}

Cuaca Cerah di Pantai

Cuaca Cerah di Pantai

dengan menggunakan 1, kita  bisa memberikan probabilitas jenis cuaca untuk besok dan hari berikutnya menggunakan riwayat n hari sebelumnya. Sebagai contoh, jika kita mengetahui bahwa cuaca tiga hari sebelumnya adalah {cerah, cerah, dan berkabut} secara berurutan, probabilitas bahwa besok akan hujan ditentukan oleh:

(2)   \begin{equation*}  P(w_4=hujan|w_3=berkabut,w_2=cerah,w_1=cerah) \end{equation*}

Permasalahan berikut muncul, semakin besar n, maka semakin banyak statistik yang harus kita kumpulkan. Misalkan n=5, maka kita harus mengumpulkan data statistik sebanyak 3^5=243 riwayat sebelumnya. Oleh karena itu, kita akan membuat sebuah asumsi sederhana yang disebut asumsi Markov: Continue reading

Estimasi parameter pada variabel acak dengan distribusi Gamma

Misalkan x_1, x_2, \hdots , x_n adalah peubah acak terdistribusi gamma secara identik dan independen dengan parameter yang tak diketahui \alpha dan \beta. Sehingga x_i >=0, dan

    \[ f_x(x_1, x_2, \hdots, x_n ; \alpha, \beta)=\frac{\beta^{n\alpha}}{(\Gamma(\alpha))^n}\prod^{n}_{i=1} x^{\alpha-1}_i e^{-\beta \sum^n_{i=1} x_i} \]

persamaan tersebut akan memberikan fungsi log-kemungkinan berupa

    \[ L(x_1,x_2,\hdots,x_n;\alpha,\beta)&=& \log{f_x(x_1,x_2,\hdots,x_n;\alpha,\beta)} \]

    \[ &=&n\alpha \log{\beta}-n \log{\Gamma(\alpha)}+(\alpha-1)(\sum^n_{i=1} \log{x_i})-\beta\sum^n_{i=1}x_i \]

dengan melakukan diferensiasi atau turunan terhadap \alpha dan \beta, kita akan mendapatkan

    \[ \hat{\beta}_{ML}x_i=\frac{\hat_{\alpha}_{ML}}{\frac{1}{n}\sum^n_{i=1}x_i} \]

    \[ \log{\hat{\alpha}_{ML}}-\frac{\Gamma\'(\hat{\alpha}_{ML})}{\Gamma(\hat{\alpha}_{ML})}=\log{\frac{1}{n}\sum^n_{i=1}x_i}-\frac{1}{n}\sum^n_{i=1}\log{x_i} \]

Untuk estimasi peubah acak tersebut, fungsinya sangat tidak linier.

Algoritma Turunan Gradien untuk Regresi Linear Multivariabel

Regresi Linear sangat penting untuk permasalahan prediksi dalam bidang kecerdasan buatan. Pada regresi linear biasa, kita hanya mempunyai satu variabel input, jika kita punya N variabel input dimana N>=1, misalkan kita hendak memprediksi harga rumah dengan input luas tanah dan jumlah kamar, maka kita punya 2 input (N=2).

kita bisa melatih model kita dengan regresi linear multivariabel, dengan N variabel, dengan m sampel.

repeat

{

    \[ \theta_j=\theta_j-\alpha \frac{1}{m}  \sum_{i=1}^m (h_\theta (x^{(i)} )-y^{(i)} )  x^{(i)} \]

}

lakukan secara bersamaan untuk satu fitur/input variabel sampai fungsi biaya berhasil diminimalkan.