Reinforcment Learning

Reinforcment Learning (RL) adalah salah satu metode pembelajaran pada Artificial Intelligence (AI) mengenai apa yang mesti dilakukan (mengimplementasikan aksi kedalam situasi) pada sebuah masalah/problem untuk mendapatkan hasil/reward yang maksimal.


Komponen Utama Agen RL

Agen RL dapat mencakup satu atau lebih komponen berikut:

  • Kebijakan : Fungsi perilaku agen
          *   Peta dari status ke tindakan

          *   Dapat deterministik (a = phi (s)) atau stokastik
          
  • Fungsi Nilai : Seberapa baik agen berada dalam keadaan tertentu atau seberapa baik melakukan tindakan dalam keadaan tertentu
          *   Apakah prediksi hasil/reward masa depan
          *   Dapat digunakan untuk memilih tindakan
          
  • Model : Representasi agen dari lingkungan
          *   Memprediksi apa yang akan dilakukan lingkungan selanjutnya
          *   P memprediksi status berikutnya
           
          *   R memprediksi hasil/reward langsung berikutnya
         



Taksonomi Agen RL
  • Fungsi Kebijakan vs Nilai
          *   Berbasis nilai
               ->   Tidak ada kebijakan (implisit)
               ->   Fungsi nilai
          *   Berbasis kebijakan
               ->   Aturan
               ->   Tidak ada fungsi lain
          *   Aktor kritikus
               ->   Aturan
               ->   Fungsi nilai
  • Model (dengan Fungsi Kebijakan dan/atau Nilai)
          *   Model bebas
          *   Model berbasis



Contoh Soal MAZE

Action : N, E, S, W
State : Lokasi Agen
  • Aturan
      
           Panah mewakili kebijakan (phi(s)) untuk setiap state
  • Fungsi Nilai
      
           Angka mewakili nilai  dari setiap state
  • Model
      
          Tata letak kotak mewakili model transisi  
          Nomor mewakili hasil/reward langsung 



Elemen pada RL

  • Policy (Aturan)
          Policy adalah cara suatu agent untuk berperilaku pada sebuah situasi. Dengan kata lain elemen ini adalah pemetaan aksi yang akan diambil oleh sang agent, lalu diimplementasikan pada suatu situasi
  • Reward Function (Fungsi Hasil/Reward)
          Elemen ini didefinisikan sebagai goal/tujuan yang ingin dicapai sebuah agent. Dalam proses ini agent akan memaksimalkan reward dari aksi yang sudah dilakukan. Reward Function akan menjadi acuan agent mengenai mana yang baik dan yang buruk.
  • Value Function (Fungsi Nilai)
          Jika Reward Function mendefinisikan hasil yang terbaik saat itu juga, pada Value Function ini agent akan mempertimbangkan hasil yang terbaik untuk jangka panjang. Atau dalam kata lain, nilai sebuah keadaan (state) adalah jumlah total reward yang bisa dikumpulkan agen hingga masa berikutnya, dimulai dari keadaan (state) tersebut. Reward didapatkan langsung dari lingkungan (environment), sedangkan value harus diestimasi secara terus menerus dari hasil pengamatan si agent.
  • Environment Model (Model Lingkungan)
          Pada elemen ini, agent akan memprediksi keadaan dan reward selanjutnya. Elemen ini digunakan untuk perencanaan atau dalam kata lain, agent akan memutuskan aksi dengan mempertimbangkan kemungkinan situasi di masa yang akan datang.



Bagaimana cara Agent menemukan aksi yang tepat?
Pada awalnya Agent tidak diberi clue mengenai aksi apa yang harus dilakukan. Agent akan mempelajari aksi dengan prinsip Trial and Error, lalu mengambil keputusan berdasarkan reward yang didapatkan (reward maksimal).



Q-Learning dan SARSA

Q-Learning dan SARSA (State-Action-Reward-State-Action) adalah dua algoritma RL bebas model yang umum digunakan. Mereka berbeda dalam hal strategi eksplorasi mereka sementara strategi eksploitasi mereka serupa. Q-Learning adalah metode di luar kebijakan di mana agen mempelajari nilai (value) berdasarkan tindakan a* yang diturunkan dari kebijakan (Policy) lain. Sedangkan SARSA adalah metode sesuai kebijakan di mana agen mempelajari nilai berdasarkan tindakan saat ini yang diperoleh dari kebijakan saat ini.


Q Learning
  • Langkah 1 : Inisialisasi
Inisialisasi semua nilai Q dalam tabel Q ke 0, agen tidak memiliki pengetahuan tentang lingkungan tempatnya berada.
  • Langkah 2 : Jelajahi Ruang
Masalah eksplorasi vs eksploitasi, agen terus menjelajahi lingkungan dengan mengeksekusi tindakan di wilayahnya.
  • Langkah 3 : Amati Imbalannya (Reward)
Saat menjelajah, agen akan mengamati hadiah apa yang didapatnya dari mengeksekusi tindakan tertentu (at) di status (st) untuk pergi ke status berikutnya (st + 1).
  • Langkah 4 : Perbarui Fungsi Nilai
Setelah mengamati hadiah, agen kemudian memperbarui fungsi nilai untuk keadaan tertentu dan pasangan tindakan menggunakan rumus berikut, ini mengembalikan tabel-Q yang diperbarui

Komentar

Postingan populer dari blog ini

Klasifikasi Support Vector Machine (SVM)

Klasifikasi Naive Bayes

Neural Network