Reinforcment Learning
Reinforcment Learning (RL) adalah salah satu metode pembelajaran pada Artificial Intelligence (AI) mengenai apa yang mesti dilakukan (mengimplementasikan aksi kedalam situasi) pada sebuah masalah/problem untuk mendapatkan hasil/reward yang maksimal.
Komponen Utama Agen RL
Agen RL dapat mencakup satu atau lebih komponen berikut:
- Kebijakan : Fungsi perilaku agen
* Dapat deterministik (a = phi (s)) atau stokastik
- Fungsi Nilai : Seberapa baik agen berada dalam keadaan tertentu atau seberapa baik melakukan tindakan dalam keadaan tertentu
* Dapat digunakan untuk memilih tindakan
- Model : Representasi agen dari lingkungan
* P memprediksi status berikutnya
* R memprediksi hasil/reward langsung berikutnya
Taksonomi Agen RL
- Fungsi Kebijakan vs Nilai
-> Tidak ada kebijakan (implisit)
-> Fungsi nilai
* Berbasis kebijakan
-> Aturan
-> Tidak ada fungsi lain
* Aktor kritikus
-> Aturan
-> Fungsi nilai
- Model (dengan Fungsi Kebijakan dan/atau Nilai)
* Model berbasis
Contoh Soal MAZE
Action : N, E, S, W
State : Lokasi Agen
- Aturan
Panah mewakili kebijakan (phi(s)) untuk setiap state
- Fungsi Nilai
- Model
Elemen pada RL
- Policy (Aturan)
- Reward Function (Fungsi Hasil/Reward)
- Value Function (Fungsi Nilai)
- Environment Model (Model Lingkungan)
Bagaimana cara Agent menemukan aksi yang tepat?
Pada awalnya Agent tidak diberi clue mengenai aksi apa yang harus dilakukan. Agent akan mempelajari aksi dengan prinsip Trial and Error, lalu mengambil keputusan berdasarkan reward yang didapatkan (reward maksimal).
Q-Learning dan SARSA
Q-Learning dan SARSA (State-Action-Reward-State-Action) adalah dua algoritma RL bebas model yang umum digunakan. Mereka berbeda dalam hal strategi eksplorasi mereka sementara strategi eksploitasi mereka serupa. Q-Learning adalah metode di luar kebijakan di mana agen mempelajari nilai (value) berdasarkan tindakan a* yang diturunkan dari kebijakan (Policy) lain. Sedangkan SARSA adalah metode sesuai kebijakan di mana agen mempelajari nilai berdasarkan tindakan saat ini yang diperoleh dari kebijakan saat ini.
Q Learning
- Langkah 1 : Inisialisasi
- Langkah 2 : Jelajahi Ruang
- Langkah 3 : Amati Imbalannya (Reward)
- Langkah 4 : Perbarui Fungsi Nilai






Komentar
Posting Komentar