Reinforcment Learning

Desember 26, 2021

Reinforcment Learning (RL) adalah salah satu metode pembelajaran pada Artificial Intelligence (AI) mengenai apa yang mesti dilakukan (mengimplementasikan aksi kedalam situasi) pada sebuah masalah/problem untuk mendapatkan hasil/reward yang maksimal.

Komponen Utama Agen RL

Agen RL dapat mencakup satu atau lebih komponen berikut:

Kebijakan : Fungsi perilaku agen

* Peta dari status ke tindakan

* Dapat deterministik (a = phi (s)) atau stokastik

Fungsi Nilai : Seberapa baik agen berada dalam keadaan tertentu atau seberapa baik melakukan tindakan dalam keadaan tertentu

* Apakah prediksi hasil/reward masa depan

* Dapat digunakan untuk memilih tindakan

Model : Representasi agen dari lingkungan

* Memprediksi apa yang akan dilakukan lingkungan selanjutnya

* P memprediksi status berikutnya

* R memprediksi hasil/reward langsung berikutnya

Taksonomi Agen RL

Fungsi Kebijakan vs Nilai

* Berbasis nilai

-> Tidak ada kebijakan (implisit)

-> Fungsi nilai

* Berbasis kebijakan

-> Aturan

-> Tidak ada fungsi lain

* Aktor kritikus

-> Aturan

-> Fungsi nilai

Model (dengan Fungsi Kebijakan dan/atau Nilai)

* Model bebas

* Model berbasis

Contoh Soal MAZE

Action : N, E, S, W

State : Lokasi Agen

Aturan

Panah mewakili kebijakan (phi(s)) untuk setiap state

Fungsi Nilai

Angka mewakili nilai

dari setiap state

Model

Tata letak kotak mewakili model transisi

Nomor mewakili hasil/reward langsung

Elemen pada RL

Policy (Aturan)

Policy adalah cara suatu agent untuk berperilaku pada sebuah situasi. Dengan kata lain elemen ini adalah pemetaan aksi yang akan diambil oleh sang agent, lalu diimplementasikan pada suatu situasi

Reward Function (Fungsi Hasil/Reward)

Elemen ini didefinisikan sebagai goal/tujuan yang ingin dicapai sebuah agent. Dalam proses ini agent akan memaksimalkan reward dari aksi yang sudah dilakukan. Reward Function akan menjadi acuan agent mengenai mana yang baik dan yang buruk.

Value Function (Fungsi Nilai)

Jika Reward Function mendefinisikan hasil yang terbaik saat itu juga, pada Value Function ini agent akan mempertimbangkan hasil yang terbaik untuk jangka panjang. Atau dalam kata lain, nilai sebuah keadaan (state) adalah jumlah total reward yang bisa dikumpulkan agen hingga masa berikutnya, dimulai dari keadaan (state) tersebut. Reward didapatkan langsung dari lingkungan (environment), sedangkan value harus diestimasi secara terus menerus dari hasil pengamatan si agent.

Environment Model (Model Lingkungan)

Pada elemen ini, agent akan memprediksi keadaan dan reward selanjutnya. Elemen ini digunakan untuk perencanaan atau dalam kata lain, agent akan memutuskan aksi dengan mempertimbangkan kemungkinan situasi di masa yang akan datang.

Bagaimana cara Agent menemukan aksi yang tepat?

Pada awalnya Agent tidak diberi clue mengenai aksi apa yang harus dilakukan. Agent akan mempelajari aksi dengan prinsip Trial and Error, lalu mengambil keputusan berdasarkan reward yang didapatkan (reward maksimal).

Q-Learning dan SARSA

Q-Learning dan SARSA (State-Action-Reward-State-Action) adalah dua algoritma RL bebas model yang umum digunakan. Mereka berbeda dalam hal strategi eksplorasi mereka sementara strategi eksploitasi mereka serupa. Q-Learning adalah metode di luar kebijakan di mana agen mempelajari nilai (value) berdasarkan tindakan a* yang diturunkan dari kebijakan (Policy) lain. Sedangkan SARSA adalah metode sesuai kebijakan di mana agen mempelajari nilai berdasarkan tindakan saat ini yang diperoleh dari kebijakan saat ini.

Q Learning

Langkah 1 : Inisialisasi

Inisialisasi semua nilai Q dalam tabel Q ke 0, agen tidak memiliki pengetahuan tentang lingkungan tempatnya berada.

Langkah 2 : Jelajahi Ruang

Masalah eksplorasi vs eksploitasi, agen terus menjelajahi lingkungan dengan mengeksekusi tindakan di wilayahnya.

Langkah 3 : Amati Imbalannya (Reward)

Saat menjelajah, agen akan mengamati hadiah apa yang didapatnya dari mengeksekusi tindakan tertentu (at) di status (st) untuk pergi ke status berikutnya (st + 1).

Langkah 4 : Perbarui Fungsi Nilai

Setelah mengamati hadiah, agen kemudian memperbarui fungsi nilai untuk keadaan tertentu dan pasangan tindakan menggunakan rumus berikut, ini mengembalikan tabel-Q yang diperbarui

Cari Blog Ini

Machine Learning

Reinforcment Learning

Komentar

Posting Komentar

Postingan populer dari blog ini

Klasifikasi Support Vector Machine (SVM)

Klasifikasi Naive Bayes

Neural Network