Pengantar Machine Learning & Regresi Linear
Data
science adalah bidang ilmu yang merangkum atau terdiri dari berbagai macam
bidang ilmu pengetahuan. Garis besar bidang utamanya yaitu matematika dan
statistik, computer science/IT, domains/business knowledge. Ketika matematika
dan statistic bergabung dengan computer science/IT maka akan menghasilkan ilmu
machine learning. Machine learning yaitu pemrosesan data menggunakan matematika
dan statistic serta program komputer. Bahan utama machine learning adalah data
(data yang diproduksi dapat mencapai zetta atau bahkan lebih). Beberapa bidang
yang dapat menghasilkan banyak data yaitu sosial media, sensor, GPS, WEB, dan
sebagainya.
Data
terbagi atas dua bagian yaitu data yang structured dan unstructured. Data
structured biasanya sudah tertabulasi dan lebih mudah didata contohnya
spreadsheets, XML, AXL, dan file-file yang terkait dengan database. Sedangkan
data unstructured biasanya lebih ke data-data teks contohnya data yang biasanya
di WEB, emails, blogs, atau sebagainya.
- Regresi
Beberapa
contoh dari regresi linear yaitu lama belajar terkait dengan nilai kuliah,
tingkat pendidikan terkait dengan penghasilan (gaji), promosi terkait dengan
hasil penjualan. Dari contoh tersebut yang menjadi variable independen yaitu
lama belajar, tingkat pendidikan, dan promosi. Sedangkan nilai kuliah,
penghasilan (gaji), dan hasil penjualan merupakan contoh dari variable
dependen.
Ada beberapa jenis-jenis regresi yaitu:
- Regresi linear sederhana (simple regression)
- Regresi multilinear (multiple regression)
- Regresi polynomial (polynomial regression)
- Support vector regression
- Decision tree regression
- Random forest regression
- GAM (Generalized additive models)
Keterangan:
Y
: variable dependen
a
: konstanta
b
: koefisien variable X
X
: variable independent
Nilai
a dan b dapat dihitung dengan rumus:
Contoh:
|
NO Order |
Jarak (Km) |
Waktu (Menit) |
|
1 |
0.50 |
9.95 |
|
2 |
1.10 |
24.45 |
|
3 |
1.20 |
31.75 |
|
4 |
5.50 |
35.00 |
|
5 |
2.95 |
25.02 |
|
6 |
2.00 |
16.86 |
|
7 |
3.75 |
14.38 |
|
8 |
0.52 |
9.60 |
|
9 |
1.00 |
24.35 |
|
10 |
3.00 |
27.50 |
|
11 |
4.12 |
17.08 |
|
12 |
4.00 |
37.00 |
|
13 |
5.00 |
41.95 |
|
14 |
3.60 |
11.66 |
|
15 |
2.05 |
21.65 |
|
16 |
4.00 |
17.89 |
|
17 |
6.00 |
69.00 |
|
18 |
5.85 |
10.30 |
|
19 |
5.40 |
34.93 |
|
20 |
2.50 |
46.59 |
|
21 |
2.90 |
44.88 |
|
22 |
5.10 |
54.12 |
|
23 |
5.90 |
56.23 |
|
24 |
1.00 |
22.13 |
|
25 |
4.00 |
21.15 |
Berdasarkan data yang tertera ditabel, seandainya, datang pesanan ke-26 dari hotel dengan jarak tempuh 1.5 km dari produksi laundry maka, seharusnya “waktu pengantaran dapat diprediksi”. Bagaimana hubungan sebab-akibat jarak dan waktu tempuh pengantaran jasa laundry? Jarak lokasi pelanggan mengakibatkan panjang-pendeknya waktu tempuh pengiriman barang maka, jarak merupakan variable pemberi pengaruh sebagai sumbu X (dalam kilometer) dan waktu sebagai variable terpengaruh sebagai sumbu Y (dalam menit). Setiap pasang data jarak-waktu digambarkan sebagai titik potong.
Tujuan regresi ini untuk mencari garis lurus sedekat mungkin dengan semua titik untuk mewakili titik-titik tersebut. Secara rumus persamaan:
Keterangan:
Y
= variable terpengaruh
X = variable pemberi pengaruh
|
NO Order |
Jarak (Km) |
Waktu (Menit) |
Yi Xi |
X2 |
|
1 |
0.50 |
9.95 |
4.98 |
0.25 |
|
2 |
1.10 |
24.45 |
26.90 |
1.21 |
|
3 |
1.20 |
31.75 |
38.10 |
1.44 |
|
4 |
5.50 |
35.00 |
192.50 |
30.25 |
|
5 |
2.95 |
25.02 |
73.81 |
8.70 |
|
6 |
2.00 |
16.86 |
33.72 |
4.00 |
|
7 |
3.75 |
14.38 |
53.93 |
14.06 |
|
8 |
0.52 |
9.60 |
4.99 |
0.27 |
|
9 |
1.00 |
24.35 |
24.35 |
1.00 |
|
10 |
3.00 |
27.50 |
82.50 |
9.00 |
|
11 |
4.12 |
17.08 |
70.37 |
16.97 |
|
12 |
4.00 |
37.00 |
148.00 |
16.00 |
|
13 |
5.00 |
41.95 |
209.75 |
25.00 |
|
14 |
3.60 |
11.66 |
41.98 |
12.96 |
|
15 |
2.05 |
21.65 |
44.38 |
4.20 |
|
16 |
4.00 |
17.89 |
71.56 |
16.00 |
|
17 |
6.00 |
69.00 |
414.00 |
36.00 |
|
18 |
5.85 |
10.30 |
60.26 |
34.22 |
|
19 |
5.40 |
34.93 |
188.62 |
29.16 |
|
20 |
2.50 |
46.59 |
116.48 |
6.25 |
|
21 |
2.90 |
44.88 |
130.15 |
8.41 |
|
22 |
5.10 |
54.12 |
276.01 |
26.01 |
|
23 |
5.90 |
56.23 |
331.76 |
34.81 |
|
24 |
1.00 |
22.13 |
22.13 |
1.00 |
|
25 |
4.00 |
21.15 |
84.60 |
16.00 |
|
Jumlah |
82.94 |
725.42 |
2745.81 |
353.18 |
|
Rata-rata |
3.32 |
29.02 |
|
|
Kesimpulan:
Berdasarkan hasil perhitungan rumus regresi linear sederhana diatas maka, diperoleh persamaan:
Dengan mengacu hasil nilai Y pada perhitungan regresi linear, maka prediksi jumlah waktu yang dibutuhkan pengiriman jasa laundry 14.58 menit ditambah 4.35 kali jarak pelanggan.
Dengan
uraian data lebih detail persamaan garis regresi linear ini menyatakan bahwa
bila rumah pelanggan berjarak 0 km dari produksi laundry, waktu antar jasa
laundry diprediksi 14.58 menit. Setiap pertambahan jarak sepanjang 1 km, maka
lama waktu tempuh diprediksi akan bertambah selama 3.58 menit. Untuk menjawab
berapa lama waktu tempuh karyawan mengantar pesanan ke-26 dengan jarak tempuh
1.5 km?
Cara prediksi waktu antar jasa laundry yang dibutuhkan karyawan untuk mengantarkan layanan kepada pelanggan dengan cara:
Maka dapat ditarik kesimpulan prediksi pengiriman jasa laundry sampai ke lokasi pelanggan dalam waktu 21.1 menit.
Persamaan/rumus
regresi linear berganda adalah sebagai berikut:
Dimana:
Y = variable terikat
X = variable bebas
b = konstanta
bi = koefisien penduga
Dengan:
A = matriks (diketahui)
H = vector kolom diketahui
b = vector kolom tidak diketahui
Variable b dapat diselesaikan dengan cara sebagai
berikut:
Ab = H
Contoh Soal Regresi Linear Berganda
|
Y (Ratusan
Rupiah) |
23 |
7 |
15 |
17 |
23 |
22 |
10 |
14 |
20 |
19 |
|
X1 (Ribuan
Rupiah) |
10 |
2 |
4 |
6 |
8 |
7 |
4 |
6 |
7 |
6 |
|
X2 (Orang) |
7 |
3 |
2 |
4 |
6 |
5 |
3 |
3 |
4 |
3 |
Seandainya suatu rumah tangga mempunyai X1 dan X, masing-masing 11 dan 8. Berapa besarnya nilai Y. Artinya, berapa ratus rupiah rumah tangga yang bersangkutan akan mengeluarkan biaya untuk pembelian barang-barang tahan lama?
Langkah pertama adalah mengolah data diatas menjadi sebagai berikut:Dari model yang dibuat dapat disimpulkan bahwa
setiap kenaikkan pendapatan per-minggu sebesar Rp.1000 maka akan menaikkan pengeluaran
untuk pembelian barang-barang tahan lama per-minggu sebesar Rp.332,1 dengan asumsi
jumlah anggota rumah tangga konstan/tetap.








Komentar
Posting Komentar