Pengantar Machine Learning & Regresi Linear


Data science adalah bidang ilmu yang merangkum atau terdiri dari berbagai macam bidang ilmu pengetahuan. Garis besar bidang utamanya yaitu matematika dan statistik, computer science/IT, domains/business knowledge. Ketika matematika dan statistic bergabung dengan computer science/IT maka akan menghasilkan ilmu machine learning. Machine learning yaitu pemrosesan data menggunakan matematika dan statistic serta program komputer. Bahan utama machine learning adalah data (data yang diproduksi dapat mencapai zetta atau bahkan lebih). Beberapa bidang yang dapat menghasilkan banyak data yaitu sosial media, sensor, GPS, WEB, dan sebagainya.

Data terbagi atas dua bagian yaitu data yang structured dan unstructured. Data structured biasanya sudah tertabulasi dan lebih mudah didata contohnya spreadsheets, XML, AXL, dan file-file yang terkait dengan database. Sedangkan data unstructured biasanya lebih ke data-data teks contohnya data yang biasanya di WEB, emails, blogs, atau sebagainya.

Menurut Kevin P.Murphy, machine learning adalah sekumpulan metode yang secara otomatis mendeteksi pola dari data yang bisa digunakan untuk memprediksi masa depan berdasarkan data atau juga untuk membuat keputusan yang belum pasti. Terdapat tiga pendekatan machine learning yaitu supervised, unsupervised, dan reinforcement. Pada supervised learning, datanya telah memiliki label atau class-nya, memiliki direct feedback, dan dimanfaatkan untuk memprediksi masa depan. Pada unsupervised learning, datanya belum memiliki label (hanya berupa kumpulan data atau sample saja) sehingga tidak memiliki feedback (tidak tau mau diapakan, tergantung dari kebutuhannya nanti), bertugas untuk mencari data-data yang bisa dimanfaatkan. Reinforcement learning merupakan sebuah proses keputusan, system nya adalah reward, dan belajar dari aksi yang dihasilkan.

  • Regresi

Regresi adalah salah satu teknik untuk mencari hubungan antara variable dependen dengan variable independen. Variable dependen yaitu tergantung dari yang mempengaruhinya,  sedangkan variable independen yaitu variable bebas yang memasukkan nilai ke variable dependen. Regresi bertujuan untuk menganalisis atau mempelajari dan mengukur hubungan yang terjadi antara dua variable (regresi linear) atau lebih (regresi multivariat).

Beberapa contoh dari regresi linear yaitu lama belajar terkait dengan nilai kuliah, tingkat pendidikan terkait dengan penghasilan (gaji), promosi terkait dengan hasil penjualan. Dari contoh tersebut yang menjadi variable independen yaitu lama belajar, tingkat pendidikan, dan promosi. Sedangkan nilai kuliah, penghasilan (gaji), dan hasil penjualan merupakan contoh dari variable dependen.

Berikut salah satu grafik dari contoh regresi linear:


Ada beberapa jenis-jenis regresi yaitu:

  1. Regresi linear sederhana (simple regression)
  2. Regresi multilinear (multiple regression)
  3. Regresi polynomial (polynomial regression)
  4. Support vector regression
  5. Decision tree regression
  6. Random forest regression
  7. GAM (Generalized additive models)
Namun kali ini kita hanya akan membahas tentang regresi linear yah cantik/ganteng!


A. Persamaan Garis Regresi

Keterangan:

Y : variable dependen

a : konstanta

b : koefisien variable X

X : variable independent

Nilai a dan b dapat dihitung dengan rumus:



Contoh:

Memprediksi waktu tempuh pengiriman order jasa laundry. Dalam kasus ini menggunakan analogi perusahaan laundry kelas premium dengan tarif harga bukan perkilo melainkan per-potong (piece). Kategori pelanggannya adalah hotel, home spa, beauty salon, kantor dan para pelanggan kelas premium. Perusahaan melayani jasa laundry meliputi : baju, celana, tas, sepatu, karpet, korden, carpot, jaket, dan sebagainya.

Table 1 Data Order Laundry

NO Order

Jarak (Km)

Waktu (Menit)

1

0.50

9.95

2

1.10

24.45

3

1.20

31.75

4

5.50

35.00

5

2.95

25.02

6

2.00

16.86

7

3.75

14.38

8

0.52

9.60

9

1.00

24.35

10

3.00

27.50

11

4.12

17.08

12

4.00

37.00

13

5.00

41.95

14

3.60

11.66

15

2.05

21.65

16

4.00

17.89

17

6.00

69.00

18

5.85

10.30

19

5.40

34.93

20

2.50

46.59

21

2.90

44.88

22

5.10

54.12

23

5.90

56.23

24

1.00

22.13

25

4.00

21.15


Berdasarkan data yang tertera ditabel, seandainya, datang pesanan ke-26 dari hotel dengan jarak tempuh 1.5 km dari produksi laundry maka, seharusnya “waktu pengantaran dapat diprediksi”. Bagaimana hubungan sebab-akibat jarak dan waktu tempuh pengantaran jasa laundry? Jarak lokasi pelanggan mengakibatkan panjang-pendeknya waktu tempuh pengiriman barang maka, jarak merupakan variable pemberi pengaruh sebagai sumbu X (dalam kilometer) dan waktu sebagai variable terpengaruh sebagai sumbu Y (dalam menit). Setiap pasang data jarak-waktu digambarkan sebagai titik potong.

Tujuan regresi ini untuk mencari garis lurus sedekat mungkin dengan semua titik untuk mewakili titik-titik tersebut. Secara rumus persamaan:


Keterangan:

Y = variable terpengaruh

X = variable pemberi pengaruh


Bagaimana cara mencari garis regresi linear yang paling baik? Untuk mengetahui garis regresi linear yang paling baik diperlukan perhitungan konstanta dan gradien.

NO Order

Jarak (Km)

Waktu (Menit)

Yi Xi

X2

1

0.50

9.95

4.98

0.25

2

1.10

24.45

26.90

1.21

3

1.20

31.75

38.10

1.44

4

5.50

35.00

192.50

30.25

5

2.95

25.02

73.81

8.70

6

2.00

16.86

33.72

4.00

7

3.75

14.38

53.93

14.06

8

0.52

9.60

4.99

0.27

9

1.00

24.35

24.35

1.00

10

3.00

27.50

82.50

9.00

11

4.12

17.08

70.37

16.97

12

4.00

37.00

148.00

16.00

13

5.00

41.95

209.75

25.00

14

3.60

11.66

41.98

12.96

15

2.05

21.65

44.38

4.20

16

4.00

17.89

71.56

16.00

17

6.00

69.00

414.00

36.00

18

5.85

10.30

60.26

34.22

19

5.40

34.93

188.62

29.16

20

2.50

46.59

116.48

6.25

21

2.90

44.88

130.15

8.41

22

5.10

54.12

276.01

26.01

23

5.90

56.23

331.76

34.81

24

1.00

22.13

22.13

1.00

25

4.00

21.15

84.60

16.00

Jumlah

82.94

725.42

2745.81

353.18

Rata-rata

3.32

29.02

 

 


Kesimpulan:

Berdasarkan hasil perhitungan rumus regresi linear sederhana diatas maka, diperoleh persamaan:

Dengan mengacu hasil nilai Y pada perhitungan regresi linear, maka prediksi jumlah waktu yang dibutuhkan pengiriman jasa laundry 14.58 menit ditambah 4.35 kali jarak pelanggan.

Dengan uraian data lebih detail persamaan garis regresi linear ini menyatakan bahwa bila rumah pelanggan berjarak 0 km dari produksi laundry, waktu antar jasa laundry diprediksi 14.58 menit. Setiap pertambahan jarak sepanjang 1 km, maka lama waktu tempuh diprediksi akan bertambah selama 3.58 menit. Untuk menjawab berapa lama waktu tempuh karyawan mengantar pesanan ke-26 dengan jarak tempuh 1.5 km?

Cara prediksi waktu antar jasa laundry yang dibutuhkan karyawan untuk mengantarkan layanan kepada pelanggan dengan cara:

Maka dapat ditarik kesimpulan prediksi pengiriman jasa laundry sampai ke lokasi pelanggan dalam waktu 21.1 menit.


B. Regresi Linear Berganda

Persamaan/rumus regresi linear berganda adalah sebagai berikut:

Dimana:

Y = variable terikat

X = variable bebas

b = konstanta

bi = koefisien penduga


Untuk menghitung b, b1, b2, … bk dan seterusnya digunakan Metode Kuadrat Terkecil (Least Square Method) yang menghasilkan persamaan model sebagai berikut:


Untuk dapat memudahkan dalam menghitung b, b1, b2 dapat digunakan matriks sebagai berikut:

Dengan:

A = matriks (diketahui)

H = vector kolom diketahui

b = vector kolom tidak diketahui

Variable b dapat diselesaikan dengan cara sebagai berikut:

Ab = H

b = A – 1H


Contoh Soal Regresi Linear Berganda

Dalam suatu penelitian yang dilakukan terhadap 10 rumah tangga yang dipilih secara acak, diperoleh data pengeluaran untuk pembelian barang-barang tahan lama per-minggu (Y), pendapatan per-minggu (X1), dan jumlah anggota rumah tangga (X2) sebagai berikut:

Y (Ratusan Rupiah)

23

7

15

17

23

22

10

14

20

19

X1 (Ribuan Rupiah)

10

2

4

6

8

7

4

6

7

6

X2 (Orang)

7

3

2

4

6

5

3

3

4

3


Seandainya suatu rumah tangga mempunyai X1 dan X, masing-masing 11 dan 8. Berapa besarnya nilai Y. Artinya, berapa ratus rupiah rumah tangga yang bersangkutan akan mengeluarkan biaya untuk pembelian barang-barang tahan lama?

Langkah pertama adalah mengolah data diatas menjadi sebagai berikut:
Dari hasil perhitungan diatas, model regresi linear berganda dapat dituliskan sebagai berikut:

Dari model yang dibuat dapat disimpulkan bahwa setiap kenaikkan pendapatan per-minggu sebesar Rp.1000 maka akan menaikkan pengeluaran untuk pembelian barang-barang tahan lama per-minggu sebesar Rp.332,1 dengan asumsi jumlah anggota rumah tangga konstan/tetap.

Demikian juga, jika jumlah anggota rumah tangga bertambah 1 orang maka akan menaikkan pengeluaran untuk pembelian barang-barang tahan lama per-minggu sebesar Rp.45,1 dengan asumsi pendapatan per-minggu konstan/tetap.

Ketika suatu rumah tangga memiliki pendapatan per-minggu sebesar Rp.11.000 dengan anggota rumah tangga sebanyak 8 orang maka pengeluaran untuk pembelian barang-barang tahan lama per-minggu sebesar Rp.4.427,2 (nilai Y^ dikali 100).





Sekian dari saya, terimakasih cantik/ganteng sudah berkunjung di blog saya .^_^.

Komentar

Postingan populer dari blog ini

Klasifikasi Support Vector Machine (SVM)

Klasifikasi Naive Bayes

Neural Network