๊ธ€ ์ž‘์„ฑ์ž: ๋˜ฅํด๋ฒ .
๋ฐ˜์‘ํ˜•

๋ชฉ์ฐจ


  • Minimize Cost function
  • Gradient descent algorithm
  • Convex function

 

Minimize Cost function


[๊ทธ๋ฆผ 1] Cost function

 ์ง€๋‚œ๋ฒˆ ํฌ์ŠคํŠธ์—์„œ Hypothesis์™€ Cost function์„ ์•Œ์•„๋ณด์•˜๊ณ , ์šฐ๋ฆฌ๋Š” Cost function์„ ์ตœ์†Œํ™”์‹œํ‚ค๋Š” W์™€ b๋ฅผ ๊ตฌํ•˜๋Š” ๊ฒƒ์„ ๊ณผ์ œ๋กœ ์‚ผ์•˜๋‹ค.

 

[๊ทธ๋ฆผ 2] Simplified hypothesis

 ์„ค๋ช…์„ ์œ„ํ•ด์„œ, Hypothesis๋ฅผ ์œ„์™€ ๊ฐ™์ด ๊ฐ„๋‹จํ•˜๊ฒŒ ๋งŒ๋“ค์—ˆ๋‹ค. (b = 0)

๋˜ํ•œ ๋ฐ์ดํ„ฐ๊ฐ€ ์•„๋ž˜ ํ‘œ์™€ ๊ฐ™์ด ์ฃผ์–ด์ง„๋‹ค๊ณ  ๊ฐ€์ •ํ•ด๋ณด์ž.

X Y
1 1
2 2
3 3

์šฐ๋ฆฌ๋Š” cost๋ฅผ ์ตœ์†Œํ™” ์‹œํ‚ค๋Š” ์ง€์ ์„ ์ฐพ์•„์•ผ ํ•œ๋‹ค.(=์ตœ์†Œํ™”์‹œํ‚ค๋Š” W๋ฅผ ์ฐพ์•„์•ผ ํ•จ)

 

[๊ทธ๋ฆผ 3] W์— ๋”ฐ๋ฅธ cost(W)

 

  • W = 1, cost(W) = 0
  • W = 0, cost(W) = 4.67
  • W = 2, cost(W) = 4.67

W์— ๋”ฐ๋ฅธ cost(W)๋ฅผ ๊ณ„์‚ฐํ•ด๋ณด๋ฉด ์œ„์™€ ๊ฐ™๋‹ค. ์ด๋ฅผ ๊ทธ๋ž˜ํ”„๋กœ ๊ทธ๋ ค๋ณด๋ฉด

[๊ทธ๋ฆผ 4] cost(W) ๊ทธ๋ž˜ํ”„

์œ„์™€ ๊ฐ™์€ ๋ชจ์–‘์˜ ๊ทธ๋ž˜ํ”„๊ฐ€ ๋‚˜์˜จ๋‹ค. ์šฐ๋ฆฌ์˜ ๋ชฉํ‘œ๋Š” ์•ž์„œ ๋งํ–ˆ๋“ฏ์ด Cost๊ฐ€ ์ตœ์†Œ๊ฐ€ ๋˜๋Š” ๋ถ€๋ถ„์„ ์ฐพ์•„๋‚ด๋Š” ๊ฒƒ์ด๋‹ค.

์ด๊ฒƒ์„ ๊ธฐ๊ณ„์ ์œผ๋กœ ์ฐพ๋Š” ์•Œ๊ณ ๋ฆฌ์ฆ˜์„ Gradient descent algorithm์ด๋ผ ํ•œ๋‹ค.

 

 

 

Gradient descent algorithm


Gradient๋Š” ๊ฒฝ์‚ฌ, descent๋Š” ๋‚ด๋ ค๊ฐ€๋Š” ๊ฒƒ. ์ฆ‰, ๊ฒฝ์‚ฌ๋ฅผ ๋”ฐ๋ผ ๋‚ด๋ ค๊ฐ€๋Š” ์•Œ๊ณ ๋ฆฌ์ฆ˜์ด๋ผ๊ณ  ๋ณด๋ฉด ๋œ๋‹ค.

๋˜ํ•œ, ๋จธ์‹ ๋Ÿฌ๋‹์—์„œ ๊ต‰์žฅํžˆ ๋งŽ์ด cost๋ฅผ ์ตœ์†Œํ™” ์‹œํ‚ค๋Š”๋ฐ ์‚ฌ์šฉ๋˜๋Š” ์•Œ๊ณ ๋ฆฌ์ฆ˜์ด๋‹ค.

W์˜ ๊ฐ’์ด ํ•˜๋‚˜๊ฐ€ ์•„๋‹ˆ๋ผ W1, W2,... ์—ฌ๋Ÿฌ ๊ฐœ ์žˆ๋Š” Cost function๋„ ์•Œ๊ณ ๋ฆฌ์ฆ˜์„ ์ ์šฉ ํ•  ์ˆ˜ ์žˆ๋‹ค.

 

๊ทธ๋ ‡๋‹ค๋ฉด ์ด ์•Œ๊ณ ๋ฆฌ์ฆ˜์€ ์–ด๋–ป๊ฒŒ ๋™์ž‘ํ•˜๋Š” ๊ฒƒ์ผ๊นŒ?

 

[๊ทธ๋ฆผ 5] ๊ฒฝ์‚ฌ๋„๋ฅผ ๋”ฐ๋ผ์„œ ์›€์ง์ธ๋‹ค

 ์œ„์˜ ๊ทธ๋ž˜ํ”„๋ฅผ ๋“ค์—ฌ๋‹ค๋ณด์ž. ๋™์ž‘ ์›๋ฆฌ๋ฅผ ์‚ดํŽด๋ณด๋ฉด.

 

1. ๊ทธ๋ž˜ํ”„์˜ ์•„๋ฌด ์ ์—์„œ๋‚˜ ์‹œ์ž‘ํ•  ์ˆ˜ ์žˆ๋‹ค.

2. ๊ทธ๋ฆฌ๊ณ  ๊ทธ ์ ์—์„œ W๋ฅผ ์•ฝ๊ฐ„ ๋ฐ”๊พธ์–ด์„œ Cost๋ฅผ ์ค„์—ฌ๋‚˜๊ฐ„๋‹ค. (๊ฒฝ์‚ฌ๋„๊ฐ€ ๋‚ด๋ ค๊ฐ€๋Š” ์ชฝ์œผ๋กœ ํ–ฅํ•˜๊ฒŒ ๋œ๋‹ค)

3. ์ด๋ฅผ ๋ฐ˜๋ณตํ•ด๋‚˜๊ฐ€์„œ Cost๊ฐ€ ์ตœ์†Œ๊ฐ€ ๋˜๋Š” ์ง€์ ์„ ์ฐพ๋Š”๋‹ค.

 

์—ฌ๊ธฐ์„œ ๊ฒฝ์‚ฌ๋„(๊ธฐ์šธ๊ธฐ)๋Š” ๋ฏธ๋ถ„์„ ํ†ตํ•ด์„œ ๊ตฌํ•  ์ˆ˜ ์žˆ๋‹ค.

[๊ทธ๋ฆผ 6] Cost function Formal definition

๋ฏธ๋ถ„์„ ์‰ฝ๊ฒŒ ์ ์šฉํ•˜๊ธฐ ์œ„ํ•ด์„œ 1/m -> 1/2m์œผ๋กœ ๋ฐ”๊พธ์—ˆ๋‹ค.

(์‚ฌ์‹ค, 1/m์ด๋‚˜ 1/2m์ด๋‚˜ minimize์—์„œ๋Š” ๊ฐ™์€ ์˜๋ฏธ๋ฅผ ์ง€๋‹Œ๋‹ค.)

 

[๊ทธ๋ฆผ 7] Cost function์˜ ๋ฏธ๋ถ„ ์ ˆ์ฐจ

Cost function๋ฅผ Wx๋กœ ๋ฏธ๋ถ„ํ•˜๋ฉด ๋ฏธ๋ถ„ ๊ณต์‹์ด ์ ์šฉ๋˜์–ด ์ตœ์ข…์ ์œผ๋กœ ๋งจ ์•„๋ž˜์™€ ๊ฐ™์€ ์‹์ด ๋‚˜์˜ค๊ฒŒ ๋œ๋‹ค.

(์—ฌ๊ธฐ์„œ ์•ŒํŒŒ๊ฐ’์€ learning rate๋ผ๊ณ  ํ•œ๋‹ค)

 

์œ„์˜ ์‹์„ ๊ธฐ๊ณ„์ ์œผ๋กœ ์—ฌ๋Ÿฌ ๋ฒˆ ์ ์šฉ์‹œํ‚ค๋ฉด Cost function์„ ์ตœ์†Œํ™” ์‹œํ‚ค๋Š” W๋ฅผ ๊ตฌํ•ด ๋‚ผ ์ˆ˜ ์žˆ๋‹ค.

 

 

 

Convex function


[๊ทธ๋ฆผ 8] Gradient descent algorithm์ด ์ž˜ ๋™์ž‘ํ•˜์ง€ ์•Š๋Š” ๊ฒฝ์šฐ

์œ„์™€ ๊ฐ™์ด Cost function์„ 3์ฐจ์› ๊ทธ๋ž˜ํ”„๋กœ ๋‚˜ํƒ€๋‚ด์—ˆ์„ ๋•Œ,

Gradient descent algorithm์„ ์ ์šฉํ•˜์—ฌ ์•„๋ฌด ์ ์—์„œ๋‚˜ ์‹œ์ž‘ํ•ด ๊ธฐ์šธ๊ธฐ๋ฅผ ๋”ฐ๋ผ ๋‚ด๋ ค๊ฐ€ ๋ณด๋ฉด ์ตœ์†Œํ™”๋˜๋Š” ์ง€์ ์ด ์—ฌ๋Ÿฌ ๊ตฐ๋ฐ ์ƒ๊ธธ ์ˆ˜ ์žˆ๋‹ค.

์ด๋Ÿฐ ๊ฒฝ์šฐ ์•Œ๊ณ ๋ฆฌ์ฆ˜์ด ์ œ๋Œ€๋กœ ๋™์ž‘ํ•˜์ง€ ์•Š๋Š”๋‹ค.

 

[๊ทธ๋ฆผ 9] Convex function

 ๋‹คํ–‰ํžˆ๋„ ์šฐ๋ฆฌ์˜ Hypothesis์™€ Cost function์„ ๊ฐ€์ง€๊ณ  ๊ทธ๋ฆผ์„ ๊ทธ๋ฆฌ๊ฒŒ ๋˜๋ฉด ์œ„์™€ ๊ฐ™์€ ๊ทธ๋ž˜ํ”„๊ฐ€ ๋‚˜์˜ค๊ฒŒ ๋˜๋Š”๋ฐ ์ด๋Ÿฌํ•œ ๊ฒƒ์„ Convex function์ด๋ผ ํ•œ๋‹ค.

 ์–ด๋Š์ ์— ์‹œ์ž‘ํ•˜๋“  ๊ฐ„์— ๋„์ฐฉํ•˜๋Š” ์ ์ด ์šฐ๋ฆฌ๊ฐ€ ์›ํ•˜๋Š” ์ง€์ ์ด ๋œ๋‹ค.  ์ฆ‰, Gradient descent algorithm๊ฐ€ ํ•ญ์ƒ ๋‹ต์„ ์ฐพ๋Š” ๊ฒƒ์„ ๋ณด์žฅํ•ด์ค€๋‹ค.

 

 ์šฐ๋ฆฌ๋Š” Linear Regression์„ ์ ์šฉํ•˜๊ธฐ ์ „์—, Cost function์„ ์„ค๊ณ„ํ•  ๋•Œ ๋ฐ˜๋“œ์‹œ Convex function์ด ๋˜๋Š”์ง€ ํ™•์ธํ•ด์•ผํ•œ๋‹ค. 

 

 

 

์ฐธ๊ณ ์ž๋ฃŒ


https://www.youtube.com/watch?v=kPxpJY6fRkY
Sung Kim- ML lec 03.Linear Regression์˜ cost ์ตœ์†Œํ™” ์•Œ๊ณ ๋ฆฌ์ฆ˜์˜ ์›๋ฆฌ ์„ค๋ช…

 

๋ฐ˜์‘ํ˜•