๊ด€๋ฆฌ ๋ฉ”๋‰ด

์‚ถ์˜ ๊ณต์œ 

[Deep Learning] ์ˆ˜์‹ ์—†์ด ์ดํ•ดํ•˜๋Š” ๋”ฅ๋Ÿฌ๋‹ ์—ญ์ „ํŒŒ(Backpropagation) ์›๋ฆฌ: AI์˜ ์˜ค๋‹ต ๋…ธํŠธ ๋ณธ๋ฌธ

Data Scientist/ML

[Deep Learning] ์ˆ˜์‹ ์—†์ด ์ดํ•ดํ•˜๋Š” ๋”ฅ๋Ÿฌ๋‹ ์—ญ์ „ํŒŒ(Backpropagation) ์›๋ฆฌ: AI์˜ ์˜ค๋‹ต ๋…ธํŠธ

dkrehd 2025. 12. 25. 22:28
728x90
๋ฐ˜์‘ํ˜•

 

๐Ÿค– ์ธ๊ณต์ง€๋Šฅ์ด '์‹ค์ˆ˜'๋ฅผ ํ†ตํ•ด ๋ฐฐ์šฐ๋Š” ๋ฒ•: ์—ญ์ „ํŒŒ ์•Œ๊ณ ๋ฆฌ์ฆ˜

์ธ๊ณต์ง€๋Šฅ์ด ๊ฐœ์™€ ๊ณ ์–‘์ด๋ฅผ ๊ตฌ๋ถ„ํ•˜๊ณ , ๋ณต์žกํ•œ ์–ธ์–ด๋ฅผ ์ดํ•ดํ•˜๋Š” ๊ณผ์ •์„ ๋ณด๋ฉด ๋งˆ์น˜ ์‚ด์•„์žˆ๋Š” ์ƒ๋ช…์ฒด์ฒ˜๋Ÿผ ๋А๊ปด์ง€๊ธฐ๋„ ํ•ฉ๋‹ˆ๋‹ค. ํ•˜์ง€๋งŒ ๊ทธ ๋‚ด๋ถ€๋ฅผ ๋“ค์—ฌ๋‹ค๋ณด๋ฉด ์ •๊ตํ•œ ์ˆ˜ํ•™์  ์˜ค๋‹ต ๋…ธํŠธ๊ฐ€ ์ž‘๋™ํ•˜๊ณ  ์žˆ์Šต๋‹ˆ๋‹ค. ๊ทธ ํ•ต์‹ฌ์ด ๋ฐ”๋กœ ์˜ค๋Š˜ ์†Œ๊ฐœํ•  ์—ญ์ „ํŒŒ(Backpropagation) ์•Œ๊ณ ๋ฆฌ์ฆ˜์ž…๋‹ˆ๋‹ค.

1. ์—ญ์ „ํŒŒ ์•Œ๊ณ ๋ฆฌ์ฆ˜์ด๋ž€ ๋ฌด์—‡์ธ๊ฐ€?

์—ญ์ „ํŒŒ๋Š” ํ•œ๋งˆ๋””๋กœ **"์ถœ๋ ฅ์ธต์—์„œ ๋ฐœ์ƒํ•œ ์˜ค์ฐจ๋ฅผ ๊ฑฐ๊พธ๋กœ(Back) ์ „ํŒŒํ•˜์—ฌ, ๊ฐ ์ธต์˜ ๊ฐ€์ค‘์น˜๋ฅผ ์–ผ๋งˆ๋‚˜ ์ˆ˜์ •ํ•ด์•ผ ํ• ์ง€ ๊ฒฐ์ •ํ•˜๋Š” ์•Œ๊ณ ๋ฆฌ์ฆ˜"**์ž…๋‹ˆ๋‹ค.

์‹ ๊ฒฝ๋ง์ด ์˜ˆ์ธก๊ฐ’(y^)์„ ๋‚ด๋†“์•˜์„ ๋•Œ ์‹ค์ œ ์ •๋‹ต(y)๊ณผ ์ฐจ์ด๊ฐ€ ๋‚œ๋‹ค๋ฉด, ๊ทธ '์ฑ…์ž„'์ด ์–ด๋А ๊ฐ€์ค‘์น˜W)์— ์žˆ๋Š”์ง€ ๊ณ„์‚ฐํ•˜์—ฌ ๋ชจ๋ธ์„ ์ˆ˜์ •ํ•˜๋Š” ์ผ์ข…์˜ ํ”ผ๋“œ๋ฐฑ ์‹œ์Šคํ…œ์ด๋ผ๊ณ  ์ดํ•ดํ•˜๋ฉด ์‰ฝ์Šต๋‹ˆ๋‹ค.


2. ์™œ ์—ญ์ „ํŒŒ๋ฅผ ํ•ด์•ผ ํ•˜๋‚˜์š”?

์šฐ๋ฆฌ์˜ ๋ชฉํ‘œ๋Š” ๋ชจ๋ธ์˜ ์†์‹ค ํ•จ์ˆ˜(Loss Function) ๊ฐ’์„ ์ตœ์†Œํ™”ํ•˜๋Š” ๊ฐ€์ค‘์น˜๋ฅผ ์ฐพ๋Š” ๊ฒƒ์ž…๋‹ˆ๋‹ค.

  • ๋ฐฉํ–ฅ ์ฐพ๊ธฐ: ์ˆ˜๋ฐฑ๋งŒ ๊ฐœ์˜ ๊ฐ€์ค‘์น˜ ์ค‘ ์–ด๋–ค ๊ฒƒ์„ ๋†’์ด๊ณ  ์–ด๋–ค ๊ฒƒ์„ ๋‚ฎ์ถฐ์•ผ ์˜ค์ฐจ๊ฐ€ ์ค„์–ด๋“ค์ง€ ์•Œ์•„์•ผ ํ•ฉ๋‹ˆ๋‹ค.
  • ํšจ์œจ์ ์ธ ์ˆ˜์ •: ์—ญ์ „ํŒŒ๊ฐ€ ์—†๋‹ค๋ฉด ์šฐ๋ฆฌ๋Š” ๋ชจ๋“  ๊ฐ€์ค‘์น˜๋ฅผ ๋ฌด์ž‘์œ„๋กœ ํ•˜๋‚˜์”ฉ ๋ฐ”๊ฟ”๋ณด๋Š” '๋…ธ๊ฐ€๋‹ค'๋ฅผ ํ•ด์•ผ ํ•˜๊ฒ ์ง€๋งŒ, ์—ญ์ „ํŒŒ๋Š” ๋ฏธ๋ถ„์„ ํ†ตํ•ด ์ •ํ™•ํžˆ ์–ด๋А ๋ฐฉํ–ฅ์œผ๋กœ ๊ฐ€์•ผ ํ• ์ง€๋ฅผ ์ˆœ์‹๊ฐ„์— ์•Œ๋ ค์ค๋‹ˆ๋‹ค.

3. ์—ญ์ „ํŒŒ๋Š” ์™œ, ์–ด๋–ป๊ฒŒ ๋“ฑ์žฅํ–ˆ๋‚˜์š”?

์—ญ์ „ํŒŒ์˜ ์—ญ์‚ฌ๋Š” ๋”ฅ๋Ÿฌ๋‹์˜ ๋ถ€ํ™œ๊ณผ ๊ถค๋ฅผ ๊ฐ™์ด ํ•ฉ๋‹ˆ๋‹ค.

  • ๋‹จ์ธต ํผ์…‰ํŠธ๋ก ์˜ ํ•œ๊ณ„: 1960๋…„๋Œ€ ์ดˆ์ฐฝ๊ธฐ AI๋Š” 'XOR ๋ฌธ์ œ'์™€ ๊ฐ™์€ ์•„์ฃผ ๊ฐ„๋‹จํ•œ ๋…ผ๋ฆฌ ๊ตฌ์กฐ๋„ ํ•ด๊ฒฐํ•˜์ง€ ๋ชปํ•˜๋Š” ์•”ํ‘๊ธฐ๋ฅผ ๊ฒช์—ˆ์Šต๋‹ˆ๋‹ค.
  • ๋‹ค์ธต ์‹ ๊ฒฝ๋ง์˜ ๋“ฑ์žฅ: ์ด๋ฅผ ํ•ด๊ฒฐํ•˜๊ธฐ ์œ„ํ•ด ์ธต์„ ์—ฌ๋Ÿฌ ๊ฐœ ์Œ“์•˜์ง€๋งŒ, ๋ฌธ์ œ๋Š” **"๊นŠ์€ ์ธต์— ์žˆ๋Š” ๊ฐ€์ค‘์น˜๋“ค์„ ์–ด๋–ป๊ฒŒ ํ•™์Šต์‹œํ‚ฌ ๊ฒƒ์ธ๊ฐ€?"**์˜€์Šต๋‹ˆ๋‹ค.
  • 1986๋…„์˜ ํ˜๋ช…: ์ œํ”„๋ฆฌ ํžŒํŠผ(Geoffrey Hinton) ๋“ฑ์ด ํฌํ•จ๋œ ์—ฐ๊ตฌํŒ€์ด ์—ญ์ „ํŒŒ ์•Œ๊ณ ๋ฆฌ์ฆ˜์„ ๋Œ€์ค‘ํ™”์‹œํ‚ค๋ฉด์„œ, ์•„๋ฌด๋ฆฌ ๊นŠ์€ ์ธต์ด๋ผ๋„ ์ˆ˜ํ•™์ ์œผ๋กœ ํ•™์Šต์‹œํ‚ฌ ์ˆ˜ ์žˆ๋Š” ๊ธธ์ด ์—ด๋ ธ์Šต๋‹ˆ๋‹ค. ์ด๊ฒƒ์ด ํ˜„๋Œ€ ๋”ฅ๋Ÿฌ๋‹์˜ ์‹œ์ดˆ๊ฐ€ ๋˜์—ˆ์Šต๋‹ˆ๋‹ค.

4. ์™œ ๋”ฅ๋Ÿฌ๋‹์—์„œ ์œ ๋… ํšจ๊ณผ๊ฐ€ ์ข‹๋‚˜์š”?

๋‹จ์ˆœํžˆ '์ •ํ™•ํ•ด์„œ'๊ฐ€ ์•„๋‹ˆ๋ผ, **'์••๋„์ ์œผ๋กœ ํšจ์œจ์ '**์ด๊ธฐ ๋•Œ๋ฌธ์ž…๋‹ˆ๋‹ค.

  1. ์—ฐ์‡„ ๋ฒ•์น™(Chain Rule)์˜ ๋งˆ๋ฒ•: ์—ญ์ „ํŒŒ๋Š” ๋ฏธ๋ถ„์˜ ์—ฐ์‡„ ๋ฒ•์น™์„ ์ด์šฉํ•ฉ๋‹ˆ๋‹ค. ์•ž ๋‹จ๊ณ„์—์„œ ๊ณ„์‚ฐ๋œ ๊ฐ’์„ ์žฌ์‚ฌ์šฉํ•˜๊ธฐ ๋•Œ๋ฌธ์—, ์ธต์ด 100์ธต, 1000์ธต์ด๋ผ๋„ ์ค‘๋ณต ๊ณ„์‚ฐ ์—†์ด ๋น ๋ฅด๊ฒŒ ๊ธฐ์šธ๊ธฐ(Gradient)๋ฅผ ๊ตฌํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
  2. ๋Œ€๊ทœ๋ชจ ํŒŒ๋ผ๋ฏธํ„ฐ ์ตœ์ ํ™”: ํ˜„๋Œ€ ๋”ฅ๋Ÿฌ๋‹ ๋ชจ๋ธ์€ ํŒŒ๋ผ๋ฏธํ„ฐ๊ฐ€ ์ˆ˜์‹ญ์–ต ๊ฐœ์— ๋‹ฌํ•ฉ๋‹ˆ๋‹ค. ์—ญ์ „ํŒŒ๋Š” ์ด ๊ฑฐ๋Œ€ํ•œ ๋„คํŠธ์›Œํฌ๋ฅผ ํ•œ ๋ฒˆ์˜ ์—ฐ์‚ฐ(Backward Pass)์œผ๋กœ ์—…๋ฐ์ดํŠธํ•  ์ˆ˜ ์žˆ๋Š” ์œ ์ผํ•˜๊ณ  ์‹ค์งˆ์ ์ธ ๋ฐฉ๋ฒ•์ž…๋‹ˆ๋‹ค.
  3. ๋ณต์žกํ•œ ์ง€ํ˜• ํƒ์ƒ‰: ๋น„์„ ํ˜• ํ™œ์„ฑํ™” ํ•จ์ˆ˜๊ฐ€ ์„ž์ธ ๋ณต์žกํ•œ ์†์‹ค ํ•จ์ˆ˜ ์ง€ํ˜•์—์„œ๋„, ์—ญ์ „ํŒŒ๋Š” ๊ฒฝ์‚ฌํ•˜๊ฐ•๋ฒ•๊ณผ ๊ฒฐํ•ฉํ•˜์—ฌ ์ตœ์ ์˜ ํ•ด(Global Minimum)๋ฅผ ํ–ฅํ•ด ๋‚˜์•„๊ฐ€๋Š” ๊ฐ•๋ ฅํ•œ ๋‚˜์นจ๋ฐ˜ ์—ญํ• ์„ ํ•ฉ๋‹ˆ๋‹ค.

๐Ÿ’ก ์š”์•ฝํ•˜์ž๋ฉด

์—ญ์ „ํŒŒ๋Š” ๋”ฅ๋Ÿฌ๋‹ ๋ชจ๋ธ์ด **"์ž์‹ ์˜ ์‹ค์ˆ˜๋ฅผ ์ˆซ์ž๋กœ ํ™˜์‚ฐํ•˜๊ณ , ๊ทธ ์ฑ…์ž„์„ ๊ณตํ‰ํ•˜๊ฒŒ ๊ฐ€์ค‘์น˜๋“ค์—๊ฒŒ ๋‚˜๋ˆ ์ฃผ์–ด ๋‹ค์Œ์—๋Š” ๋” ๋‚˜์€ ์˜ˆ์ธก์„ ํ•˜๊ฒŒ ๋งŒ๋“œ๋Š” ๊ณผ์ •"**์ž…๋‹ˆ๋‹ค. ์ด ์•Œ๊ณ ๋ฆฌ์ฆ˜ ๋•๋ถ„์— ์šฐ๋ฆฌ๋Š” ๋น„๋กœ์†Œ '๊นŠ์€(Deep)' ํ•™์Šต์„ ํ•  ์ˆ˜ ์žˆ๊ฒŒ ๋œ ๊ฒƒ์ž…๋‹ˆ๋‹ค.

 

๐Ÿค– ์ˆœ์ „ํŒŒ, ์—ญ์ „ํŒŒ ์•Œ๊ณ ๋ฆฌ์ฆ˜ ํŒŒํ—ค์น˜๊ธฐ

 

1. ์ˆœ์ „ํŒŒ (Forward Propagation): "์˜ˆ์ธกํ•˜๊ธฐ"

์ฒซ ๋ฒˆ์งธ ์ด๋ฏธ์ง€(์ดˆ๋ก์ƒ‰ ํ™”์‚ดํ‘œ)๋Š” ๋ฐ์ดํ„ฐ๊ฐ€ ์ž…๋ ฅ์—์„œ ์ถœ๋ ฅ์œผ๋กœ ํ๋ฅด๋Š” ๊ณผ์ •์„ ๋ณด์—ฌ์ค๋‹ˆ๋‹ค.

  • ํ๋ฆ„: ์ž…๋ ฅ๊ฐ’ x๊ฐ€ ๋“ค์–ด์˜ค๋ฉด, ๊ฐ ์ธต์˜ **๊ฐ€์ค‘์น˜(Weight)**์™€ ๊ณฑํ•ด์ง€๊ณ  **ํŽธํ–ฅ(Bias, ์ˆซ์ž 1 ๋…ธ๋“œ)**์ด ๋”ํ•ด์ง‘๋‹ˆ๋‹ค.
  • ํ™œ์„ฑํ™” ํ•จ์ˆ˜: ๊ฐ ๋…ธ๋“œ์—์„œ๋Š” ์ด ๊ณ„์‚ฐ๊ฐ’์„ ํ™œ์„ฑํ™” ํ•จ์ˆ˜(์˜ˆ: ReLU, Sigmoid ๋“ฑ)๋ฅผ ํ†ต๊ณผ์‹œ์ผœ ๋‹ค์Œ ์ธต์œผ๋กœ ์ „๋‹ฌํ•ฉ๋‹ˆ๋‹ค.
  • ๊ฒฐ๊ณผ: ์ตœ์ข…์ ์œผ๋กœ ์ถœ๋ ฅ์ธต์—์„œ ์˜ˆ์ธก๊ฐ’ y^์„ ๋งŒ๋“ค์–ด๋ƒ…๋‹ˆ๋‹ค.
  • ์š”์•ฝ: ์ด ๋‹จ๊ณ„๋Š” ๋ชจ๋ธ์ด ํ˜„์žฌ ์•Œ๊ณ  ์žˆ๋Š” ์ง€์‹์„ ๋ฐ”ํƒ•์œผ๋กœ **"์ •๋‹ต์ด ๋ฌด์—‡์ผ๊นŒ?"**๋ผ๊ณ  ์ถ”์ธกํ•˜๋Š” ๊ณผ์ •์ž…๋‹ˆ๋‹ค.

 


2. ์—ญ์ „ํŒŒ (Backpropagation): "์˜ค๋‹ต ๋…ธํŠธ ์ž‘์„ฑ ๋ฐ ์ˆ˜์ •"

๋‘ ๋ฒˆ์งธ ์ด๋ฏธ์ง€(๋นจ๊ฐ„์ƒ‰ ํ™”์‚ดํ‘œ ๋ฐ ์ˆ˜์‹)๋Š” ์˜ˆ์ธก์ด ํ‹€๋ ธ์„ ๋•Œ, ๊ทธ ์ฑ…์ž„์„ ๋’ค์—์„œ๋ถ€ํ„ฐ ์•ž์œผ๋กœ ๋ฌป๋Š” ๊ณผ์ •์ž…๋‹ˆ๋‹ค.

 

 

Step 1 & 2: ์ถœ๋ ฅ์ธต์˜ ์˜ค์ฐจ ๊ณ„์‚ฐ

๋ชจ๋ธ์˜ ์˜ˆ์ธก๊ฐ’(a(out)}, ์ฆ‰ y^๊ณผ ์‹ค์ œ ์ •๋‹ต(y)์„ ๋น„๊ตํ•˜์—ฌ **์˜ค์ฐจ(Error)**๋ฅผ ๊ตฌํ•ฉ๋‹ˆ๋‹ค.

 
 

Step 3: ์ถœ๋ ฅ์ธต ๊ฐ€์ค‘์น˜ ์—…๋ฐ์ดํŠธ๋ฅผ ์œ„ํ•œ ๊ธฐ์šธ๊ธฐ(Gradient) ๊ณ„์‚ฐ

์ถœ๋ ฅ์ธต์˜ ๊ฐ€์ค‘์น˜ w๊ฐ€ ์ „์ฒด ์˜ค์ฐจ์— ์–ผ๋งˆ๋‚˜ ๊ธฐ์—ฌํ–ˆ๋Š”์ง€๋ฅผ ๊ณ„์‚ฐํ•ฉ๋‹ˆ๋‹ค.

 

Step 4: ์€๋‹‰์ธต์œผ๋กœ ์˜ค์ฐจ ์ „ํŒŒ (The Chain Rule)

์ถœ๋ ฅ์ธต์˜ ์˜ค์ฐจ๋ฅผ ์ด์ „ ์ธต(์€๋‹‰์ธต)์œผ๋กœ ๋ณด๋ƒ…๋‹ˆ๋‹ค. ์ด๊ฒƒ์ด '์—ญ์ „ํŒŒ'์˜ ํ•ต์‹ฌ์ž…๋‹ˆ๋‹ค.

 

Step 5: ์€๋‹‰์ธต ๊ฐ€์ค‘์น˜ ์—…๋ฐ์ดํŠธ๋ฅผ ์œ„ํ•œ ๊ธฐ์šธ๊ธฐ ๊ณ„์‚ฐ

์€๋‹‰์ธต์˜ ์˜ค์ฐจ(∂(h))์™€ ์ž…๋ ฅ๊ฐ’(a(in))์„ ์‚ฌ์šฉํ•˜์—ฌ ๊ฐ€์ค‘์น˜ ์ˆ˜์ •๋Ÿ‰์„ ๊ฒฐ์ •ํ•ฉ๋‹ˆ๋‹ค.


๐Ÿ”— 1. ์—ฐ์‡„ ๋ฒ•์น™(Chain Rule)์ด๋ž€ ๋ฌด์—‡์ธ๊ฐ€?

์—ฐ์‡„ ๋ฒ•์น™์€ ํ•ฉ์„ฑ ํ•จ์ˆ˜์˜ ๋ฏธ๋ถ„๋ฒ•์ž…๋‹ˆ๋‹ค. ์—ฌ๋Ÿฌ ๊ฐœ์˜ ํ•จ์ˆ˜๊ฐ€ ์ธต์ธต์ด ์Œ“์—ฌ ์žˆ์„ ๋•Œ, ๊ฐ€์žฅ ๋ฐ”๊นฅ์ชฝ์˜ ๋ณ€ํ™”๊ฐ€ ๊ฐ€์žฅ ์•ˆ์ชฝ์˜ ๋ณ€์ˆ˜์—๊ฒŒ ์–ด๋–ค ์˜ํ–ฅ์„ ๋ฏธ์น˜๋Š”์ง€ ๊ณ„์‚ฐํ•˜๋Š” ๊ทœ์น™์ž…๋‹ˆ๋‹ค.

๐Ÿ’ก ์ผ์ƒ ์†์˜ ๋น„์œ 

๋‹น์‹ ์ด ์ž์ „๊ฑฐ๋ฅผ ํƒ€๊ณ  ์žˆ๋‹ค๊ณ  ๊ฐ€์ •ํ•ด ๋ด…์‹œ๋‹ค.

  1. ๋‹น์‹ ์ด ํŽ˜๋‹ฌ์„ 1๋ฐ”ํ€ด ๋Œ๋ฆฌ๋ฉด, ์ฒด์ธ์ด 2๋ฐ”ํ€ด ๋•๋‹ˆ๋‹ค.
  2. ์ฒด์ธ์ด 1๋ฐ”ํ€ด ๋Œ๋ฉด, ๋ฐ”ํ€ด๋Š” 3๋ฐ”ํ€ด ๊ตฌ๋ฆ…๋‹ˆ๋‹ค.

๊ทธ๋ ‡๋‹ค๋ฉด "๋‚ด๊ฐ€ ํŽ˜๋‹ฌ์„ 1๋ฐ”ํ€ด ๋Œ๋ฆด ๋•Œ, ๋ฐ”ํ€ด๋Š” ๋ช‡ ๋ฐ”ํ€ด ๊ตฌ๋ฅผ๊นŒ์š”?" ๋‹ต์€ $2 \times 3 = 6$๋ฐ”ํ€ด์ž…๋‹ˆ๋‹ค. ์ด์ฒ˜๋Ÿผ ๊ฐ ๋‹จ๊ณ„์˜ ๋ณ€ํ™”์œจ(๋ฏธ๋ถ„๊ฐ’)์„ ๊ณฑํ•ด์„œ ์ตœ์ข… ๋ณ€ํ™”๋Ÿ‰์„ ๊ตฌํ•˜๋Š” ๊ฒƒ์ด ๋ฐ”๋กœ ์—ฐ์‡„ ๋ฒ•์น™์˜ ํ•ต์‹ฌ์ž…๋‹ˆ๋‹ค.


๐Ÿ“ 2. ์ˆ˜์‹์œผ๋กœ ๋ณด๋Š” ์—ฐ์‡„ ๋ฒ•์น™

ํ•จ์ˆ˜ z = f(y)๊ฐ€ ์žˆ๊ณ , y = g(x)๋ผ๊ณ  ํ•  ๋•Œ, x์— ๋Œ€ํ•œ z์˜ ๋ณ€ํ™”๋Ÿ‰(๋ฏธ๋ถ„)์€ ๋‹ค์Œ๊ณผ ๊ฐ™์ด ๊ฐ ๋‹จ๊ณ„ ๋ฏธ๋ถ„์˜ ๊ณฑ์œผ๋กœ ํ‘œํ˜„๋ฉ๋‹ˆ๋‹ค.

 

 

์ด ์ˆ˜์‹์ด ์˜๋ฏธํ•˜๋Š” ๋ฐ”๋Š” **"์ค‘๊ฐ„ ๋‹จ๊ณ„(y)์˜ ์—ฐ๊ฒฐ ๊ณ ๋ฆฌ๋ฅผ ์ด์šฉํ•ด ๋์—์„œ ๋(x  → z)๊นŒ์ง€์˜ ์˜ํ–ฅ์„ ๊ณ„์‚ฐํ•  ์ˆ˜ ์žˆ๋‹ค"**๋Š” ๊ฒƒ์ž…๋‹ˆ๋‹ค.


๐Ÿง  3. ๋”ฅ๋Ÿฌ๋‹ ์‹ ๊ฒฝ๋ง์—์„œ์˜ ์ ์šฉ

๋”ฅ๋Ÿฌ๋‹ ๋ชจ๋ธ์€ ์ˆ˜๋งŽ์€ ์ธต(Layer)์ด ๊ฒน๊ฒน์ด ์Œ“์ธ ๊ฑฐ๋Œ€ํ•œ ํ•ฉ์„ฑ ํ•จ์ˆ˜์ž…๋‹ˆ๋‹ค. ํ•˜๋‚˜์˜ ๋‰ด๋Ÿฐ์—์„œ ์ผ์–ด๋‚˜๋Š” ์ผ์„ ์—ฐ์‡„ ๋ฒ•์น™์œผ๋กœ ๋ถ„ํ•ดํ•ด ๋ณด๊ฒ ์Šต๋‹ˆ๋‹ค.

๊ฐ€์ƒ์˜ ์‹ ๊ฒฝ๋ง ๊ตฌ์กฐ

  1. ์ž…๋ ฅ($x$)๊ณผ ๊ฐ€์ค‘์น˜($w$)์˜ ๊ฒฐํ•ฉ: z = w · x + b
  2. ํ™œ์„ฑํ™” ํ•จ์ˆ˜ ํ†ต๊ณผ: a = δ(z)
  3. ์˜ค์ฐจ(Loss) ๊ณ„์‚ฐ: L = (a - y_(target))^2

์šฐ๋ฆฌ๊ฐ€ ์•Œ๊ณ  ์‹ถ์€ ๊ฒƒ์€ "๊ฐ€์ค‘์น˜ w๋ฅผ ์•„์ฃผ ์กฐ๊ธˆ ๋ฐ”๊ฟจ์„ ๋•Œ, ์ตœ์ข… ์˜ค์ฐจ L์€ ์–ผ๋งˆ๋‚˜ ๋ณ€ํ• ๊นŒ?" ์ฆ‰,

์ž…๋‹ˆ๋‹ค.

์—ฐ์‡„ ๋ฒ•์น™์˜ ์ „๊ฐœ

๊ฐ€์ค‘์น˜ w์—์„œ ์˜ค์ฐจ L๊นŒ์ง€ ๊ฐ€๋ ค๋ฉด ์—ฌ๋Ÿฌ ๋‹จ๊ณ„๋ฅผ ๊ฑฐ์ณ์•ผ ํ•˜๋ฏ€๋กœ, ์ด๋ฅผ ๊ฑฐ๊พธ๋กœ ํ•˜๋‚˜์”ฉ ๊ณฑํ•ด ๋‚ด๋ ค์˜ต๋‹ˆ๋‹ค.

 

 

  1. 1๋‹จ๊ณ„: "์ถœ๋ ฅ๊ฐ’(a)์ด ๋ณ€ํ•˜๋ฉด ์˜ค์ฐจ(L)๋Š” ์–ด๋–ป๊ฒŒ ๋ณ€ํ•˜๋Š”๊ฐ€?"
  2. 2๋‹จ๊ณ„: "์ž…๋ ฅ ์ดํ•ฉ(z)์ด ๋ณ€ํ•˜๋ฉด ์ถœ๋ ฅ๊ฐ’(a)์€ ์–ด๋–ป๊ฒŒ ๋ณ€ํ•˜๋Š”๊ฐ€?"
  3. 3๋‹จ๊ณ„: "๊ฐ€์ค‘์น˜(w)๊ฐ€ ๋ณ€ํ•˜๋ฉด ์ž…๋ ฅ ์ดํ•ฉ(z)์€ ์–ด๋–ป๊ฒŒ ๋ณ€ํ•˜๋Š”๊ฐ€?"

์ด ๊ฐ’๋“ค์„ ๋ชจ๋‘ ๊ณฑํ•˜๋ฉด, ์šฐ๋ฆฌ๋Š” ์•„์ฃผ ๊นŠ์€ ๊ณณ์— ์žˆ๋Š” ๊ฐ€์ค‘์น˜ w๊ฐ€ ์ตœ์ข… ์˜ค์ฐจ์— ๋ฏธ์น˜๋Š” ์˜ํ–ฅ๋ ฅ์„ ์ •ํ™•ํžˆ ์•Œ ์ˆ˜ ์žˆ๊ฒŒ ๋ฉ๋‹ˆ๋‹ค.


๐Ÿš€ 4. ์™œ ๋”ฅ๋Ÿฌ๋‹์—์„œ ์—ฐ์‡„ ๋ฒ•์น™์ด ๊ทธํ† ๋ก ๊ฐ•๋ ฅํ•œ๊ฐ€?

โ‘  ๊ณ„์‚ฐ์˜ ํšจ์œจ์„ฑ (Dynamic Programming)

์‹ ๊ฒฝ๋ง์ด 100์ธต์ด๋ผ๊ณ  ๊ฐ€์ •ํ•  ๋•Œ, ๋ชจ๋“  ๊ฐ€์ค‘์น˜์— ๋Œ€ํ•ด ์ฒ˜์Œ๋ถ€ํ„ฐ ๋๊นŒ์ง€ ์ƒˆ๋กœ ๋ฏธ๋ถ„ํ•˜๋Š” ๊ฒƒ์€ ์—„์ฒญ๋‚œ ๋‚ญ๋น„์ž…๋‹ˆ๋‹ค. ์—ฐ์‡„ ๋ฒ•์น™์„ ์‚ฌ์šฉํ•˜๋ฉด ์ด์ „ ๋‹จ๊ณ„์—์„œ ๊ณ„์‚ฐ๋œ ๋ฏธ๋ถ„๊ฐ’์„ ๋‹ค์Œ ๋‹จ๊ณ„์—์„œ ๊ทธ๋Œ€๋กœ ์žฌ์‚ฌ์šฉํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ์ด๋ฅผ ํ†ตํ•ด ๊ณ„์‚ฐ ๋ณต์žก๋„๋ฅผ ํš๊ธฐ์ ์œผ๋กœ ๋‚ฎ์ถฅ๋‹ˆ๋‹ค.

โ‘ก "๋กœ์ปฌ" ์ •๋ณด๋งŒ์œผ๋กœ ์ถฉ๋ถ„ํ•จ

๊ฐ ๋…ธ๋“œ(๋‰ด๋Ÿฐ)๋Š” ์ „์ฒด ๋„คํŠธ์›Œํฌ์˜ ๊ตฌ์กฐ๋ฅผ ๋ชฐ๋ผ๋„ ๋ฉ๋‹ˆ๋‹ค. ์˜ค์ง ์ž์‹ ์—๊ฒŒ ๋“ค์–ด์˜ค๋Š” ๊ฐ’๊ณผ ์ž์‹ ์ด ๋‚ด๋ณด๋‚ด๋Š” ๊ฐ’ ์‚ฌ์ด์˜ ๋ฏธ๋ถ„๊ฐ’๋งŒ ๊ณ„์‚ฐํ•ด์„œ ๋’ค๋กœ ๋„˜๊ฒจ์ฃผ๋ฉด ๋ฉ๋‹ˆ๋‹ค. ์ด ๋กœ์ปฌ ์ •๋ณด๋“ค์ด '์ฒด์ธ'์ฒ˜๋Ÿผ ์—ฐ๊ฒฐ๋˜์–ด ์ „์ฒด ์‹œ์Šคํ…œ์„ ์ตœ์ ํ™”ํ•˜๊ฒŒ ๋ฉ๋‹ˆ๋‹ค.

โ‘ข ๊ธฐ์šธ๊ธฐ ์†Œ์‹ค(Vanishing Gradient)์˜ ์›์ธ

๋ฐ˜๋Œ€๋กœ, ์—ฐ์‡„ ๋ฒ•์น™ ๋•Œ๋ฌธ์— ๋ฌธ์ œ๊ฐ€ ์ƒ๊ธฐ๊ธฐ๋„ ํ•ฉ๋‹ˆ๋‹ค. ๋ฏธ๋ถ„๊ฐ’๋“ค์„ ๊ณ„์† ๊ณฑํ•ด ๋‚˜๊ฐ€๋‹ค ๋ณด๋‹ˆ, ๋งŒ์•ฝ ์ค‘๊ฐ„ ๋‹จ๊ณ„์˜ ๋ฏธ๋ถ„๊ฐ’์ด 0.1์ฒ˜๋Ÿผ ์ž‘๋‹ค๋ฉด ์ธต์ด ๊นŠ์–ด์งˆ์ˆ˜๋ก ์ตœ์ข… ๊ฒฐ๊ณผ๊ฐ’์ด 0์— ๊ฐ€๊นŒ์›Œ์ ธ ํ•™์Šต์ด ์•ˆ ๋˜๋Š” ํ˜„์ƒ์ด ๋ฐœ์ƒํ•ฉ๋‹ˆ๋‹ค. ์ด๋ฅผ ์ดํ•ดํ•˜๋Š” ๋ฐ”ํƒ•๋„ ๋ฐ”๋กœ ์—ฐ์‡„ ๋ฒ•์น™์ž…๋‹ˆ๋‹ค.


๐Ÿ’ก ์š”์•ฝํ•˜์ž๋ฉด

์—ฐ์‡„ ๋ฒ•์น™์€ **"๋ณต์žกํ•œ ๋ฌธ์ œ๋ฅผ ์ž‘์€ ๋‹จ์œ„์˜ ๋ฏธ๋ถ„์œผ๋กœ ์ชผ๊ฐœ๊ณ , ์ด๋ฅผ ๋‹ค์‹œ ๊ณฑํ•ด์„œ ์ „์ฒด์˜ ํ•ด๋‹ต์„ ์ฐพ๋Š” ๊ณผ์ •"**์ž…๋‹ˆ๋‹ค. ์ด ๋ฒ•์น™ ๋•๋ถ„์— ์šฐ๋ฆฌ๋Š” ์•„๋ฌด๋ฆฌ ๊ฑฐ๋Œ€ํ•œ ์ธ๊ณต์‹ ๊ฒฝ๋ง์ด๋ผ๋„ ์ˆ˜ํ•™์ ์œผ๋กœ ์ •ํ™•ํ•˜๊ณ  ๋น ๋ฅด๊ฒŒ ํ•™์Šต์‹œํ‚ฌ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

 

3. ์—ญ์ „ํŒŒ ์•Œ๊ณ ๋ฆฌ์ฆ˜ ํ•ต์‹ฌ ์š”์•ฝ: ์™œ ์ด ๊ณผ์ •์„ ๊ฑฐ์น˜๋‚˜์š”?

์—ญ์ „ํŒŒ์˜ ๋ชฉ์ ์€ ๊ฒฐ๊ตญ **๊ฒฝ์‚ฌํ•˜๊ฐ•๋ฒ•(Gradient Descent)**์„ ์ˆ˜ํ–‰ํ•˜์—ฌ ๋ชจ๋ธ์„ ์ตœ์ ํ™”ํ•˜๋Š” ๊ฒƒ์ž…๋‹ˆ๋‹ค.

  • ์˜ค์ฐจ์˜ ์ฑ…์ž„ ์ถ”๊ถ: ๋’ค์—์„œ๋ถ€ํ„ฐ ์•ž์œผ๋กœ ๊ฐ€๋ฉฐ ๊ฐ ๊ฐ€์ค‘์น˜๊ฐ€ ์˜ค์ฐจ์— ๊ธฐ์—ฌํ•œ ์ •๋„๋ฅผ ๋ฏธ๋ถ„์œผ๋กœ ๊ณ„์‚ฐํ•ฉ๋‹ˆ๋‹ค.
  • ๊ฐ€์ค‘์น˜ ์ˆ˜์ •: ๊ณ„์‚ฐ๋œ ๊ธฐ์šธ๊ธฐ(Gradient) ๋ฐฉํ–ฅ์œผ๋กœ ๊ฐ€์ค‘์น˜ W๋ฅผ ์กฐ๊ธˆ์”ฉ ์—…๋ฐ์ดํŠธํ•ฉ๋‹ˆ๋‹ค.
  • ๋ฐ˜๋ณต: ์ด ๊ณผ์ •์„ ์ˆ˜๋งŒ ๋ฒˆ ๋ฐ˜๋ณตํ•˜๋ฉด ๋ชจ๋ธ์˜ ์˜ˆ์ธก๊ฐ’ y^์€ ์‹ค์ œ ์ •๋‹ต y์— ์ ์  ๊ฐ€๊นŒ์›Œ์ง‘๋‹ˆ๋‹ค.

ํŒ: ์—ญ์ „ํŒŒ๋Š” **์—ฐ์‡„ ๋ฒ•์น™(Chain Rule)**์„ ์ด์šฉํ•ด ๋ณต์žกํ•œ ํ•ฉ์„ฑ ํ•จ์ˆ˜์˜ ๋ฏธ๋ถ„(์†์‹ค ํ•จ์ˆ˜ $J$์— ๋Œ€ํ•œ ๊ฐ€์ค‘์น˜ ํŽธ๋ฏธ๋ถ„)์„ ํšจ์œจ์ ์œผ๋กœ ์ˆ˜ํ–‰ํ•˜๋Š” ์•Œ๊ณ ๋ฆฌ์ฆ˜์ž…๋‹ˆ๋‹ค.

 

 

๐Ÿค– ์‹ ๊ฒฝ๋ง ์ˆ˜๋ ด

 

1. ํ•™์Šต ๋ฐฉ์‹๋ณ„ ๋น„๊ต: ์–ด๋–ป๊ฒŒ ๋‚ด๋ ค์˜ฌ ๊ฒƒ์ธ๊ฐ€?

ํ•™์Šต ๋ฐ์ดํ„ฐ ์ „์ฒด๋ฅผ ํ•œ ๋ฒˆ์— ๋ณผ ๊ฒƒ์ธ์ง€, ์•„๋‹ˆ๋ฉด ์กฐ๊ธˆ์”ฉ ๋‚˜๋ˆ„์–ด ๋ณผ ๊ฒƒ์ธ์ง€์— ๋”ฐ๋ผ ํฌ๊ฒŒ ์„ธ ๊ฐ€์ง€๋กœ ๋‚˜๋‰ฉ๋‹ˆ๋‹ค.

โ‘  ๊ธฐ๋ณธ ๊ฒฝ์‚ฌ ํ•˜๊ฐ•๋ฒ• (Batch Gradient Descent)

๋ชจ๋“  ํ•™์Šต ๋ฐ์ดํ„ฐ์…‹์„ ํ•œ๊บผ๋ฒˆ์— ์‚ฌ์šฉํ•˜์—ฌ ๊ธฐ์šธ๊ธฐ(Gradient)๋ฅผ ๊ณ„์‚ฐํ•ฉ๋‹ˆ๋‹ค.

  • ํŠน์ง•: ์ „์ฒด ๋ฐ์ดํ„ฐ๋ฅผ ๋‹ค ๋ณธ ๋’ค์— ๊ฐ€์ค‘์น˜๋ฅผ ๋”ฑ ํ•œ ๋ฒˆ ์—…๋ฐ์ดํŠธํ•ฉ๋‹ˆ๋‹ค.
  • ์žฅ์ : ๊ฒฝ๋กœ๊ฐ€ ๋งค์šฐ ๋งค๋„๋Ÿฝ๊ณ  ์•ˆ์ •์ ์œผ๋กœ ์ˆ˜๋ ดํ•ฉ๋‹ˆ๋‹ค.
  • ๋‹จ์ : ๋ฐ์ดํ„ฐ๊ฐ€ ์ˆ˜๋ฐฑ๋งŒ ๊ฑด์ด๋ผ๋ฉด ํ•œ ๋ฒˆ ์—…๋ฐ์ดํŠธํ•˜๋Š” ๋ฐ ์‹œ๊ฐ„์ด ๋„ˆ๋ฌด ์˜ค๋ž˜ ๊ฑธ๋ฆฌ๊ณ  ๋ฉ”๋ชจ๋ฆฌ ๋ถ€์กฑ(OOM) ๋ฌธ์ œ๊ฐ€ ๋ฐœ์ƒํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

โ‘ก ์˜จ๋ผ์ธ ํ•™์Šต ๋ฐฉ์‹ (Stochastic Gradient Descent, SGD)

๋งค ์Šคํ…๋งˆ๋‹ค ๋”ฑ ํ•˜๋‚˜์˜ ๋ฐ์ดํ„ฐ๋งŒ ๋ฌด์ž‘์œ„๋กœ ๊ณจ๋ผ ๊ธฐ์šธ๊ธฐ๋ฅผ ๊ณ„์‚ฐํ•ฉ๋‹ˆ๋‹ค.

  • ํŠน์ง•: ์—…๋ฐ์ดํŠธ๊ฐ€ ๋งค์šฐ ๋นˆ๋ฒˆํ•˜๋ฉฐ, ๊ฒฝ๋กœ๊ฐ€ ๋งˆ์น˜ '์ˆ  ์ทจํ•œ ์‚ฌ๋žŒ'์ฒ˜๋Ÿผ ์‹ฌํ•˜๊ฒŒ ์š”๋™์น˜๋ฉฐ ๋‚ด๋ ค๊ฐ‘๋‹ˆ๋‹ค.
  • ์žฅ์ : ๊ณ„์‚ฐ ์†๋„๊ฐ€ ๋งค์šฐ ๋น ๋ฅด๊ณ , ์ด๋ฏธ์ง€ ์†์˜ **Local cost minimum(์ง€์—ญ ์ตœ์†Ÿ๊ฐ’)**์— ๊ฐ‡ํ˜”์„ ๋•Œ ์š”๋™์น˜๋Š” ํž˜์œผ๋กœ ํŠ•๊ฒจ ๋‚˜์™€ Global minimum์œผ๋กœ ํ–ฅํ•  ๊ฐ€๋Šฅ์„ฑ์ด ์žˆ์Šต๋‹ˆ๋‹ค.
  • ๋‹จ์ : ์ตœ์†Ÿ๊ฐ’ ๊ทผ์ฒ˜์— ๋„๋‹ฌํ•ด๋„ ๋ฉˆ์ถ”์ง€ ์•Š๊ณ  ์ฃผ๋ณ€์„ ๊ณ„์† ๋ฐฐํšŒํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

โ‘ข ๋ฏธ๋‹ˆ๋ฐฐ์น˜ ๋ฐฉ์‹ (Mini-batch Gradient Descent)

๋ฐ์ดํ„ฐ๋ฅผ ์ ๋‹นํ•œ ํฌ๊ธฐ(์˜ˆ: 32, 64, 128๊ฐœ)๋กœ ๋ฌถ์–ด ์ฒ˜๋ฆฌํ•˜๋Š” ๋ฐฉ์‹์œผ๋กœ, ํ˜„์žฌ ๋”ฅ๋Ÿฌ๋‹์—์„œ ๊ฐ€์žฅ ํ‘œ์ค€์ ์œผ๋กœ ์‚ฌ์šฉ๋ฉ๋‹ˆ๋‹ค.

  • ํŠน์ง•: GD์˜ ์•ˆ์ •์„ฑ๊ณผ SGD์˜ ์†๋„๋ผ๋Š” ์žฅ์ ์„ ์ ์ ˆํžˆ ์„ž์—ˆ์Šต๋‹ˆ๋‹ค.
  • ์žฅ์ : GPU์˜ ๋ณ‘๋ ฌ ์—ฐ์‚ฐ ๊ธฐ๋Šฅ์„ ์ตœ๋Œ€ํ•œ ํ™œ์šฉํ•  ์ˆ˜ ์žˆ์–ด ํšจ์œจ์ ์ด๋ฉฐ, ์ ๋‹นํ•œ ๋…ธ์ด์ฆˆ๊ฐ€ ์žˆ์–ด ์ง€์—ญ ์ตœ์†Ÿ๊ฐ’์„ ํ”ผํ•˜๋Š” ๋ฐ ๋„์›€์„ ์ค๋‹ˆ๋‹ค.

2. ์ˆ˜๋ ด์˜ ํ•ต์‹ฌ ๋‚œ๊ด€ 

์ด๋ฏธ์ง€์—์„œ ๋ณผ ์ˆ˜ ์žˆ๋“ฏ์ด, ์ˆ˜๋ ด ๊ณผ์ •์—๋Š” ํฐ ๋ฐฉํ•ด ์š”์†Œ๊ฐ€ ์žˆ์Šต๋‹ˆ๋‹ค.

  • Local Cost Minimum (์ง€์—ญ ์ตœ์†Ÿ๊ฐ’): ์‚ฐ์„ ๋‚ด๋ ค์˜ค๋‹ค ๋งŒ๋‚œ ์ž‘์€ ์›…๋ฉ์ด์ž…๋‹ˆ๋‹ค. ๋ชจ๋ธ์€ ์—ฌ๊ธฐ๊ฐ€ ์ตœ์ €์ ์ธ ์ค„ ์ฐฉ๊ฐํ•˜๊ณ  ๋ฉˆ์ถœ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
  • Global Cost Minimum (์ „์—ญ ์ตœ์†Ÿ๊ฐ’): ์šฐ๋ฆฌ๊ฐ€ ์ง„์งœ ๋ชฉํ‘œ๋กœ ํ•˜๋Š” ๊ฐ€์žฅ ๊นŠ์€ ๊ณจ์งœ๊ธฐ์ž…๋‹ˆ๋‹ค.
  • Random Initial Condition: ์ฒ˜์Œ์— ๊ณต์„ ์–ด๋””์„œ ๋–จ์–ด๋œจ๋ฆฌ๋А๋ƒ์— ๋”ฐ๋ผ ๋„๋‹ฌํ•˜๋Š” ๊ฒฐ๊ณผ๊ฐ€ ๋‹ฌ๋ผ์งˆ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

[!NOTE]

์ตœ๊ทผ์˜ ๋”ฅ๋Ÿฌ๋‹ ์—ฐ๊ตฌ์— ๋”ฐ๋ฅด๋ฉด, ๊ณ ์ฐจ์› ์‹ ๊ฒฝ๋ง์—์„œ๋Š” ์ง€์—ญ ์ตœ์†Ÿ๊ฐ’๋ณด๋‹ค ์•ˆ์žฅ์ (Saddle Point)—ํ•œ์ชฝ์œผ๋กœ๋Š” ๋‚ด๋ ค๊ฐ€์ง€๋งŒ ๋‹ค๋ฅธ ์ชฝ์œผ๋กœ๋Š” ์˜ฌ๋ผ๊ฐ€๋Š” ์ง€ํ˜•—์— ๊ฐ‡ํžˆ๋Š” ๊ฒƒ์ด ๋” ํฐ ๋ฌธ์ œ๋กœ ์ง€์ ๋˜๊ธฐ๋„ ํ•ฉ๋‹ˆ๋‹ค.


3. ํ•œ๋ˆˆ์— ๋ณด๋Š” ๋น„๊ตํ‘œ

๊ตฌ๋ถ„ ๋ฐ์ดํ„ฐ ์‚ฌ์šฉ๋Ÿ‰ ์ˆ˜๋ ด ์†๋„ (1ํšŒ ์—…๋ฐ์ดํŠธ ๊ธฐ์ค€) ์•ˆ์ •์„ฑ ํŠน์ง•
Batch GD ์ „์ฒด ๋ฐ์ดํ„ฐ ๋งค์šฐ ๋А๋ฆผ ๋†’์Œ ์ •ํ™•ํ•˜์ง€๋งŒ ๋ฌด๊ฒ๊ณ  ๋А๋ฆผ
SGD (Online) 1๊ฐœ ๋งค์šฐ ๋น ๋ฆ„ ๋‚ฎ์Œ (์š”๋™์นจ) ์ง€์—ญ ์ตœ์†Ÿ๊ฐ’ ํƒˆ์ถœ์— ์œ ๋ฆฌ
Mini-batch ์ง€์ •ํ•œ ๋ฌถ์Œ ๋‹จ์œ„ ๋น ๋ฆ„ ๋ณดํ†ต ํ˜„์žฌ ๋”ฅ๋Ÿฌ๋‹ ํ‘œ์ค€

 

 

๋‹ค์ธต ์‹ ๊ฒฝ๋ง(Deep Neural Networks)์ฒ˜๋Ÿผ ํŒŒ๋ผ๋ฏธํ„ฐ๊ฐ€ ์ˆ˜๋ฐฑ๋งŒ ๊ฐœ์— ๋‹ฌํ•˜๊ณ  ๋ฐ์ดํ„ฐ์…‹์ด ๋ฐฉ๋Œ€ํ•œ ๋ณต์žกํ•œ ๋ชจ๋ธ์—์„œ๋Š” **๋ฏธ๋‹ˆ๋ฐฐ์น˜ ๊ฒฝ์‚ฌ ํ•˜๊ฐ•๋ฒ•(Mini-batch Gradient Descent)**์„ ๊ธฐ๋ฐ˜์œผ๋กœ ํ•œ **์ ์‘ํ˜• ์ตœ์ ํ™” ์•Œ๊ณ ๋ฆฌ์ฆ˜(Adaptive Optimization Algorithms)**์„ ์ฃผ๋กœ ์‚ฌ์šฉํ•ฉ๋‹ˆ๋‹ค.

๋‹จ์ˆœํžˆ "๋‚ด๋ ค๊ฐ€๋Š” ๊ฒƒ"์„ ๋„˜์–ด, "์–ผ๋งˆ๋‚˜ ๋น ๋ฅด๊ฒŒ, ์–ด๋–ค ๋ฐฉํ–ฅ์œผ๋กœ" ๋‚ด๋ ค๊ฐˆ์ง€๋ฅผ ์ˆ˜ํ•™์ ์œผ๋กœ ์ •๊ตํ•˜๊ฒŒ ๊ณ„์‚ฐํ•˜๋Š” ๋ฐฉ์‹๋“ค์ž…๋‹ˆ๋‹ค.


1. ์™œ ๋ฏธ๋‹ˆ๋ฐฐ์น˜ ๋ฐฉ์‹์„ ์„ ํƒํ• ๊นŒ?

๋ณต์žกํ•œ ๋ชจ๋ธ์ผ์ˆ˜๋ก ์•„๋ž˜ ๋‘ ๊ฐ€์ง€ ์ด์œ  ๋•Œ๋ฌธ์— ๋ฏธ๋‹ˆ๋ฐฐ์น˜ ๋ฐฉ์‹์ด ๊ฐ•์ œ๋ฉ๋‹ˆ๋‹ค.

  • ๋ฉ”๋ชจ๋ฆฌ ํ•œ๊ณ„: ์ˆ˜ ๊ธฐ๊ฐ€๋ฐ”์ดํŠธ(GB)์— ๋‹ฌํ•˜๋Š” ์ „์ฒด ๋ฐ์ดํ„ฐ๋ฅผ ํ•œ ๋ฒˆ์— GPU ๋ฉ”๋ชจ๋ฆฌ์— ์˜ฌ๋ฆฌ๋Š” ๊ฒƒ์€ ๋ถˆ๊ฐ€๋Šฅํ•ฉ๋‹ˆ๋‹ค(Batch GD์˜ ํ•œ๊ณ„).
  • ๋ณ‘๋ ฌ ์—ฐ์‚ฐ์˜ ํšจ์œจ์„ฑ: ํ˜„๋Œ€์˜ GPU๋Š” ์—ฌ๋Ÿฌ ๋ฐ์ดํ„ฐ๋ฅผ ๋™์‹œ์— ์ฒ˜๋ฆฌํ•˜๋Š” ๋ฐ ํŠนํ™”๋˜์–ด ์žˆ์Šต๋‹ˆ๋‹ค. ๋ฏธ๋‹ˆ๋ฐฐ์น˜(์˜ˆ: 32, 64, 128๊ฐœ) ๋‹จ์œ„๋กœ ๊ณ„์‚ฐํ•  ๋•Œ ํ•˜๋“œ์›จ์–ด ์„ฑ๋Šฅ์„ ์ตœ๋Œ€๋กœ ๋Œ์–ด๋‚ผ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

2. ๋ณต์žกํ•œ ๋ชจ๋ธ์—์„œ ์‚ฌ์šฉํ•˜๋Š” ํ•ต์‹ฌ ๊ธฐ์ˆ : "Optimizer"

๋‹จ์ˆœํ•œ ๊ฒฝ์‚ฌ ํ•˜๊ฐ•๋ฒ•์€ ๋ณต์žกํ•œ ์ง€ํ˜•(Local Minimum, Saddle Point)์—์„œ ๊ธธ์„ ์žƒ๊ธฐ ์‰ฝ์Šต๋‹ˆ๋‹ค. ์ด๋ฅผ ํ•ด๊ฒฐํ•˜๊ธฐ ์œ„ํ•ด ์‹ค์ œ ํ˜„์—…์—์„œ๋Š” ๋‹ค์Œ๊ณผ ๊ฐ™์€ ๋ฐœ์ „๋œ ์•Œ๊ณ ๋ฆฌ์ฆ˜์„ ๊ฒฐํ•ฉํ•ฉ๋‹ˆ๋‹ค.

โ‘  ๊ด€์„ฑ์„ ์ด์šฉํ•˜๋Š” '๋ชจ๋ฉ˜ํ…€(Momentum)'

  • ์›๋ฆฌ: ๊ฐ€๋˜ ๋ฐฉํ–ฅ์œผ๋กœ ๊ณ„์† ๊ฐ€๋ ค๋Š” ์„ฑ์งˆ์„ ์ด์šฉํ•ฉ๋‹ˆ๋‹ค.
  • ํšจ๊ณผ: ๊ฒฝ์‚ฌ๊ฐ€ ์™„๋งŒํ•œ ๊ณณ์—์„œ๋„ ๋น ๋ฅด๊ฒŒ ์ด๋™ํ•˜๊ณ , ์ž‘์€ ์ง€์—ญ ์ตœ์†Ÿ๊ฐ’(Local Minimum)์„ ๊ด€์„ฑ์˜ ํž˜์œผ๋กœ ํ†ต๊ณผํ•  ์ˆ˜ ์žˆ๊ฒŒ ๋•์Šต๋‹ˆ๋‹ค.

โ‘ก ๋ณดํญ์„ ์กฐ์ ˆํ•˜๋Š” '์ ์‘ํ˜• ํ•™์Šต๋ฅ (Adaptive Learning Rate)'

  • RMSProp / Adagrad: ๋งŽ์ด ๋ณ€ํ•œ ํŒŒ๋ผ๋ฏธํ„ฐ๋Š” ๋ณดํญ์„ ์ค„์ด๊ณ , ์ ๊ฒŒ ๋ณ€ํ•œ ํŒŒ๋ผ๋ฏธํ„ฐ๋Š” ๋ณดํญ์„ ๋„“ํ˜€์„œ ๋ชจ๋“  ํŒŒ๋ผ๋ฏธํ„ฐ๊ฐ€ ๊ณจ๊ณ ๋ฃจ ํ•™์Šต๋˜๊ฒŒ ํ•ฉ๋‹ˆ๋‹ค.
  • Adam (Adaptive Moment Estimation): ํ˜„์žฌ ๋”ฅ๋Ÿฌ๋‹์—์„œ ๊ฐ€์žฅ ๋งŽ์ด ์“ฐ์ด๋Š” ๋ฐฉ์‹์ž…๋‹ˆ๋‹ค. ๋ชจ๋ฉ˜ํ…€์˜ '๊ด€์„ฑ'๊ณผ RMSProp์˜ '๋ณดํญ ์กฐ์ ˆ' ์žฅ์ ์„ ํ•ฉ์นœ ์•Œ๊ณ ๋ฆฌ์ฆ˜์ž…๋‹ˆ๋‹ค.

 

 

 

 

๋ฐ˜์‘ํ˜•