์ฑ„๋„ํ†ก ์•„์ด์ฝ˜

AI ์ž…๋ฌธ์„ ์œ„ํ•œ LLM ์•„ํ‚คํ…์ฒ˜ ์ดํ•ด์™€ GPU ํ™œ์šฉ์ „๋žต

ํŠธ๋žœ์Šคํฌ๋จธ ๊ธฐ๋ฐ˜์˜ LLM ์•„ํ‚คํ…์ฒ˜์™€ GPU ํ™œ์šฉ ์ „๋žต์„ ์ดํ•ดํ•˜๊ณ  vLLM์„ ํ†ตํ•ด ์ง์ ‘ ์„œ๋น™ํ•ด๋ด…๋‹ˆ๋‹ค. AI ์‹œ์Šคํ…œ ํŒŒ์ดํ”„๋ผ์ธ์„ ๊ตฌ์ถ•ํ•˜๊ณ  ๋ชจ๋‹ˆํ„ฐ๋ง ๋ฐ ๋ฉ€ํ‹ฐ GPU ํ™œ์šฉ๊นŒ์ง€ ์ „ ๊ณผ์ •์„ ๋‹ค๋ฃจ๋Š” ๊ฐ•์˜๋กœ ์ด ๋ชจ๋“  ๊ณผ์ •์€ ๋ณต์žกํ•œ ์ˆ˜์‹์ด๋‚˜ ์ฝ”๋”ฉ ๊ณผ์ • ์—†์ด ๊ทธ๋ฆผ๊ณผ ์‹ค์Šต์„ ํ†ตํ•ด ์ง๊ด€์ ์œผ๋กœ ๋ฐฐ์šธ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

11๋ช… ์ด ์ˆ˜๊ฐ•ํ•˜๊ณ  ์žˆ์–ด์š”.

๋‚œ์ด๋„ ์ดˆ๊ธ‰

์ˆ˜๊ฐ•๊ธฐํ•œ ๋ฌด์ œํ•œ

์ˆ˜๊ฐ• ํ›„ ์ด๋Ÿฐ๊ฑธ ์–ป์„ ์ˆ˜ ์žˆ์–ด์š”

  • ํŠธ๋žœ์Šคํฌ๋จธ ๋ชจ๋ธ์ด ๋ญ์•ผ? ํŠธ๋žœ์Šคํฌ๋จธ ๋ชจ๋ธ์˜ ์ธ์ฝ”๋”์™€ ๋””์ฝ”๋” ์ดํ•ด

  • ํŠธ๋žœ์Šคํฌ๋จธ ๋ชจ๋ธ์˜ ๊ทผ๊ฐ„, MHA, MQA, GQA, MLA ๋“ฑ ์–ดํ…์…˜ ๋ฉ”์ปค๋‹ˆ์ฆ˜ ๋ฐœ์ „ ํ๋ฆ„ ์™„๋ฒฝ ์ดํ•ด

  • ํ˜„์žฌ ์‚ฌ์‹ค์ƒ์˜ ํ‘œ์ค€, vLLM ์—”์ง„์˜ ํ™œ์šฉ ๋ฐฉ๋ฒ• ๋งˆ์Šคํ„ฐ

  • vLLM ์„œ๋น™๊ณผ TTFT, TPOT ์„ฑ๋Šฅ ์ง€ํ‘œ ๋ชจ๋‹ˆํ„ฐ๋ง

  • Tensor/Pipeline/Data Parallel์„ ํ™œ์šฉํ•œ ๋ฉ€ํ‹ฐ GPU ์•„ํ‚คํ…์ฒ˜ ์„ค๊ณ„ ๋ฐ ๊ตฌํ˜„

  • Agent AI์˜ ํ•ต์‹ฌ, Tool calling ์˜ ์›๋ฆฌ ์ดํ•ด

  • ํ˜„์—… ๋…ธํ•˜์šฐ ์ „์ˆ˜, AI ์‹œ์Šคํ…œ ํŒŒ์ดํ”„๋ผ์ธ ๊ตฌ์ถ•๊ณผ ์„ฑ๋Šฅ ๋ชจ๋‹ˆํ„ฐ๋ง

  • ๋”ฅ์‹œํฌ ๋…ผ๋ฌธ์„ ํ†ตํ•ด ์ดํ•ดํ•˜๋Š” ์ตœ์‹  ํŠธ๋ Œ๋“œ (MLA, MTP, ์—”๊ทธ๋žจ ๋“ฑ)

AI 3๋Œ€ ๊ฐ•๊ตญ์ด ๋œ ์ง€๊ธˆ ํ•„์š”ํ•œ ๊ฒƒ์€

LLM ์ดํ•ด์™€ ์‹ค๋ฌด ์ ์šฉ์„ ์œ„ํ•œ

LLM ๋งˆ์Šคํ„ฐ ํด๋ž˜์Šค

์ž์œจํ˜• ์—์ด์ „ํŠธ ์‹œ๋Œ€๋กœ ์ง„์ž…ํ•˜๋ฉด์„œ
์˜คํ”ˆ ํด๋กœ, ํด๋กœ๋“œ ์ฝ”๋“œ, Codex ๋“ฑ ๋งŽ์€ ์—์ด์ „ํŠธ ๋„๊ตฌ๋ฅผ ์‚ฌ์šฉํ•˜๊ณ  ์žˆ์ง€๋งŒ
๋ฐ์ดํ„ฐ ์œ ์ถœ์˜ ์œ„ํ˜‘๊ณผ ํ†ต์ œ๋˜์ง€ ์•Š๋Š” ํ† ํฐ ๋น„์šฉ์˜ ๋ฌธ์ œ๋Š” ํ•ด๊ฒฐํ•  ์ˆ˜ ์—†์Šต๋‹ˆ๋‹ค.


์ •๋‹ต์€ Hybrid AI ์•„ํ‚คํ…์ฒ˜์ž…๋‹ˆ๋‹ค.



ํ•˜์ง€๋งŒ ๋ฌด์กฐ๊ฑด pubic API๊ฐ€ ์ข‹์ง€ ์•Š๋ƒ๊ตฌ์š”?
๊ทธ๋ ‡์ง€ ์•Š์Šต๋‹ˆ๋‹ค. 

์š”์ฆ˜์—” public API(chatGPT, Claude, Sonnet etc.) ์— ๋งž๋จน๋Š”
LLM ๊ตญ๋‚ด/์™ธ์—์„œ ๋‹ค์ˆ˜ ๊ฐœ๋ฐœ๋˜๊ณ  ์žˆ์Šต๋‹ˆ๋‹ค.  



๊ตญ๋‚ด ์†Œ๋ฒ„๋ฆฐ AI 1์ฐจ ํ‰๊ฐ€ ๊ฒฐ๊ณผ ์„ ์ •๋œ 3๊ฐ€์ง€ ๋ชจ๋ธ


๊ทธ๋Ÿฌ๋‚˜ LLM์„ ์ž˜ ์•Œ๊ณ  ์‚ฌ์šฉํ•˜๋Š” ๊ฒƒ์€ ์‰ฝ์ง€ ์•Š์Šต๋‹ˆ๋‹ค.
๋น„์‹ผ GPU๋ฅผ ๊ตฌ๋งคํ•ด๋†“๊ณ 
LLM์„ ์ดํ•ดํ•˜๊ณ  ์‚ฌ์šฉํ•˜๋Š” ๊ฒƒ๊ณผ ์ดํ•ดํ•˜์ง€ ์•Š๊ณ  ์‚ฌ์šฉํ•˜๋Š” ๊ฒƒ์€
๋งŽ์€ ์ฐจ์ด๋ฅผ ๊ฐ€์ ธ์˜ต๋‹ˆ๋‹ค.


๊ทธ๋ž˜์„œ ์ด์ œ๋Š” LLM์„ ์ง์ ‘ ์„œ๋น™ํ•˜๊ธฐ ์œ„ํ•œ ์•„ํ‚คํ…์ฒ˜๋ฅผ ๋ฐฐ์šธ ๋‹จ๊ณ„์ž…๋‹ˆ๋‹ค.


๐ŸŒŸ From LLM Architecture to Serving


๋Œ€ ์—์ด์ „ํŠธ์˜ ์‹œ๋Œ€๋ฅผ ๋งž์ดํ•˜์—ฌ ์ด์ œ๋Š” ํ•™์Šต๋ณด๋‹ค ์ถ”๋ก ์˜ ์‹œ๋Œ€์ž…๋‹ˆ๋‹ค. Public API๋ฅผ ์ž˜ ์‚ฌ์šฉํ•˜๋Š” ๊ฒƒ๋„ ํ•„์š”ํ•˜์ง€๋งŒ ๋งŽ์€ ๊ธฐ์—…์—์„œ๋Š” ๋ณด์•ˆ, ๊ฑฐ๋ฒ„๋„Œ์Šค, ๋น„์šฉ ๋“ฑ ์—ฌ๋Ÿฌ ์ด์œ ๋กœ ๋กœ์ปฌ ํ™˜๊ฒฝ์˜ ์„œ๋น™ ํ™˜๊ฒฝ ๊ตฌ์ถ•์„ ์„ ํ˜ธํ•ฉ๋‹ˆ๋‹ค.๋กœ์ปฌ ํ™˜๊ฒฝ LLM ์„œ๋น™ ํ™˜๊ฒฝ์„ ๊ตฌ์ถ•ํ•˜๊ธฐ ์œ„ํ•œ LLM ์•„ํ‚คํ…์ฒ˜์˜ ์ดํ•ด๋ถ€ํ„ฐ ์•„ํ‚คํ…์ฒ˜ ๊ตฌ์„ฑ, LLM ๊ฐœ๋ฐœ ํŠธ๋ Œ๋“œ๊นŒ์ง€ ๋ชจ๋“  ๊ฒƒ์„ ๋ฐฐ์›Œ๋ณด์„ธ์š”.


๊ฐ•์˜ Core ๊ตฌ์„ฑ

Core 1. ํ—ˆ๊น…ํŽ˜์ด์Šค ๋ชจ๋ธ ์ดํ•ดํ•˜๊ธฐ


ํ—ˆ๊น…ํŽ˜์ด์Šค์— ๊ณต๊ฐœ๋œ ์ˆ˜ ๋งŽ์€ LLM ์•Œ๊ณ  ์จ์•ผ ํ•ฉ๋‹ˆ๋‹ค.
๊ทธ๋Ÿฌ๋‚˜ LLM ๋ชจ๋ธ์˜ ์ŠคํŽ™์„ ์•Œ๋ ค์ฃผ๋Š” config.json ํŒŒ์ผ์€ ์ดˆ๋ณด์ž์—๊ฒŒ๋Š” ์•”ํ˜ธ๋ฌธ๊ณผ ๋‹ค๋ฆ„ ์—†์Šต๋‹ˆ๋‹ค. ์™œ๋ƒํ•˜๋ฉด ํŠธ๋žœ์Šคํฌ๋จธ(transformer) ๋ชจ๋ธ์„ ์ดํ•ดํ•˜๊ณ  ์žˆ์–ด์•ผ ๋ณผ ์ˆ˜ ์žˆ๊ฑฐ๋“ ์š”.

ํ•˜์ง€๋งŒ ๊ฑฑ์ • ๋งˆ์„ธ์š”. ์ด ๊ฐ•์˜๋ฅผ ๋“ฃ๊ณ  ๋‚˜๋ฉด ์ฃผ์š” ์ŠคํŽ™์€ ๋ณด๊ณ  ์ดํ•ดํ•  ์ˆ˜ ์žˆ๋Š” ์ „๋ฌธ๊ฐ€๊ฐ€ ๋˜์‹ค ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

๊ฐ•์˜๋ฅผ ํ†ตํ•ด config.json ํŒŒ์ผ์„ ํ•ด๋…ํ•˜๋Š” ๋ฐฉ๋ฒ•์„ ํ„ฐ๋“ํ•˜์„ธ์š”.

(์ฑ•ํ„ฐ 3-5 ๋ถ€๋ถ„์˜ ๋‚ด์šฉ์ž…๋‹ˆ๋‹ค. ๋‚˜๋จธ์ง€ ์ฃผ์š” ํŒŒ๋ผ๋ฏธํ„ฐ์— ๋Œ€ํ•ด ๋ชจ๋‘ ์–ป์–ด๊ฐ€์„ธ์š”)


Core 2. ์–ดํ…์…˜ ๋งˆ์Šคํ„ฐํ•˜๊ธฐ

ํ˜„์žฌ LLM ๋ชจ๋ธ์˜ ๊ธฐ๋ฐ˜์ด ๋˜๋Š” ํŠธ๋žœ์Šคํฌ๋จธ ๋ชจ๋ธ์˜ ์‹œ์ž‘๊ณผ ๋์€ ์–ดํ…์…˜์ž…๋‹ˆ๋‹ค.

attention-model ์€ 2017๋…„์— ๋“ฑ์žฅํ–ˆ์ง€๋งŒ
์•„์ง๋„ 10๋…„ ๊ฐ€๊นŒ์ด ์ตœ๊ฐ• ์•Œ๊ณ ๋ฆฌ์ฆ˜์œผ๋กœ ๊ตฐ๋ฆผํ•˜๊ณ  ์žˆ์Šต๋‹ˆ๋‹ค.
ํŠธ๋žœ์Šคํฌ๋จธ ๊ตฌ์กฐ๋ฅผ ๋ฒ—์–ด๋‚˜๊ธฐ ์œ„ํ•œ ๋งŽ์€ ๋…ธ๋ ฅ๋“ค์ด ์ด๋ค„์ง€๊ณ  ์žˆ์ง€๋งŒ
์•„์ง๊นŒ์ง€ ํŠธ๋žœ์Šคํฌ๋จธ์˜ ์–ดํ…์…˜์„ ์™„์ „ํžˆ ๋Œ€์ฒดํ•˜๋Š” ์•„ํ‚คํ…์ฒ˜๋Š” ๋‚˜์˜ค์ง€ ์•Š์•˜์Šต๋‹ˆ๋‹ค.

โš ๏ธ ์–ดํ…์…˜์€ ๋Œ€์ถฉ ์•Œ์•„์„œ๋Š” ์ ˆ๋Œ€ ์•ˆ๋ฉ๋‹ˆ๋‹ค.


์–ดํ…์…˜์˜ ์›๋ฆฌ๋ฅผ ์™„๋ฒฝ ์ดํ•ดํ•˜๊ณ  ๋ฐœ์ „ ํ๋ฆ„๊นŒ์ง€ ๋ฐฐ์›Œ๊ฐ€์„ธ์š”.

(์ฑ•ํ„ฐ 5-4 ๋ถ€๋ถ„์˜ ๋‚ด์šฉ์ž…๋‹ˆ๋‹ค. ์–ดํ…์…˜์˜ ๋ฐœ์ „ ํ๋ฆ„์ด ๊ณง LLM์˜ ๋ฐœ์ „ ํ๋ฆ„์ž…๋‹ˆ๋‹ค)


Core 3. ๋ฉ€ํ‹ฐ GPU ์•„ํ‚คํ…์ฒ˜ ์ •๋ณตํ•˜๊ธฐ

๋Œ€๊ทœ๋ชจ LLM ๊ตฌ๋™๊ณผ ๋น ๋ฅธ ์ถ”๋ก ์„ ์œ„ํ•œ ๋ฉ€ํ‹ฐ GPU ๊ตฌ์„ฑ์€ ํ•„์ˆ˜์ž…๋‹ˆ๋‹ค.
ํ•˜์ง€๋งŒ ๋ฉ€ํ‹ฐ GPU ๊ตฌ์„ฑ์—๋„ ์—ฌ๋Ÿฌ ๋ฐฉ๋ฒ•์ด ์žˆ๋‹ค๋Š” ๊ฒƒ, ์•„์‹œ๋‚˜์š”?


ํ•ต์‹ฌ AI ์—”์ง€๋‹ˆ์–ด๊ฐ€ ๋˜๊ธฐ ์œ„ํ•œ ํ•„์ˆ˜ ๊ด€๋ฌธ, GPU ํ™œ์šฉ ์ „๋žต์— ๋Œ€ํ•ด ์ „์ˆ˜ํ•ด ๋“œ๋ฆฝ๋‹ˆ๋‹ค.




๐Ÿ˜„ ์ด๋Ÿฐ ๋ถ„๋“ค๊ป˜ ์ถ”์ฒœํ•ด์š”

AI ์ดˆ๋ณด์ž

ํŠธ๋žœ์Šคํฌ๋จธ ๊ณต๋ถ€ํ•˜๋ ค๊ณ  ์–ดํ…์…˜ ์•Œ์•„๋ณด๋‹ค๊ฐ€ ์ˆ˜์‹์—์„œ ํฌ๊ธฐํ•œ ๋ถ„

AI ์ž…๋ฌธ์ž

chatGPT ๋˜๋Š” public API ๋กœ๋งŒ ์จ๋ณธ ๋ถ„. ๊ทธ๋Ÿฐ๋ฐ LLM ๋ชจ๋ธ์ด ์–ด๋–ป๊ฒŒ ๊ตฌ๋™๋˜๋Š”์ง€ ์›๋ฆฌ๋ฅผ ๋ฐฐ์šฐ๊ณ  ์‹ถ์€ ๋ถ„

AI ์—”์ง€๋‹ˆ์–ด

LLM ๋ชจ๋ธ ์•„ํ‚คํ…์ฒ˜ ํŠน์„ฑ์„ ์ดํ•ดํ•˜๊ณ  GPU ํ™˜๊ฒฝ์— ๊ตฌ๋™, ๊ด€๋ฆฌํ•  ์ˆ˜ ์žˆ๋Š” ์—ญ๋Ÿ‰์ด ํ•„์š”ํ•œ AI ์—”์ง€๋‹ˆ์–ด

๐Ÿ’ก ๊ฐ•์˜์—์„œ ๋ฐฐ์šฐ๋Š” ๋‚ด์šฉ

Step 1. Foundation

  • ํŠธ๋žœ์Šคํฌ๋จธ ๋ชจ๋ธ ์ดํ•ด

  • ํ† ํฌ๋‚˜์ด์ € & ์ž„๋ฒ ๋”ฉ

  • Encoder vs Decoder

  • ๋ชจ๋ธ ์†Œ์Šค์ฝ”๋“œ ๋ณด๊ธฐ

Step 2. Attention

  • Docoder ๋ชจ๋ธ ์ •๋ณต

  • ์–ดํ…์…˜ ๋งˆ์Šคํ„ฐํ•˜๊ธฐ

  • Masked ์–ดํ…์…˜

  • KV Cache

Step 3. Serving

  • vLLM Serving

  • Paged Attention

  • OpenAI Compatible

  • SSE Protocol

Step 4. Tool Call

  • Tool Call ์ดํ•ด

  • Tool ์‘๋‹ต ์•„ํ‚คํ…์ฒ˜

  • Chat Template

  • Tool call parser

Step 5. Optimazation

  • ์„ฑ๋Šฅ ํ…Œ์ŠคํŠธ

  • vLLM ๋ชจ๋‹ˆํ„ฐ๋ง

  • ๋ฉ€ํ‹ฐ GPU & Parallelism

  • vLLM ์ถ”๊ฐ€ ๊ธฐ๋Šฅ๋“ค

Step 6. Advanced

  • Multi Token Prediction

  • mHC

  • Engram

  • ํ•œ๊ณ„ ๊ทน๋ณต์„ ์œ„ํ•œ ๋…ธ๋ ฅ๋“ค

๐Ÿ’ก ๊ฐ•์˜ ํ•ต์‹ฌ Point

Point 1

์ˆ˜์‹์—†์ด ๋ฐฐ์šฐ๋Š” ์–ดํ…์…˜์˜ ํ•ต์‹ฌ ์›๋ฆฌ


์ˆ˜์‹์—†์ด ์—‘์…€์„ ํ†ตํ•ด ์ง๊ด€์ ์œผ๋กœ ๋‹ค์–‘ํ•œ ์–ดํ…์…˜ ๊ธฐ๋ฒ•์„ ๋ฐฐ์›๋‹ˆ๋‹ค (MHA โ†’ MQA โ†’ GQA, Sliding Window ์–ดํ…์…˜)

Point 2

3 Tier ๊ตฌ์กฐ์˜ AI ์•„ํ‚คํ…์ฒ˜ ๊ตฌํ˜„


OpenWebUI์™€ FastAPI, vLLM์œผ๋กœ ์ด์–ด์ง€๋Š” 3Tier ์•„ํ‚คํ…์ฒ˜์˜ ๊ธฐ๋ณธ ๊ตฌ์กฐ๋ฅผ ์ดํ•ดํ•˜๊ณ  Tool ์—ฐ๋™์˜ ๊ธฐ๋ณธ ํ๋ฆ„์„ ๋ฐฐ์›๋‹ˆ๋‹ค

Point 3

vLLM ์šด์˜์„ ์œ„ํ•œ ๋™์‹œ ์‚ฌ์šฉ์ž ์ˆ˜ ์ธก์ •๊ณผ Tip

jMeter๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ FastAPI โ†’ vLLM ๋ถ€ํ•˜ ํ…Œ์ŠคํŠธ๋ฅผ ํ†ตํ•ด ๋™์‹œ ์‚ฌ์šฉ์ž ์ˆ˜์— ๋”ฐ๋ฅธ TTFT, TPOT ๋“ฑ ์ง€ํ‘œ๋ฅผ ํ™•์ธํ•ฉ๋‹ˆ๋‹ค.

Point 4

vLLM ์„œ๋น„์Šค์˜ ๋ชจ๋‹ˆํ„ฐ๋ง

ํ”„๋กœ๋ฉ”ํ…Œ์šฐ์Šค & ๊ทธ๋ผํŒŒ๋‚˜ ๋Œ€์‹œ๋ณด๋“œ ํŒŒ์ดํ”„๋ผ์ธ์„ ๊ตฌ์ถ•ํ•˜์—ฌ vLLM ์„œ๋น„์Šค ์šด์˜์— ๋Œ€ํ•œ ๊ธฐ๋ณธ ์›๋ฆฌ๋ฅผ ํ„ฐ๋“ํ•ฉ๋‹ˆ๋‹ค.

Point 5

๋‹จ์ผGPU / ๋ฉ€ํ‹ฐ GPU ํ…Œ์ŠคํŠธ 

3๊ฐ€์ง€ ๊ธฐ๋ณธ ๋ฉ€ํ‹ฐ GPU (Pipeline Paralle, Tensor Parallel, Data Parallel)์— ๋Œ€ํ•œ ์‹ค์Šต์„ ํ†ตํ•ด ๋ฉ€ํ‹ฐ GPU๊ฐ€ ์™œ ํ•„์š”ํ•œ์ง€ ์ง์ ‘ ๋ˆˆ์œผ๋กœ ํ™•์ธํ•ฉ๋‹ˆ๋‹ค.

Point 6

LLM ๊ฐœ๋ฐœ ํŠธ๋ Œ๋“œ ์ •๋ณตํ•˜๊ธฐ

๋”ฅ์‹œํฌ์˜ MTP, Shared MoE, MLA, Engram ๋“ฑ ์ตœ์‹  ๊ธฐ๋ฒ•๊ณผ ์ถ”๋ก  ํšจ์œจํ™”๋ฅผ ์œ„ํ•ด ์ง„ํ–‰๋˜๊ณ  ์žˆ๋Š” LLM ๊ฐœ๋ฐœ ํŠธ๋ Œ๋“œ๋ฅผ ์†Œ๊ฐœํ•ฉ๋‹ˆ๋‹ค.

โœ… ๊ฐ•์˜์—์„œ ์‚ฌ์šฉํ•˜๋Š” ๋„๊ตฌ๋“ค




โœ… ์„œ๋ฒ„ ์‹ค์Šต ํ™˜๊ฒฝ ์•ˆ๋‚ด

vLLM ์‹œ์Šคํ…œ ๊ตฌ์ถ•์€ Runpod์„ ํ™œ์šฉํ•˜์—ฌ ์ง„ํ–‰๋ฉ๋‹ˆ๋‹ค. ๋˜ํ•œ Google Colab์˜ T4 GPU๋ฅผ ํ™œ์šฉํ•œ ์‹ค์Šต๋„ ๋ณ‘ํ–‰๋ฉ๋‹ˆ๋‹ค. T4 GPU๋Š” 15GB์˜ GPU ๋ฉ”๋ชจ๋ฆฌ๋ฅผ ์ œ๊ณตํ•ด์ฃผ๊ณ  ์žˆ์–ด์„œ Colab์—์„œ ๊ฐ€๋Šฅํ•œ ์‹ค์Šต์€ Colab์—์„œ ์ง„ํ–‰ํ•ฉ๋‹ˆ๋‹ค.

Runpod

OpenWebUI โ†’ FastAPI โ†’ Runpod ํ”Œ๋กœ์šฐ ๊ธฐ๋ฐ˜ ์‹ค์Šต ํ™˜๊ฒฝ์„ ๊ตฌ์„ฑํ•ฉ๋‹ˆ๋‹ค. Runpod ํด๋ผ์šฐ๋“œ์˜ GPU ์„œ๋ฒ„์— vLLM์„ ์˜ฌ๋ ค ์—ฌ๋Ÿฌ ์‹ค์Šต์„ ์ง„ํ–‰ํ•ฉ๋‹ˆ๋‹ค.

์‹ค์Šต์„ ์œ„ํ•ด ์•ฝ $10 ~ $20 ์ •๋„์˜ ์‹ค์Šต ๋น„์šฉ์ด ๋ฐœ์ƒํ•ฉ๋‹ˆ๋‹ค.


Google Colab

์ธ๊ณต์ง€๋Šฅ(AI) ์‹ค์Šต ํ‘œ์ค€ ํ™˜๊ฒฝ๊ณผ๋„ ๊ฐ™์€ Google Colab์€ Runpod ํ™˜๊ฒฝ์ด ํ•„์š”์—†๋Š” ๋‹จ์ˆœ ์‹ค์Šต์„ ์œ„ํ•ด ํ™œ์šฉํ•ฉ๋‹ˆ๋‹ค. Pro๊ฐ€ ์•„๋‹Œ ์ผ๋ฐ˜ ๋ฌด๋ฃŒ ํ‹ฐ์–ด๋กœ ์ง„ํ–‰ํ•˜๋ฉฐ T4 GPU๋ฅผ ํ™œ์šฉํ•ฉ๋‹ˆ๋‹ค.

โœ… ๋กœ์ปฌ ์‹ค์Šต ํ™˜๊ฒฝ ์•ˆ๋‚ด

vLLM ์„œ๋น„์Šค๋Š” Runpod์— ๋„์šฐ์ง€๋งŒ
๊ฐ•์˜๋ฅผ ์ˆ˜๊ฐ•ํ•˜์‹œ๋Š” ๋กœ์ปฌ ์ปดํ“จํ„ฐ์—๋„ OpenwebUI ๋ฐ FastAPI๊ฐ€ ๊ตฌ๋™๋ฉ๋‹ˆ๋‹ค.
๋”ฐ๋ผ์„œ ์•„๋ž˜ ์ˆ˜๊ฐ• ํ™˜๊ฒฝ์ด ๋งŒ์กฑ๋˜๋Š”์ง€ ํ™•์ธ ํ•ด์ฃผ์„ธ์š”!



Runpod๊ณผ Colab์„ ์ฃผ ์‹ค์Šต ํ™˜๊ฒฝ์œผ๋กœ ์‚ฌ์šฉํ•˜์ง€๋งŒ
๋กœ์ปฌ ํ™˜๊ฒฝ ๋‚ด OpenWebUI, FastAPI๋ฅผ ๋„์›Œ์„œ ์‹ค์Šตํ•˜๊ฒŒ ๋ฉ๋‹ˆ๋‹ค.

โš ๏ธ ๋ณธ ๊ฐ•์˜๋Š” vLLM์ด ์—…๋ฐ์ดํŠธ๋˜๋ฉด ๊ฐ•์˜๋„ ํ•จ๊ป˜ ์—…๋ฐ์ดํŠธ ๋ฉ๋‹ˆ๋‹ค.

vLLM์˜ ์—…๋ฐ์ดํŠธ ์†๋„๋Š” ๋งค์šฐ ๋น ๋ฆ…๋‹ˆ๋‹ค. ๊ทธ๋Ÿฌ๋‚˜ ์•„์ง Major ๋ฒ„์ „์€ 0๋ฒ„์ „๋Œ€์— ๋จธ๋ฌผ๋Ÿฌ ์žˆ์Šต๋‹ˆ๋‹ค.
ํ•˜์ง€๋งŒ ๋งŽ์€ ๊ธฐ์—…์—์„œ ์‚ฌ์‹ค์ƒ์˜ ํ‘œ์ค€์ฒ˜๋Ÿผ vLLM์„ ์ถ”๋ก  ์—”์ง„์œผ๋กœ ์‚ฌ์šฉํ•˜๊ณ  ์žˆ์Šต๋‹ˆ๋‹ค. 
ํ˜„์žฌ LLM์˜ ์ฃผ์ถ•์„ ์ด๋ฃจ๋Š” ํŠธ๋žœ์Šคํฌ๋จธ ๋ชจ๋ธ ๋ฟ๋งŒ ์•„๋‹ˆ๋ผ ๋Œ€์•ˆ์œผ๋กœ ๋“ฑ์žฅํ•œ Mamba ์•„ํ‚คํ…์ฒ˜๊นŒ์ง€ vLLM์—์„œ ์ง€์›ํ•˜๊ณ  ์žˆ์œผ๋ฉฐ Multi Token Prediction ๊ณผ ๊ฐ™์ด ๋ชจ๋ธ์— ์ƒˆ๋กœ์šด ๊ธฐ๋Šฅ์ด ์ถ”๊ฐ€๋˜๋ฉด ์ด๋ฅผ ๋’ท๋ฐ›์นจํ•˜๊ธฐ ์œ„ํ•ด vLLM์€ ๋งค๋ฒˆ ์—…๋ฐ์ดํŠธ ๋ฉ๋‹ˆ๋‹ค. 
๋ณธ ๊ฐ•์˜ ๋˜ํ•œ ์ƒˆ๋กœ์šด vLLM์˜ ๊ธฐ๋Šฅ ๋˜๋Š” ์ƒˆ๋กœ์šด ๋ชจ๋ธ ํƒ€์ž…์ด ๋‚˜์˜ค๋ฉด ๊ฐ•์˜๊ฐ€ ์—…๋ฐ์ดํŠธ ๋  ์˜ˆ์ •์ž…๋‹ˆ๋‹ค. 

LLM์˜ ํŠธ๋ Œ๋“œ๋ฅผ ๋†“์น˜์ง€ ๋งˆ์„ธ์š”. 


์ด๋Ÿฐ ๋ถ„๋“ค๊ป˜
์ถ”์ฒœ๋“œ๋ ค์š”

ํ•™์Šต ๋Œ€์ƒ์€
๋ˆ„๊ตฌ์ผ๊นŒ์š”?

  • AI ์—”์ง€๋‹ˆ์–ด๋ฅผ ๋ชฉํ‘œ๋กœ LLM ์„œ๋น™ ๊ธฐ์ˆ ์„ ์ฒด๊ณ„์ ์œผ๋กœ ํ•™์Šตํ•˜๊ณ ์ž ํ•˜๋Š” ์ž…๋ฌธ์ž

  • ๋ณต์žกํ•œ ์ˆ˜์‹ ์—†์ด ํŠธ๋žœ์Šคํฌ๋จธ์™€ ์–ดํ…์…˜ ์›๋ฆฌ๋ฅผ ์‹ค๋ฌด ๊ด€์ ์—์„œ ์ดํ•ดํ•˜๊ณ  ์‹ถ์€ ๊ฐœ๋ฐœ์ž

  • GPU ์ตœ์ ํ™”์™€ ๋ฉ€ํ‹ฐ GPU ํ™˜๊ฒฝ์—์„œ AI ์‹œ์Šคํ…œ์„ ๊ตฌ์ถ•ํ•˜๊ณ ์ž ํ•˜๋Š” ๋ฐฑ์—”๋“œ/์ธํ”„๋ผ ์—”์ง€๋‹ˆ์–ด

์„ ์ˆ˜ ์ง€์‹,
ํ•„์š”ํ• ๊นŒ์š”?

  • ํŒŒ์ด์ฌ ๊ธฐ๋ณธ ๋ฌธ๋ฒ•์— ๋Œ€ํ•œ ์ดํ•ด (๋ณ€์ˆ˜, ํ•จ์ˆ˜, ์กฐ๊ฑด๋ฌธ ๋“ฑ)

  • git ์— ๋Œ€ํ•œ ๊ธฐ๋ณธ์ ์ธ ์‚ฌ์šฉ๋ฒ•

์•ˆ๋…•ํ•˜์„ธ์š”
๊น€ํ˜„์ง„์ž…๋‹ˆ๋‹ค.

1,391

๋ช…

์ˆ˜๊ฐ•์ƒ

93

๊ฐœ

์ˆ˜๊ฐ•ํ‰

233

๊ฐœ

๋‹ต๋ณ€

4.9

์ 

๊ฐ•์˜ ํ‰์ 

3

๊ฐœ

๊ฐ•์˜

์•ˆ๋…•ํ•˜์„ธ์š”.

๋Œ€๊ธฐ์—… ๋ฐ์ดํ„ฐ & AI ๋ถ„์•ผ์—์„œ ์ผํ•˜๊ณ  ์žˆ๋Š” 17๋…„์ฐจ ํ˜„์ง์ž์ž…๋‹ˆ๋‹ค.

์ •๋ณด๊ด€๋ฆฌ๊ธฐ์ˆ ์‚ฌ๋ฅผ ์ทจ๋“ํ•œ ์ดํ›„ ์ง€๊ธˆ๊นŒ์ง€ ์–ป์€ ์ง€์‹์„ ๋งŽ์€ ์‚ฌ๋žŒ๋“ค์—๊ฒŒ ๊ณต์œ ํ•˜๊ณ ์ž ์ปจํ…์ธ  ์ œ์ž‘ํ•˜๊ณ  ์žˆ์Šต๋‹ˆ๋‹ค.

๋ฐ˜๊ฐ‘์Šต๋‹ˆ๋‹ค. :)

 

Contact: hjkim_sun@naver.com

๋”๋ณด๊ธฐ

์ปค๋ฆฌํ˜๋Ÿผ

์ „์ฒด

54๊ฐœ โˆ™ (13์‹œ๊ฐ„ 33๋ถ„)

ํ•ด๋‹น ๊ฐ•์˜์—์„œ ์ œ๊ณต:

์ˆ˜์—…์ž๋ฃŒ
๊ฐ•์˜ ๊ฒŒ์‹œ์ผ: 
๋งˆ์ง€๋ง‰ ์—…๋ฐ์ดํŠธ์ผ: 

์ˆ˜๊ฐ•ํ‰

์•„์ง ์ถฉ๋ถ„ํ•œ ํ‰๊ฐ€๋ฅผ ๋ฐ›์ง€ ๋ชปํ•œ ๊ฐ•์˜์ž…๋‹ˆ๋‹ค.
๋ชจ๋‘์—๊ฒŒ ๋„์›€์ด ๋˜๋Š” ์ˆ˜๊ฐ•ํ‰์˜ ์ฃผ์ธ๊ณต์ด ๋˜์–ด์ฃผ์„ธ์š”!

๊น€ํ˜„์ง„๋‹˜์˜ ๋‹ค๋ฅธ ๊ฐ•์˜

์ง€์‹๊ณต์œ ์ž๋‹˜์˜ ๋‹ค๋ฅธ ๊ฐ•์˜๋ฅผ ๋งŒ๋‚˜๋ณด์„ธ์š”!

๋น„์Šทํ•œ ๊ฐ•์˜

๊ฐ™์€ ๋ถ„์•ผ์˜ ๋‹ค๋ฅธ ๊ฐ•์˜๋ฅผ ๋งŒ๋‚˜๋ณด์„ธ์š”!

์–ผ๋ฆฌ๋ฒ„๋“œ ํ• ์ธ ์ค‘

โ‚ฉ42,900

70%

โ‚ฉ143,000