MoE (Mixture-of-Experts)
MoE OverviewMoE ๋ชจ๋ธ ๋น๊ต ๋ฐ ์ฃผ์ ๊ธฐ๋ฒ ์ ๋ฆฌ๋ถ์ฐ ํ๋ จ ๊ธฐ์ด ๊ฐ๋
์ ๋ฌธ๊ฐ ๋ณ๋ ฌํ (Expert Parallelism)[Optional] NVSHMEM (NVIDIA Shared Memory)๋ถ์ฐ ํ๋ จ์์์ AWS ๋คํธ์ํน: EFA (Elastic Fabric Adapter)AWS์์ MoE ๋ชจ๋ธ์ ํจ์จ์ ์ผ๋ก ํ๋ จํ๊ธฐ๋ถ์ฐ ํ๋ จ ์ ๋ตML ์์ง๋์ด์ ์ธํ๋ผ ์์ง๋์ด ๊ฐ ๋ถ์ฐ ํ๋ จ ํ์
๊ฐ์ด๋ ๋ฐ ์ฒดํฌ๋ฆฌ์คํธ์ถ๋ก ์ต์ ํ ๊ฐ์ (Prefill๊ณผ Decoding์ ๋ฐ๋ฅธ ์ฃผ์ ๊ธฐ๋ฒ ์ ๋ฆฌ)SageMaker Large Model Inference (LMI)๋ฅผ ํ์ฉํ ๋ชจ๋ธ ์๋น ๋ฐ ์ต์ ํ ๊ฐ์ด๋