091
[AI] LLM 기초(1): Transformer Architecture, Tokenization, 모델 평가 지표, 추적 최적화 본문
[AI] LLM 기초(1): Transformer Architecture, Tokenization, 모델 평가 지표, 추적 최적화
공구일 2026. 5. 14. 15:421. LLM
- LLM(Large Language Models)은 대량의 텍스트 데이터를 학습하여 인간처럼 언어를 이해하고 생성하는 AI 모델로, OpenAI의 GPT 계열, Google의 Gemini, Meta의 Llama 등이 있습니다.
-> LLM의 가장 큰 특징인 Transformer Architecture는 RNN/LSTM의 방식의 한계를 극복한 구조입니다.

• RNN(Recurrent Neural Network)는 예전 자연어 AI 구조로, 한 글자/한 단어씩 순서대로 문자을 읽었습니다. 이전 정보를 기억하면서 다음 단어를 처리하다보니 긴 문장은 기억을 잘 못하고 속도가 느리다는 단점이 있었습니다.
• LSTM(Long Short-Term Memory)는 RNN을 개선한 구조로, 중요한 정보를 오래 기억하는 방식으로 변화하였습니다. 예를 들면 "철수는 배가 고프다. 그래서 그는 밥을 먹었다"와 같은 문장에서 그가 철수라는 걸 더 오래 기억하는 구조가 바로 LTSM입니다. 하지만 여전히 순차 처리이고 병렬 처리가 어렵다는 한계가 있었습니다.
• Transformer Architecture는 현재 GPT와 같은 LLM의 핵심 구조로, 이전의 RNN/LSTM처럼 하나씩 읽는 게 아니라 문장 전체를 한 번에 보는 특징이 있습니다. 그러다보니 문장 전체 단어 관계를 동시에 분석이 가능하며, 훨씬 빠르고 긴 문맥 이해에 용이하며, GPU 병렬처리가 가능합니다.
| Encoder-only(이해 특화) | Decoder-only(생성 특화) | Encoder-Decoder(이해+생성) |
| BERT,RoBERTa 텍스트 분류, 감정 분석 | GPT, Claude, 텍스트 생성, 챗봇, 코딩 | T5, BART, 번역, 요약 |
-> ChatGPT, Claude는 대부분 Decoder-only 구조로, 앞 내용을 보면서 다음 토큰을 예측하는 방식으로 텍스트를 생성합니다.
-> Attention mechanism은 트랜스포머 아키텍처의의 핵심 기술로, 어떤 단어가 중요한지 집중하는 기능입니다. "철수는 배가 고프다. 그래서 그는 밥을 먹었다"와 같은 문장에서 그가 누구인지를 찾기 위해 다른 단어들과의 관련도를 계산합니다. 그와 철수의 연결 강도를 계산하는 메커니즘이 바로 어텐션 메커니즘입니다.
Q. LSTM 내부 메커니즘과 Transfomer의 Attention 메커니즘의 차이는?A. 두 아키텍처의 핵심 메커니즘은 각각 Gate(망각/입력/출력 게이트)와 Attention(Self-Atttention)으로 다릅니다. LSTM은 기억을 얼마나 유지/삭제하는지를 Gate로 Transformer는 문장 속 어떤 단어를 중요하게 여길지를 Attention으로 계산합니다. 아까 예시로 더 자세히 설명해보겠습니다.
"철수는 배가 고프다. 그래서 그는 밥을 먹었다"
• Gate 메커니즘은 내부 메모리에 철수라는 사람 등장 정보를 저장해두고 뒤에서 그를 만났을 때 저장했던 철수 정보를 꺼냅니다.
• Attention 메커니즘은 총 문장을 보고 철수<->그, 배<->그의 관련도 점수를 계산하여 필요한 순간에 관련 단어를 직접 찾아봅니다.
- LLM의 동작원리는 토큰화(Tokenization)로, 텍스트를 글자나 단어 단위가 아닌 토큰 단위로 처리합니다. 이러한 방식은 BPE(Byte Pair Encoding)로 자주 등장하는 문자 조합을 하나의 토큰으로 합치는 방식으로, 영어보다 한국어를 사용할 때 토큰이 더 많이 사용돼 비용이 더 많이 사용됩니다. LLM의 메모리는 무한하지 않기 때문에 한 번에 볼 수 있는 토큰 수에 제한이 있고 그게 바로 Context Window입니다.
- LLM의 모델을 평가하기 위해 언어 이해 능력, 문제 해결 능력, 코딩 능력, 그리고 환각 여부 등을 수치화하여 비교합니다.
| 지표 | 설명 | 수치의미 |
| Perplexity | 모델이 텍스트를 얼마나 잘 예측하는지(예측의 혼란도) | 낮을수록 좋음 |
| MMLU | 57개 분야 지식 테스트(수학, 법, 의학 등) | 높을수록 좋음 |
| HumanEval | 코딩 문제 해결 능력 | 높을수록 좋음 |
| Hallucination Rate | 없는 사실을 지어내는 비율 | 낮을수록 좋음 |
- 추적 최적화(Inference Optimization)는 GPU 메모리 사용량, 응답 속도, 서버 비용 등의 문제가 큰 LLM을 빠르고 저렴하게 실행하기 위한 기술을 말합니다.
-> Quantization(양자화)는 모델의 숫자 표현 정밀도를 줄이는 기술로, 원래 AI 모델은 보통 32bit 부동소수점(FP32)로 계산을 합니다. 이를 사용하면 메모리 사용량이 크고, 연산 속도가 느리기 때문에 FP16, INT8 등처럼 더 작은 숫자 형식으로 압축합니다.
-> KV Caching은 트랜스포머 모델의 추론 속도를 향상시키기 위해 사용되는 메모리 최적화 기법입니다. Transfomer에서는 새로운 단어를 생성할 때마다 이전 문맥을 계속 다시 계산해야합니다. 예를 들어, "오늘 날씨가"까지를 계산한 상태에서, 다음 단어를 생성하기 위해서는 "오늘 날씨가 좋"을 계산할 때 다시 앞부분을 계산해야하지만, KV Cache를 사용할 때는 반복되는 부분을 저장해두고 재사용합니다.
-> Speculative Decoding은 작은 모델과 큰 모델을 함께 사용하는 최적화 기술로, 작은 모델로 초안을 생성한 뒤 큰 모델로 빠르게 검증하는 방식입니다.
'Computer Science > AI' 카테고리의 다른 글
| [AI] LLM 기초(3): Function Calling, LangChain/LangGraph (0) | 2026.05.17 |
|---|---|
| [AI] LLM 기초(2): 프롬프트 엔지니어링, 파인튜닝, RAG (0) | 2026.05.16 |
