안녕하세요!😊
최근까지 테디노트 RAG 비법노트 정리와 Agent 관련 글을 열심히 쓰고 있었는데, 오늘은 잠시 그 연재를 멈추기로 했습니다.
이유는 단 하나—요즘 제가 정말 강하게 끌리는 분야가 생겼기 때문입니다.
바로 LLM(대규모 언어 모델) 그 자체를 깊이 있게 공부하는 일입니다.

알고 보니, 내가 진짜 관심 있는 건 “모델 내부”였다
Transformer가 어떻게 작동하는지, Attention이 무엇인지,
이런 기본적인 구조는 이미 이해하고 있습니다.
그런데 프로젝트를 진행하면서 깨달은 것이 있습니다.
“내가 진짜 알고 싶은 건, LLM이 어떻게 훈련되고,왜 이런 응답을 하고,어떤 요소들이 성능을 좌우하는가 하는 부분이구나.”
RAG, Agent, LangChain—all fun.
하지만 결국 근본은 언어 모델 자체를 이해하는 일이라는 생각이 점점 강해졌습니다.
🔥 앞으로는 이런 내용들을 탐구하려고 합니다
단순한 Transformer 개념이 아니라,
“실제 LLM이 어떻게 구성되고 운영되는지”에 초점을 맞춥니다.
1) LLM의 학습 과정 깊이 이해하기
- Pretraining 실제 데이터 구성 방식
- SFT가 모델에 주는 영향
- RLHF / DPO가 왜 모델의 성향을 바꾸는가
- Instruction-following 능력의 원천
2) Parameter-efficient Training(PEFT)의 실제 영향
- LoRA / QLoRA가 어떤 레이어를 바꾸는가
- 랭크(rank) 변화가 성능에 어떤 영향을 주는가
- Adapter 방식과의 차이
3) 모델별 아키텍처 차이 분석
- LLaMA vs Qwen vs Mixtral vs GPT 구조 비교
- RoPE 스케일링 방식 차이
- GQA(그룹드 쿼리 어텐션)가 왜 메모리를 아끼는지
- Mistral이 왜 효율적인지를 수식 없이 이해하기
4) 실제 모델 실험
- 다양한 한국어 모델 벤치마크
- hallucination 분석
- embedding 품질 비교(BGE vs e5 vs OpenAI)
- 미니 데이터로 파인튜닝 실험
5) LLM 생태계 흐름 이해
- 오픈소스 모델 발전 추세
- 상용 모델이 선택하는 방향성
- 한국 모델이 갖는 특징과 과제
- Reasoning 모델..!
그래서 지금 글쓰기 방향을 잠시 바꿉니다
RAG와 Agent는 앞으로도 계속 다룰 예정입니다.
하지만 당분간은 제가 진짜 궁금한 것, 즉 “LLM이 어떻게 만들어지고 움직이는지”에 집중하려 합니다.
이건 “기초로 돌아가는 것”이 아니라 제가 가장 흥미를 느끼는 분야로 자연스럽게 확장하는 과정이라고 생각합니다.
📝 마무리
지금 제 관심은 단순히 LLM 사용 방법이 아니라
LLM 그 자체에 있습니다.
“모델을 깊이 이해해야 진짜 좋은 RAG도, 좋은 Agent도 만든다.”
앞으로는 LLM 연구·엔지니어링 관점의 글들을 중심으로 더 풍부한 내용을 정리해 나갈 계획입니다.
관심 있는 분들은 함께 탐구합시다.
읽어주셔서 감사합니다 🙏
'AI > LLM' 카테고리의 다른 글
| FLOPs: 딥러닝 모델에서 왜 중요한가? (0) | 2025.09.19 |
|---|---|
| GLU vs SwiGLU: LLM에서 왜 SwiGLU가 더 주목받는가? (0) | 2025.09.19 |