Natural Language Processing - 03 - 2025년03월07일
자연어처리의 역사
규칙기반 및 통계기반 자연어처리
- 규칙 기반 NLP
- Rule에 맞게 처리하는 시스템
- Rule 생성을 위해서는 Task에 대한 전문 지식 필요
- 적은 양의 데이터로 일반화 기능
- 결론 도출의 논리적 추론 가능
- 학습에 필요한 데이터가 비교적 적게 필요
- 이를 제작한 전문가의 실력을 넘어서기 매우 어려움
- 해당 전문가의 오류를 동일하게 반복
- 규칙 구축에 많은 시간과 비용 소요
- Toy task에 주로 적용되었음
- 통계 기반 NLP
- 대량의 텍스트 데이터로 통계를 내어 단어를 표현
- “모두 (군중, 여러분)”가 “무의식적”으로 생산한 대량의 데이터(=빅데이터)를 활용
- 통계적 언어모델(SLM)
이전 단어들로부터 다음 단어에 대한 확률을 구함 (확률기반)
- 비교
Rule Based NLP |
Statistical NLP |
Flexible |
Easy to scale |
Easy to debug |
Learn by itself |
Doesn’t require much training |
Fast development |
High precision |
High coverage |
기계학습 및 딥러닝기반 자연어처리
- ML & DL in NLP
- “전문가” + “모두(군중, 여러분)” 공존의 시대
- 학습에 사용할 데이터의 질이 좋고 양이 많으면 인간의 실력을 넘어설 수 있음
- 인간이 생각하지 못한 새로운 방법을 사용할 수 있음
- Data hungry
- 결과에 대한 해석의 어려움
- 논리적 추론이 아닌 귀납적 근사에 의한 결론 생성
- 모델 : Neural Machine Translation
뉴럴심볼릭기반 자연어처리
전문가의 데이터를 전면 활용
사전에 구축된 상식 정보를 지식 그래프 형태로 구축하여 딥러닝 모델에 주입
Symbolic Approaches |
Neural Models |
기호를 통해 개념을 정의하고 일정한 논리적 규칙에 따라 추론 기능 |
대량의 데이터를 이용해 다층 구조로 이루어진 인공신경망을 통해 귀납적 추론 가능 |
일반화 능력이 우수하며, 결론에 대한 설명이 가능한 방법 |
미분 가능한 방식으로 학습이 가능하며 높은 정확도를 나타냄 |
불안전한 KB에 의존하며 논리적 규칙에 의해 정의된 지식과 새롬게 생성되는 지식 간의 연결이 어려움 |
학습을 위해 대량의 데이터가 요구됨 |
미분 가능한 방식으로 학습이 어려움 |
학습 도메인에 귀속되어 전이 능력 부족 현상 |
Toy Task 위주의 적용이 불가피함 |
결론 도출에 대한 설명력 부족 & 외부지식을 활용하기 어려움 |
- KB : Knowledge Base
- KGBERT
- Common Sense Knowledge Graph
- 인간의 상식이나 지식에 기초해 작은 학습데이터로 많은 추론을 이끔
- 상식을 entity, relation을 활용한 지식 베이스 그래프 형태로 표현
- Multi-hop Question Answering
- 질문과 함께 거대한 지식 코퍼스가 주어졌을 때 답을 찾기 위해 말뭉치에 다중추론 점프(홈)를 수행하여 질문에 답하는 것
- Entity 중심의 relation graph를 활용해 Multi-hop reasoning이 필요한 Question에 대한 응답을 추출
Pretrain-Finetuning 기반 자연어처리
- Language Model : 대중이 만든 데이터(pre-train) + 전문가가 만든 데이터(Fine-tune)
- Pretraining : 내가 원하는 task 이외의 다른 task의 데이터를 이용하여 주어진 모델을 먼저 학습하는 과정
- Finetuning : 사전학습된 모델을 원하는 task에 해당하는 데이터, 학습 방식으로 다시한번 재학습 시키는 과정
- Language Model
- Seq2Seq -> Attention + Seq2Seq -> Transformer -> GPT-1 -> BERT -> GPT-2
- XLNet -> RoBERTa -> MASS -> BART -> MT - DNN -> T5
LLM기반 자연어처리
데이터 양보다 모델 사이즈가 성능에 일관적으로 더 큰 영향을 미치며, 큰 모델이 좋음을 증명
- Foundation Models
- In-Context Few-Shot Learning & Prompt Learning
- 예시
- OpenAI의 GPT3
- Google의 PaLM(Scaling Language Modeling with Pathways)
- Meta의 LLaMA & LLaMA2
- Open AI의 DALL-e
- Kakao Brain 의 KoGPT
- Kakao Brain 의 Min DALL-E
- Naver AI Lab 의 HyperCLOVA
- LG AI Research 의 EXAONE
- ChatGPT
- Supervised Fine-tuning 과 Reinforce Learning with Human Feedback 으로 학습
- 사람의 지시에 잘 따르며 수많은 task들을 잘 수행하는, 사람이 원하는 방향의 응답을 생성하는 AI