In수

Music GIF

Natural Language Processing - 01 - 2025년03월05일


개요

  • 자연어

    사람들이 일상생활에서 자연스럼게 사용하는 언어

  • 자연어 처리

    컴퓨터가 자연어의 의미를 분석하여 이해하고 생성할 수 있도록 만들어주는 기술

  • 자연어 처리가 어려운 이유
    1. 표현의 중의성
    2. 고유 명사 처리
    3. 사전 미등록어 처리
    4. 문맥에 따른 모호성
    5. 규칙의 예외성
  • 한국어에서 자연어 처리가 더 어려운 이유
    1. 교착어 : 어간에 접사가 붙어 단어를 이루고 의미와 문법적 기능이 정해짐
    2. 단어 순서 및 주어 생략
    3. 띄어쓰기
    4. 평서문과 의문문
  • 활용
    1. 문법 교정
    2. 음성 인식
    3. 기계 번역
    4. Real-Time Translation
    5. 정보 추출 - 검색
    6. 질의응답
    7. 문서 요약
    8. AI Chat-Bot
    9. AI X Creation
    10. 자동완성
    11. 검색엔진
    12. 정보 요약

언어학의 하위분야

언어의 구성요소

  • 언어의 구성요소
    1. 형태 : 실체인 의미를 물리적으로 표현할 수 있는 방법
    • 음운론 : 말소리 연구
    • 형태론 : 형태소, 단어 연구
    • 통사론 : 문장 연구
      1. 내용 : 언어가 의미하는 실제의미
    • 의미론 : 단어, 문장의 의미 연구
      1. 사용 : 언어를 사용하는 상황
    • 화용론 : 상황에 따라 달라지는 단어나 문장의 의미 연구

형태론

  • 형태론
    1. 언어에서 의미를 갖는 가장 기본단위인 형태소를 분석
    2. 형태소 간의 상관관계를 규명하는 학문
  • 형태소
    1. 의미를 갖는 언어 단위 중 가장 작은 단위
    2. 의미 혹은 문법적 기능의 최소단위
  • 이형태 : 한 형태소에 대한 여러 개의 변이 형태를 가질 수 있음

통사론

단어가 결합하여 구와 문장을 형성하는 규칙/방법을 연구하는 학문

  • 문법 규칙
    1. 언어의 올바른 어순을 결정함
    2. 단어 그룹의 의미와 단어의 배열사이의 관계를 정의함
    3. 주저와 목적어 같은 문장 내의 문법적 관계를 명시함
    4. 문장이나 구문이 난해할 때 단어의 결합이 의미와 어떻게 연관되는지를 설명함
  • 심층구조 : 화자가 문장에 대해 갖는 추상적인 정보를 담은 구조
  • 표층구조 : 실생활에서 사용하는 단어들의 규칙적인 구조

  • 구조적 모호성
    1. 두개의 서로 다른 심층 구조
    2. 구조적 모호성이 있는 표층구조
  • 반복
    1. 문법규칙은 반복이라는 중요한 속성을 가짐
    2. 문장 속으로 다른 문장을 넣을 수 있음
  • 구 구조규칙

    특정 구의 구조가 하나 또는 특정된 순서로 늘어선 여러 개의 구성요소들로 이루어진다는 점을 표현

  • 어휘규칙
    1. 구 구조규칙은 구조를 생성함
    2. 어휘를 구 구조규칙의 기본 단위인 품사기호로 변환하는 규칙이 필요함

의미론

의미론은 단어, 구, 그리고 문장의 의미를 연구하는 분야

  • 개념적 의미 : 단어가 사용될 때 전달되는 기본적, 본질적 의미 성분
  • 연상적 의미 : 연상 또는 함축

  • 의미자질(semantic features)
    1. 단어의 의미를 자질들의 나열로 표현하는 방법
    2. 단어의 의미를 차별화하기 위한 기본적인 구성요소
    3. 단어 의미의 일부분을 자질의 이름과 (+), (-) 기호를 조합하여 표현
  • 의미역(semantic roles)

    개별 단어가 가지는 의미자질 분석 이외에, 문장에서 각 단어의 의미적 역할을 분석
    행위자 : 특정 행위를 하는 주체
    대상자 : 특정 행위에 포함되거나 영향을 받는 개체

  • 관계
    1. 동의 관계 vs 반의 관계
    2. 상하 관계
    3. 동음이철어 : 서로 다른 단어가 동일한 발음을 가지는 경우
    4. 동음이의어 : 동일한 형태(발음)의 단어가 전혀 관련성이 없는 서로 다른 의미를 가지는 경우
    5. 다의어
    6. 연어(collocation) : 문장, 문서에서 두 단어가 같이 출현하는 경우가 많은 경우

화용론

“보이지 않는” 의미 또는 실제로 말하거나 쓰지 않았을지라도 화자가 의미하는 바에 대한 연구

  • 화용 원칙

    대화할 때 “보이지 않는” 의미를 인식하기 위하여, 화자는 반드시 다수의 가정과 기대에 의지하여야 함

  • 문맥
    1. 물리적인 문맥 vs 언어적인 문맥
  • 직시 표현 : 화자의 문잭(특히 물리적 문맥)을 알아야 해석할 수 있는 표현
  • 지시 : 화자가 청자로 하여금 무언가를 알아채도록 언어를 사용하는 하나의 행위
  • 추론 : 발화된 내용과 그것의 의미를 연결시키기 위해 청자가 부가적인 정보를 이용하여 해석하는 과정
  • 대용어 : 이미 소개된 실체에 뒤따르는 지시를 대용어라고 함
  • 전제 : 화자가 가정하는 것이 진리이거나 청자(또는 독자)가 알고 있는 사실이라는 것을 전제라고 표현
  • 화행 : 언어를 통해서 이루어지는 행위, 화자의 발화화 함께 취해지는 행위
    1. 직접 화행
    2. 간접 화행

담화론

텍스트와 대화 속에 나타난 언어를 연구하는 학문

  • 결속(Cohesion)
  • 일관성(Coherence)
  • 대화 분석
  • 차례 얻기
  • 협조의 원칙
    1. 양의 격률
    2. 질의 격률
    3. 상관성의 격률
    4. 방법의 격률
  • 함의