반응형

자연어란?

  • 자연어(Natural Language)는 사람과 사람이 일상 생활에서 서로 대화하는데 사용하는 언어를 뜻함

자연어 처리

  • 자연어의 의미를 분석하여 컴퓨터가 처리할 수 있도록 하는 일
  • 전처리를 위한 형태소 분석, 개체명 인식, 구문 분석부터 음성 인식, 내용 요약, 번역, 사용자의 감성 분석, 텍스트 분류 작업(스팸 메일 분류, 뉴스 기사 카테고리 분류), 질의 응답 시스템, 챗봇 등의 응용분야에 활용이 됨

 

전처리 이해

  • 토큰화

    • 주어진 데이터를 토큰(Token)이라 불리는 단위로 나누는 작업
    • 토큰이 되는 기준은 다를 수 있음(어절, 단어, 형태소, 음절, 자소 등)
  • 정제

    • 불필요한 데이터(Noise data)를 제거하는 작업
  • 정규화

    • 표현 방법이 다른 단어들을 통합시켜서 같은 단어로 만들어주는 작업
  • 문장 토큰화

    문장분리

  • 단어 토큰화

    구두점 분리, 단어 분리

    “Hello, World!” -> “Hello”, “,”, “World”, “!”

 

Task의 종류

  • Part-of-Speech 태깅
  • 형태소 분석(한글)
  • 개체명 인식
  • 구문 분석
  • 상호 참조
  • 감정 분석
  • 번역
  • 질의 응답
  • 기계 독해
  • 텍스트 생성
  • 텍스트 요약
  • 대화 시스템(챗봇)
  • 언어 모델

 

형태소 분석

  • 형태소
    • 의미가 있는 최소 단위
    • 문법적, 관계적은 뜻을 나타내는 단어 또는 단어의 부분
  • 단어를 구성하는 각 형태소를 분리하고 기본형 및 품사 정보를 추출

예시) 회사는 서울시 강남구에 위치하고 있습니다.

회사/NNP+는/JX 서울시/NNP 강남구/NNP+에/JKB 위치/NNG+하/XSV+고/EC 있/VX+습니다/EF+./SF

 

개체명 인식

  • 개체명
    • 사람이름, 회사이름, 지명, 영화제목, 날짜, 시간 등
  • 개체명 인식
    • 텍스트에서 개체명을 찾아서 태깅하는 것

예시) 회사는 서울시 강남구에 위치하고 있습니다. 회사<OG>, 서울시<LC>, 강남구<LC>

 

구문 분석

  • 문장을 이루고 있는 구성 성분으로 분해하고, 위계 관계를 분석하여 문장의 구조를 결정하는 것

 

기계 독해

  • 주어진 문서를 빠르게 이해하고 문서에 기반하여 질문에 대한 답을 찾아내는 기술

 

언어 모델(Language Model)

  • 언어라는 현상을 모델링하고자 단어 시퀀스(또는 문장)에 확률을 할당하는 모델
  • 언어모델이 주어지면, 확률분포를 가지고 단어의 시퀀스를 뽑을 수(sample) 있으며, 텍스트를 생성할 수 있다는 뜻으로 생성 모델이라고도 불림
  • 언어 모델을 만드는 방법은 통계를 활용하는 방법과, 인공 신경망을 이용한 방법이 있음
앞에 있는 입력을 가지고 뒤에 뭐가 나올지 예측하는 것
- BERT, GPT

언어모델의 예시

 

 

반응형

+ Recent posts