알라딘

헤더배너
상품평점 help

분류

이름:이기창

최근작
2021년 12월 <Do it! BERT와 GPT로 배우는 자연어 처리>

한국어 임베딩

컴퓨터는 '계산기'에 불과하다. 컴퓨터는 사람의 말, 즉 자연어(natural language)를 바로 이해할 수 없다. 자연어를 100% 이해하는 인공지능이 등장하더라도 그 이해(understanding)의 본질은 연산(computation)이나 처리(processing)다. 컴퓨터가 자연어를 처리할 수 있게 하려면 자연어를 계산 가능한 형식으로 바꿔줘야 한다. 임베딩(embedding)은 자연어를 숫자의 나열인 벡터(vector)로 바꾼 결과 혹은 그 일련의 과정 전체를 가리키는 용어다. 단어나 문장 각각을 벡터로 변환해 벡터 공간(vector space)에 '끼워 넣는다(embed)'는 취지에서 임베딩이라는 이름이 붙었다. 컴퓨터는 임베딩을 계산, 처리해 자연어 형식의 답변을 출력함으로써 인간과 상호작용할 수 있게 된다. 그렇기 때문에 임베딩은 컴퓨터가 자연어를 이해하도록 하는 첫 관문으로 매우 중요한 기능을 한다. 임베딩에는 말뭉치(corpus)의 의미, 문법 정보가 응축돼 있다. 임베딩은 벡터이기 때문에 사칙연산이 가능하며, 단어/문서 관련도(relevance) 역시 계산할 수 있다. 최근 들어 임베딩이 중요해진 이유는 따로 있다. 바로 전이 학습(transfer learning) 때문이다. 전이 학습이란 특정 문제를 풀기 위해 학습한 모델을 다른 문제를 푸는 데 재사용하는 기법을 의미한다. 예컨대 대규모 말뭉치를 미리 학습(pretrain)한 임베딩을 문서 분류 모델의 입력값으로 쓰고, 해당 임베딩을 포함한 모델 전체를 문서 분류 과제를 잘할 수 있도록 업데이트(fine-tuning)하는 방식이 바로 그것이다. 물론 전이 학습은 문서 분류 이외의 다양한 다른 과제에도 적용할 수 있다.

가나다별 l l l l l l l l l l l l l l 기타
국내문학상수상자
국내어린이문학상수상자
해외문학상수상자
해외어린이문학상수상자