알라딘

자연어 처리 모델의 성능을 높이는 핵심 비결, <한국어 임베딩>. 임베딩(embedding)은 자연어를 숫자의 나열인 벡터로 바꾼 결과 혹은 그 일련의 과정 전체를 가리키는 용어다. 단어나 문장 각각을 벡터로 변환해 벡터 공간에 '끼워 넣는다(embed)'는 취지에서 임베딩이라는 이름이 붙었다. 컴퓨터가 자연어를 처리할 수 있게 하려면 자연어를 계산 가능한 형식인 임베딩으로 바꿔줘야 한다.

임베딩은 컴퓨터가 자연어를 이해하도록 하는 첫 관문으로 매우 중요한 기능을 한다. 자연어 처리 모델의 성능은 임베딩이 좌우한다고 해도 과언이 아니다. 이 책에서는 다양한 임베딩 기법을 일별하고 한국어 데이터 전처리, 임베딩 구축에 이르는 전 과정을 튜토리얼 방식으로 소개한다. Word2Vec 등 단어 수준 기법부터 ELMo, BERT 등 문장 수준 임베딩까지 다룬다.

1장. 서론
1.1 임베딩이란
1.2 임베딩의 역할
1.2.1 단어/문장 간 관련도 계산
1.2.2 의미/문법 정보 함축
1.2.3 전이 학습
1.3 임베딩 기법의 역사와 종류
1.3.1 통계 기반에서 뉴럴 네트워크 기반으로
1.3.2 단어 수준에서 문장 수준으로
1.3.3 룰 → 엔드투엔드 → 프리트레인/파인 튜닝
1.3.4 임베딩의 종류와 성능
1.4 개발 환경
1.4.1 환경 소개
1.4.2 AWS 구성
1.4.3 코드 실행
1.4.4 버그 리포트 및 Q&A
1.4.5 이 책이 도움받고 있는 오픈소스들
1.5 이 책이 다루는 데이터와 주요 용어
1.6 이 장의 요약
1.7 참고 문헌

더보기

박규병 (카카오브레인 NLP 연구원)

다른 추천도서 보기

: 처음 리뷰를 부탁받고 읽어봤을 때가 생각납니다. 책을 펼치기 전에는 솔직히 약간의 의구심이 있었습니다. 한 권의 책으로 풀어내기에는 임베딩이 다소 협소한 주제가 아닐지, 한국어라는 재료와 관련 지어 어떻게 설명할 수 있을지 말이지요. 하지만 원고를 읽어 나가며 의구심이 모두 사라졌습니다. 이 책은 임베딩의 개념, 수학적 원리, Word2Vec이나 FastText 등 단어 임베딩 기법, ELMo나 BERT 등 문장 임베딩 기법, 또 구현과 예시까지 관련 내용들을 빠짐없이 짚어 나갑니다. 한국어 처리에 대한 장을 따로 마련하고 이를 기반으로 실제 지은이가 새로이 구현한 내용을 바탕으로 설명한 내용도 인상적이었습니다. 마치 저자 직강 수업을 듣는 듯했습니다. 처음에는 가벼운 마음으로 컴퓨터 화면으로 원고를 보고 있었는데, 어느 순간 이 내용을 종이책으로 만나고 싶다는 생각이 부쩍 들었습니다. 그런데 드디어 그날이 오게 됐네요. 기쁜 마음으로 독자 여러분께 추천드립니다. 더불어 지은이의 겸손하고 꼼꼼한 성향이 책의 완성도를 높인 것은 물론, 이 책의 생명력에 큰 기여를 할 것 같습니다. 원고를 다 읽은 다음 이기창 님에게 이런저런 제안을 드리자 진지하고 겸허한 태도로 저의 제안을 검토하고 원고를 보완하기 위해 고민하는 것을 봤습니다. 그 마음이 계속 이어져 호흡이 짧은 IT 출판 시장에서 이 책이 스테디셀러가 되기를 희망합니다.

박은정 (네이버 파파고 테크리더, KoNLPy 컨트리뷰터)

다른 추천도서 보기

: 빅데이터의 시대라고 한다. 어디를 가도 데이터는 넘쳐흐를 것만 같다. 하지만 막상 내가 관심 있는 영역이 생겨 데이터를 얻으려고 하면 좀처럼 찾기 힘들다. 영역을 좁히고 보면 빅데이터란 것은 존재하지 않는다.
공부 자료 역시 마찬가지다. 세상에 공부거리가 차고 넘쳐서 더 이상 공부 환경을 가지고 투덜거리면 안 된다고는 하지만, 막상 세부 영역으로 가면 관련 자료가 희박하다. 그 자료가 한국어로 쓰여진 것이거나 한국어에 대한 것이라면 더더욱.
그런데 이 책은 그 두 가지 목마름을 다 채운다. 한국어에 대한 한국어로 쓰인 책. 한국어 NLP에 대해 목말라 했던 사람들에게 단비 같은 존재가 아닐 수 없다. 게다가 기초적인 개념 해석부터 아주 최근의 연구 결과까지도 담고 있어 기본기를 갖춘 사람뿐만 아니라 경험이 어느 정도 있는 사람도 얻어 갈 것이 있는 책이다. 각종 알고리즘에 대한 해석뿐만 아니라 실무에 적용할 수 있게 코드 스니펫도 담고 있어 공부하는 학생도, 실무에 투입된 회사원도 얻어 갈 내용이 많으리라 장담한다. 이렇게 탄탄한 책을 써 준 지은이에게 무척 고맙다.
혹자는 이 책의 제목만 보고 '한국어'와 '임베딩'의 교집합만 다룰 거라고 여길 수 있다. 하지만 고맙게도 '한국어'와 '임베딩'의 합집합을 다룬다. 따라서 둘 중 한쪽에만 관심 있는 사람에게도 유용하다. 한국어 분석에 관심은 있는데, 어디서부터 시작해야 할지 몰랐다면 이 책을 추천한다. NLP 관련 최신 논문을 여러 권 접했지만 좀 더 개념을 분명하게 잡고 싶은 사람에게도 이 책을 추천한다.

김현중 (서울대 공학박사, soynlp 메인 컨트리뷰터, 텍스트마이닝 블로그(lovit.github.io) 운영)

다른 추천도서 보기

: 지은이를 처음 만난 곳은 자연어 처리를 공부하는 자리였습니다. 저는 이기창 님의 블로그를 읽으면서 그의 팬이 됐습니다. 습득한 지식을 나누려는 마음뿐만 아니라 스스로의 발전을 위해 꾸준히 노력하는 모습에서 많은 것을 배울 수 있었습니다. 이 책 역시 임베딩의 개념과 사용법을 배울 수 있는 좋은 자료가 되리라 생각합니다.
최근의 자연어 처리의 발전은 정보를 표현하는 방식의 변화에 기인합니다. 벡터 공간에서 작동하는 머신 러닝 알고리즘을 잘 활용하기 위해서는 벡터 공간에서의 데이터의 표현법에 대해 깊게 알 필요가 있습니다. 이 책은 임베딩이라 부르는 자연어 처리 분야에서의 데이터 표현법에 대한 개념, 원리, 실습을 통한 학습의 경험이 잘 정리돼 있습니다. 그렇기 때문에 임베딩 기반 자연어 처리 방법에 입문하는 이들은 공부의 범위와 우선순위에 대한 방향타를 얻을 수 있으며, 자연어 처리 학습자들도 임베딩 지식을 정리할 기회를 얻을 것이라 생각합니다.
이 책은 각 알고리즘을 학습하고 활용할 수 있는 코드를 제공하고 있습니다. 머신 러닝의 공부 과정에는 반드시 실제 데이터의 적용 및 학습 결과의 탐색이 포함돼야 합니다. 또한 빠르게 현업에 알고리즘을 적용하기 위해서는 사용하기 쉬운 정리된 코드가 필요합니다. 이 책은 스크립트 형식으로 손쉽게 사용할 수 있는 코드와 세부 파이썬 코드들을 모두 제공하기 때문에 실습과 적용이 필요하신 분 들에게도 큰 도움이 될 것이라 생각합니다.
언제나 이기창 님을 응원하며, 그 결실 가운데 하나인 이 책이 임베딩과 자연어 처리를 공부하는 분들께 큰 도움이 되길 바랍니다.

지은이 : 이기창

최근작 :

<Do it! BERT와 GPT로 배우는 자연어 처리>,<한국어 임베딩> … 총 4종 (모두보기)

소개 :

서울대학교 국어국문학과를 졸업하고 고려대학교 대학원에서 공학 석사 학위(자연어 처리)를 취득했다. 문장 범주 분류에 큰 영향을 미치는 단어들에 높은 점수를 주는 기법을 다룬 논문(SCI 저널 게재)에 1저자로 참여했다. 대규모·고품질 언어 모델 학습과 구축을 업으로 삼고 있으며 문서 검색, 오픈 도메인 챗봇에 관심이 많다. 저서로는 《한국어 임베딩》(2019, 에이콘출판사)이 있으며 블로그(ratsgo.github.io)도 운영하고 있다. 딥러닝과 자연어 처리의 무궁무진한 가능성을 믿는다.

감수 : NAVER Chatbot Model

최근작 :

… 총 2종 (모두보기)

소개 :

지은이가 속해 있는 팀으로, 인공지능 비서 '클로바(CLOVA)'의 대화 엔진을 한국어와 일본어로 서비스하고 있다. 서드파티 개발사를 대상으로 한 인공지능 플랫폼 '클로바 익스텐션 키트'와 '네이버 비즈니스 플랫폼'에 탑재된 챗봇 엔진 개발을 맡고 있다. 한국 네이버와 일본 라인(LINE)의 챗봇형 고객센터를 운영하고 있다. 핵심 멤버는 '동천 AI 클러스터'에 거주 중이며 데자와나 콜라, 트레비 없이는 개발하지 않는다.

이기창 (지은이)의 말

컴퓨터는 '계산기'에 불과하다. 컴퓨터는 사람의 말, 즉 자연어(natural language)를 바로 이해할 수 없다. 자연어를 100% 이해하는 인공지능이 등장하더라도 그 이해(understanding)의 본질은 연산(computation)이나 처리(processing)다. 컴퓨터가 자연어를 처리할 수 있게 하려면 자연어를 계산 가능한 형식으로 바꿔줘야 한다.
임베딩(embedding)은 자연어를 숫자의 나열인 벡터(vector)로 바꾼 결과 혹은 그 일련의 과정 전체를 가리키는 용어다. 단어나 문장 각각을 벡터로 변환해 벡터 공간(vector space)에 '끼워 넣는다(embed)'는 취지에서 임베딩이라는 이름이 붙었다. 컴퓨터는 임베딩을 계산, 처리해 자연어 형식의 답변을 출력함으로써 인간과 상호작용할 수 있게 된다. 그렇기 때문에 임베딩은 컴퓨터가 자연어를 이해하도록 하는 첫 관문으로 매우 중요한 기능을 한다.
임베딩에는 말뭉치(corpus)의 의미, 문법 정보가 응축돼 있다. 임베딩은 벡터이기 때문에 사칙연산이 가능하며, 단어/문서 관련도(relevance) 역시 계산할 수 있다. 최근 들어 임베딩이 중요해진 이유는 따로 있다. 바로 전이 학습(transfer learning) 때문이다. 전이 학습이란 특정 문제를 풀기 위해 학습한 모델을 다른 문제를 푸는 데 재사용하는 기법을 의미한다. 예컨대 대규모 말뭉치를 미리 학습(pretrain)한 임베딩을 문서 분류 모델의 입력값으로 쓰고, 해당 임베딩을 포함한 모델 전체를 문서 분류 과제를 잘할 수 있도록 업데이트(fine-tuning)하는 방식이 바로 그것이다. 물론 전이 학습은 문서 분류 이외의 다양한 다른 과제에도 적용할 수 있다.

에이콘출판 도서 모두보기 신간알리미 신청
최근작 :	<Istio in Action>,<Yocto 프로젝트를 활용한 임베디드 리눅스 개발 3/e>,<파이썬 아키텍처 패턴>등 총 1,090종
대표분야 :	프로그래밍 언어 7위 (브랜드 지수 151,497점), 그래픽/멀티미디어 15위 (브랜드 지수 21,086점)

중고매장

서울

경기

광역시 등

(주)알라딘커뮤니케이션 종로점

고객센터 1544-2514 (발신자 부담)