자세히 보기

By Rudyna. S

기고 | 전이 학습, 임베딩, 트랜스포머… 생성형 AI의 ‘근간 기술’ 안내서

뉴스
2023.04.269분

생성형 AI 모델 덕분에 인류는 사상처음으로 인간에 가까운 수준으로 자연어를 이해하고 텍스트 및 이미지를 포함한 다양한 미디어에서 결과물을 생성

이러한 기술을 가능케 하는 것은 강력하고 일반적인 파운데이션 모델로, 보다 전문화된 생성형 AI 모델 개발을 위한 토대 혹은 시작점이 된다. 이 파운데이션 모델은 방대한 양의 데이터로 훈련된다. 자연어 지침에 따라 놀라운 정교함을 갖춘 아웃풋을 생성할 수 있다. 일생 동안 접한 다른 예술가의 작업과 자신의 영감을 결합해 완전히 새로운 것을 창조해내는 재능 있는 예술가라고 비유할 수 있을 것이다. 

이러한 발전에 대한 기사가 앞다투어 나오게 되면서 많은 비즈니스 및 경영진 리더들은 생성형 AI가 갑자기 생겨난 것처럼 생각할 수 있다. 그러나 사실 이 새로운 아키텍처는 지난 수십 년 동안 발전해온 접근방식을 토대로 구축됐다. 업무에 도입하고 혁신 기회를 앞서 포착하려면 이러한 기저 기술의 역할을 이해하는 게 상당히 중요하다. 


우리는 어떻게 여기에 이르렀는가?
생성형 AI에서 주목할 만한 실행 기술(enabling technologies)으로는 2000년대 초중반에 등장한 딥러닝, 임베딩(embeddings), 전이 학습(transfer learning)과 더불어 2017년 발명된 신경망 트랜스포머(neural net transformers)이다. 단 모델 규모 및 훈련 양 측면에서 전례 없는 규모로 이러한 기술을 활용할 수 있게 된 것은 최근의 현상이다.   

딥러닝은 2000년대 초 학계에서 등장했으며 2010년경부터 광범위한 채택이 시작됐다. 머신러닝의 하위 분야인 딥러닝의 경우, 다양한 작업을 위한 모델을 예시 제시를 통해 훈련시킨다. 딥러닝은 뉴런(neurons)라고 불리는 상호 연결된 간단한 컴퓨팅 노드 층으로 구성된 인공 신경망(artificial neural net)이라는 특정 유형의 모델에 적용될 수 있다. 

각 뉴런은 다른 뉴런이 전달한 정보를 처리한 다음 그 결과를 다음 층의 뉴런에 전달한다. 신경망 모델의 매개 변수는 훈련에서 모델에 제시된 예를 사용해 조정된다. 그 다음 이 모델은 이전에는 볼 수 없던 새로운 데이터를 예측하거나 분류할 수 있다. 예를 들어, 수천 개의 개 사진으로 훈련된 모델을 보유한 경우, 이 모델을 활용해 이전에는 볼 수 없던 이미지에서 개를 감지할 수 있다. 

전이 학습은 2000년대 중반에 등장해 빠르게 대중화됐다. 전이 학습은 한 작업의 지식을 활용해 다른 작업의 모델 성능을 개선하는 머신러닝 기술이다. 이러한 강력한 기술을 이해하기 위한 적절한 비유로는 ‘로맨스어(Romance Languages)’ 중 하나를 배우는 것에 비유할 수 있다. 유사성으로 인해 스페인어를 배운 사람은 이탈리아어와 같은 다른 로맨스어를 배우는 게 더욱 수월할 수 있다. 

전이 학습은 모델이 한 작업의 지식을 다른 관련 작업에 활용할 수 있도록 하기 때문에 생성형 AI에 필수적이다. 이러한 기술은 데이터 부족 문제를 완화하기 때문에 획기적임이 입증됐다. 

또한 전이 학습은 생성된 콘텐츠의 다양성 및 품질을 개선할 수 있다. 예를 들어 대규모 텍스트 데이터 셋에서 사전 훈련된 모델의 경우, 특정 도메인 혹은 스타일에 특화된 더 작은 규모의 텍스트 데이터 셋에서 미세 조정될 수 있다. 이를 통해 모델은 특정 도메인 혹은 스타일을 위한 더욱 일관성 및 관련성 있는 텍스트를 생성할 수 있다.  

2000년대 초 중반에 대중화된 또 다른 기술은 임베딩이었다. 임베딩은 데이터 및 빈번히 사용되는 단어를 수치 벡터(numerical vectors)로 표현하는 방법이다. 챗GPT와 같은 소비자 대면 기술이 단어 임베딩(word embeddings)의 힘을 보여주는 훌륭한 예다. 단어 임베딩은 단어 간의 의미론적 및 구문적 관계를 포착하도록 설계됐다. 

예를 들어, ‘개’ 및 ‘사자’라는 단어의 벡터 공간 표현은 ‘사과’라는 단어의 벡터 공간보다 서로 훨씬 더 가까울 것이다. ‘개’와 ‘사자’가 상당한 맥락적 유사성을 가지고 있기 때문이다. 생성형 AI의 경우, 이를 통해 모델은 단어 및 문맥상 의미 사이의 관계를 이해할 수 있으며, 챗GPT와 같은 모델이 문맥상 관련성이 있고 의미론적으로 명확한 원본 텍스트를 제공할 수 있게 된다.

임베딩은 언어의 표현으로서 상당히 성공적인 것으로 입증되었으며, 새롭고 더 강력한 신경망 아키텍처에 대한 탐구를 촉발시켰다. 이러한 아키텍처 중 중요한 기술 중 하나인 트랜스포머는2017년 개발됐다. 트랜스포머는 자연어와 같은 순차적 입력 데이터를 처리하고 텍스트 요약 및 번역과 같은 작업을 수행하도록 설계된 신경망 아키텍처다. 

특히 트랜스포머는 ‘셀프 어텐션(self-attention)’ 메커니즘을 통합한다. 이를 통해 모델은 맥락에 적합하도록 단어 간 복잡한 관계를 포착하기 위해 필요에 따라 입력 시퀀스의 다른 부분에 집중할 수 있다. 따라서 모델은 각 문맥에 따라 입력 데이터의 각 부분 중요도를 다르게 재는 방법을 학습할 수 있다. 

예를 들어, ‘그 개는 울타리를 뛰어넘지 않았다. 그것은 너무 피곤했기 때문이다’라는 문구에서 모델은 각 단어 및 단어 위치 처리를 위해 문장을 살펴본다. 그 다음 셀프 어텐션을 통해 이 모델은 ‘그것’과 가장 가까운 연관성을 찾기 위해 단어 위치를 평가한다. 셀프 어텐션은 현재 처리 중인 ‘그것’과 관련된 문장의 모든 단어에 대한 이해를 생성하기 위해 활용된다. 따라서 모델은 ‘그것’이라는 단어를 ‘울타리’라는 단어보다는 ‘개’라는 단어와 연관시킬 수 있는 것이다. 

딥러닝 아키텍처, 효율적으로 분산된 컴퓨테이션, 훈련 알고리즘 및 방법론의 발전으로 인해 더 큰 규모의 모델을 훈련시킬 수 있게 되었다. 이 글을 작성한 시점을 기준으로 가장 큰 모델은 1,730억 개의 매개 변수로 구성된 오픈AI의 챗GPT3이며, 챗GPT4 매개 변수 정보는 아직 나오지 않았다. 또한 가장 많은 양의 공개 텍스트 및 45TB의 데이터를 텍스트 예시, 인터넷의 모든 텍스트 콘텐츠 및 인간 표현의 기타 형식으로 ‘흡수’했다는 면에서 챗GPT3는 주목할 만하다. 

생성형 AI를 위한 전이 학습, 임베딩 및 트랜스포머와 같은 기술을 결합해 활용하는 것은 발전적이라고 표현할 수 있겠지만, AI 시스템이 구축되는 방식 및 기업의 채택에 미치는 영향은 혁명적이라고 말할 수 있다. 그 결과, 대중적인 대규모 언어 모델(Large Language Models, LLMs)과 같은 파운데이션 모델의 우위를 차지하기 위한 경쟁이 시작되었으며, 기존 기업 및 스타트업들은 선점 경쟁에 나서고 있다.  

파운데이션 모델을 위한 자본 요구사항이 높기에 기존 대기업 혹은 상당한 자본력을 갖춘 스타트업(수십억 상당)이 유리한 위치에 있지만, 생성형 AI가 가져오는 혁신의 기회는 기업 전반에 걸쳐 깊고 광범위하다. 

기술 스택에 대한 이해
생성형 AI의 잠재력을 효과적으로 활용하기 위해 기업 및 기업가는 생성형 AI의 기술 계층(technology layers)이 어떠한 방식으로 분류되는지와 각 계층이 가치 창출에 미치는 영향에 대해 이해해야 한다. 

생성형 AI 관련 기술을 이해하는 기본적인 방법은 이러한 기술을 3계층 기술 스택(a three-layer technology stack)으로 구성하는 것이다. 이 스택의 하단에는 개인 컴퓨팅 혹은 웹과 유사한 기술의 혁신적 물결을 보여주는 파운데이션 모델이 있다. 이 계층의 경우, 모바일 혁명 혹은 클라우드 컴퓨팅에서 본 바와 같이 새로운 신생 기업이 아닌 마이크로소프트, 구글 및 메타와 같은 기존 기업이 주도할 것이다. 

여기에는 두 가지 중요한 이유가 있다. 첫째, 이러한 기업의 운영 및 대차대조표 규모는 상당하다. 둘째, 오늘날의 기존 기업들은 파운데이션 모델을 구동하는 주요 리소스인 컴퓨팅 및 데이터를 지배하고 있다. 

스택의 최상단에는 특정 작업을 위해 설계된 특정 유스 케이스를 위한 소프트웨어인 애플리케이션이 있다. 다음 스택은 ‘중간 계층(middle layer)’이다. 이 중간 계층은 실행 기술이 최상위 계층의 애플리케이션을 구동하고 파운데이션 모델의 기능을 확장하는 장소다. 

예를 들어, 모자이크ML(MosaicML)을 사용할 경우, 사용자는 데이터를 사용자 인프라의 그 어떤 클라우드에서도 머신러닝을 효율적으로 실행하는 대규모 AI 모델로 전환함으로써 자신의 데이터에 고유의 AI를 구축할 수 있다. 

중간 계층에 대한 심층적 논의는 이 글에 포함되지 않았다는 점을 참고하자. 사이클 초기에 스택의 이 부분에 대해 예측할 경우 리스크가 많다. 자사의 파운데이션 모델 채택을 촉진하고자 하는 기존 기업의 무료 도구가 중간 계층의 범용화로 이어질 수는 있으나, 추가 기능을 제공하고 유스 케이스에 가장 적합한 모델을 최적화하는 교차 플랫폼 혹은 교차 기반 모델 도구가 판도를 바꿀 수 있다. 

단기적으로 중간 계층에서의 실행 제품 및 플랫폼 추가 개발에 앞서 애플리케이션 계층은 생성형 AI에서 투자자 및 구축자에게 상당한 기회를 의미할 수 있다. 특히 흥미로운 것은 퍼블릭 파운데이션 모델(public foundation models) 외에도 독점 모델 파이프라인을 실행하는 사용자 대면 제품이다. 이러한 제품은 엔드 투 엔드 애플리케이션이다. 

모델에서 사용자 지향 애플리케이션 계층에 이르기까지 이러한 수직 통합 애플리케이션은 방어 기능성(defensibility)을 제공하므로 특히 큰 가치를 지니고 있다. 지속적으로 모델을 독점 제품 데이터로 재훈련시키면 방어성 및 차별성이 생성되므로 이러한 독점 모델은 가치가 있다. 그러나 이는 높은 자본 집약도라는 대가를 수반하기에 제품팀이 민첩성을 유지하기 어렵게 만들 수 있다.

생성형 AI 애플리케이션의 사용 사례
단기 애플리케이션 계층 유스 케이스 및 생성형 AI 기회를 적절히 고려하려면 데이터 혹은 콘텐츠의 증분 가치(incremental value)에 대한 지식과 함께 불완전한 정확도가 미치는 영향을 완전히 이해해야 한다. 단기적으로는 비즈니스에 경제적 가치를 가지지만 불완전한 정확도로 인한 타격이 적은, 데이터 혹은 콘텐츠에 기회가 있을 것이다. 

추가적인 고려사항에는 훈련 및 생성을 위한 데이터 구조와 인간이 능동적 참여자이므로 모델의 작업을 확인할 수 있는 AI 시스템인 ‘휴먼 인 더 루프(human-in-the-loop)’의 역할이 포함된다. 생성형 AI가 기업에게 가지는 기회 중 하나는 소프트웨어 코드와 같이 데이터가 구조화된 유스 케이스에 있다. 휴먼 인 더 루프는 AI가 범할 수 있는 실수의 리스크를 완화할 수 있다. 

이러한 특성을 가진 산업 분야 및 유스 케이스는 생성형 AI가 가져오는 초기 기회를 시사한다. 여기에는 다음이 포함된다.

– 콘텐츠 생성: 생성형 AI는 창의성, 콘텐츠 생성 속도 및 품질을 향상시킬 수 있다. 또한 이 기술은 블로그 혹은 소셜 미디어 광고와 같은 각기 다른 유형의 콘텐츠 성능을 분석하고 무엇이 청중의 공감을 얻는 가에 대한 인사이트를 제공하는 데 활용될 수 있다. 

– 고객 서비스 및 지원: 생성형 AI는 챗봇 혹은 가상 비서를 통해 고객 서비스 및 지원을 보강 및 자동화할 수 있다. 이를 통해 기업은 고객에게 더욱 신속하고 효율적인 서비스를 제공하는 동시에 고객 서비스 운영 비용을 절감할 수 있다. 방대한 양의 텍스트 데이터에 대한 사전 훈련을 통해 파운데이션 모델은 고객 문의를 명확히 해석하고 더욱 정확한 응답을 제공하는 방법을 터득해 고객 만족도를 높이고 운영 비용을 절감할 수 있다. 생성형 AI를 활용하는 신규 진입 기업 간의 차별화는 산업별 언어, 전문 용어에 대한 더 나은 이해를 가능케하는 미세 조정된 소규모 모델 혹은 각 고객의 니즈를 충족하는 맞춤형 지원을 제공하는 공통의 고객 질문을 사용할 수 있는 능력, 더욱 정확하고 효율적인 결과를 위해 지속적으로 제품을 개선하는 능력에 상당히 좌우될 것이다. 

– 영업 및 마케팅: AI는 고객 행동 및 선호도를 분석하고 개인화된 제품 추천을 생성할 수 있다. 이를 통해 기업은 매출 및 고객 참여도를 높일 수 있다. 또한 미세 조정된 모델을 통해 영업 및 마케팅팀은 적절한 메시지로 적합한 고객을 적시에 공략할 수 있다. 고객 행동에 대한 데이터를 분석함으로써 이 모델은 어떤 고객이 전환할 가능성이 가장 높고 어떤 메시지가 가장 효과적일지 예측할 수 있다. 그리고 이는 새로운 진입 기업이 시장 점유율을 확보할 수 있는 강력한 차별화 요소가 된다. 

– 소프트웨어 및 제품 개발: 생성형 AI는 코드 생성에서 코드 완성, 버그 감지, 문서화 및 테스트에 이르기까지 전반적인 개발 주기를 단순화한다. 파운데이션 모델을 통해 개발자는 코드 오류를 수정하는 대신 설계 및 기능 구축에 집중할 수 있다. 예를 들어, 신규 진입 기업의 경우, 프로그래밍 개념을 이해하고 상황 인지(context awareness)를 위한 도움을 주도록 미세 조정된 AI 기반 어시스턴트를 제공해 개발자가 복잡한 코드베이스를 탐색하고 관련 문서를 찾거나 코드 조각(code snippets)을 제안할 수 있도록 하는 데 도움을 줄 수 있다. 이를 통해 개발자는 시간을 절약하고 업스킬링하며 코드 품질을 향상시킬 수 있다. 

과거를 알고 미래를 내다보자
생성형 AI 및 파운데이션 모델이 기업 및 스타트업에 가져올 엄청난 영향은 이제 갓 시작됐을 뿐이다. 그러나 기업가부터 C레벨 의사결정자를 비롯한 우리 모두는 어떻게 지금 위치에 도달했는가를 이해할 필요가 있다. 이러한 개념들을 이해할 경우, 규모 확장, 리프레이밍(reframing) 및 비즈니스 기회 가능성 실현에 도움이 된다. 기회가 어디에 있는지 안다는 것은 고무적인 미래가 될 가능성이 있는 것에 대해 현명한 결정을 내리는 것을 의미한다. 

* 저자 루디나 세서리는 글래스윙 벤처의 설립자이자 매니징 파트너다. 이 콘텐츠는 글래스윙 벤처의 파트너이자 뉘앙스의 전임 CTO인 블라드 세즈노하와 글래스윙 벤처의 대표인 클라이다 마르티로의 도움을 받아 작성됐다. dl-ciokorea@foundryco.com