자세히 보기

Mary Branscombe
Contributing writer

머신러닝에 관한 9가지 오해

기획
2018.03.237분

머신러닝만큼 오해가 많은 신기술도 없을 것이다. 머신러닝이 할 수 있는 것과 할 수 없는 것은 각각 무엇인지를 알아보고, 더 이상 머신러닝을 오

머신러닝은 매우 유용하다. 그래서 모든 문제를 해결하고, 모든 상황에 적용할 수 있는 기술이라고 생각하기 쉽다. 하지만 다른 도구들처럼 특정 영역에만 유용하다. 지속되고 있지만, 이를 해결할 사람을 충분히 채용할 수 없어 해결하지 못하고 있는 문제들, 목적이 명확하지만, 이를 달성할 방법이 없는 문제들을 예로 들 수 있다.

어쨌든 많은 기업과 기관이 어떤 식이든 머신러닝을 활용해 혜택을 누릴 수 있다. 액센츄어 조사에 따르면, 2021년까지 AI가 모든 새로운 혁신의 원동력이 될 것이라고 예상한 중역들의 비율이 42%에 달한다. 그러나 ‘하이프’와 일반적인 통념을 극복하고, 머신러닝이 실제 전달할 수 있는 기능과 그렇지 못한 기능을 이해해야 더 좋은 성과를 일궈낼 수 있다.

오해 1 : ‘머신러닝=AI’다
머신러닝과 인공지능이 유사어처럼 사용되는 경우가 많다. 하지만 머신러닝은 연구 실험실에서 실제 세상으로 가장 성공적으로 진입한 기법이고, AI는 컴퓨터 비전, 로봇, 자연어 처리, 머신러닝이 관여되지 않는 제약 만족(Constraint Satisfaction) 같은 접근법 등 적용 범위와 응용 분야가 광범위한 기술이다. 머신을 똑똑하게 만드는 기술로 생각하면 된다. 이 가운데 어느 것도 일부 사람들이 경쟁할까 두려워하고, 심지어 인간을 공격할까 두려워하는 그런 ‘인공지능’은 아니다.

‘버즈워드(통용어)’를 경계하고, 정확히 이해해야 한다. 머신러닝은 수많은 데이터의 패턴을 학습, 결과를 예측하는 기법이다. 그 결과가 ‘지적’으로 보일지 모르겠지만, 기본적으로 아주 빠른 속도와 규모로 통계 처리를 하는 기법이다.

오해 2 : 모든 데이터가 유용하다
머신러닝에는 데이터가 필요하다. 그러나 모든 데이터가 머신러닝에 유용한 것은 아니다. 시스템을 훈련시키기 위해, 머신러닝 시스템이 처리해야 할 패턴과 결과를 적용 범위로 하는 표본 데이터가 필요하다. 또 (남자는 모두 서 있고, 여자는 앉아있는 사진, 차는 차고에, 자전거는 진흙 마당에 세워진 사진 등)관련 없는 패턴이 포함된 데이터가 필요하다. 생성하려는 머신러닝 모델이 아주 특정적인 패턴을 조사하고, 같이 사용한 데이터에서 해당 패턴을 찾아야 하기 때문이다. 훈련(트레이닝)에 사용한 데이터에는 모두 레이블이 있어야 한다(분류가 되어 있어야 한다). 머신러닝 시스템에 물으려는 질문과 일치하는 특징에 대한 분류이다. 여기에 큰 노력이 필요하다.

보유 데이터가 모두 깨끗하고, 정리되어 있으며, 대표적인 표본이고, 쉽게 분류할 수 있다고 생각하지 말아야 한다.

오해 3 : 항상 많은 데이터가 필요하다
최근 이미지 인식, 머신 문장 독해, 언어 번역 등이 크게 발전을 했다. 더 나은 도구, 수많은 데이터를 병렬 처리할 수 있는 GPU 같은 컴퓨팅 하드웨어, 레이블이 있는(분류된) 수많은 데이터 세트(ImageNet과 Sandford Question Answering Dataset 등) 덕분이다. 그러나 전이 학습(Transfer Learning)이라는 기법 덕분에 많은 데이터 세트 없이도 특정 영역에서 좋은 결과를 얻을 수 있다. 다시 말해, 머신러닝 시스템에 하나의 대형 데이터 세트를 사용해 학습하는 방법을 가르친 후, 이런 학습 능력을 훨씬 작은 학습 데이터 세트로 이전하면 된다. 세일즈포스와 마이크로소프트 애저의 맞춤형 비전 API가 이런 식으로 작동한다. 예를 들어, 분류하기 원하는 30~50개의 이미지만 필요하다. 그래도 좋은 결과를 얻을 수 있다.

전이 학습은 훈련된 시스템을 맞춤화, 상대적으로 작은 데이터로 문제를 해결할 수 있도록 도와준다.


오해 4 : 누구나 머신러닝 시스템을 구축할 수 있다
머신러닝을 위한 오픈소스 도구와 프레임워크가 무수히 많다. 이를 활용하는 방법을 알려주는 교육 과정도 많다. 그러나 머신러닝은 여전히 전문 기법이다. 데이터를 준비하는 방법, 트레이닝과 테스트를 위해 구분하는 방법, 가장 좋은 알고리즘과 사용할 휴리스틱을 선택하는 방법, 신뢰도 높은 생산 환경의 시스템으로 바꾸는 방법을 알아야 한다. 또 계속 관련성 있는 결과가 나오도록 시스템을 모니터링 해야 한다. 시장이 변화하는지, 머신러닝 시스템이 여러 고객 세트를 제시할 수 있을 만큼 우수한지에 상관없이 모델이 계속 문제에 적합한지 확인해야 한다.

머신러닝을 올바르게 구현하기 위해서는 경험이 필요하다. 이제 막 시작했다면, 코드 내부에서 사전에 훈련된 모델을 호출할 수 있는 API를 찾거나, 데이터 과학과 머신러닝 전문가를 채용해 맞춤형 시스템을 구축하는 방법을 모색한다.

오해 5 : 데이터의 모든 패턴이 유용하다
천식을 앓고 있는 사람, 가슴 통증이나 심장 질환 환자, 100세 이상 고령자의 폐렴 생존율은 보통 사람들의 생각보다 훨씬 더 높다. 그래서 입원한 환자들을 자동으로 퇴원시키는 간단한 머신러닝 시스템(신경망이 정확한 사례가 되는, 동일한 데이터로 훈련한 규칙 기반 시스템)을 만들었다고 가정하자. 불행히, 생존율이 높은 것은 폐렴이 아주 위험한 사람들이기 때문에 그 즉시 입원을 한 결과다.

시스템은 데이터에서 유효한 패턴을 확인할 것이다. 그러나 입원시킬 대상을 선택할 때 유용한 패턴이 아니다(보험회사의 치료 비용 예측에는 도움을 주겠지만). 더 위험한 부분이 있다. 데이터 세트에 도움이 되지 않는 안티-패턴이 존재한다는 사실을 알 수 없다는 것이다.

또 시스템이 유용하지 않은 유효한 패턴(셀피를 통해 성적 지향성을 정확히 예측했던, 논란 많은 얼굴 인식 시스템처럼)을 학습할 수도 있다. 명확한 설명이 존재하지 않기 때문이다(얼굴 인식 시스템의 경우, 사진가가 선천적인 ‘신호’가 아닌 포즈 같은 사회적 ‘신호’를 표현).

‘블랙박스’ 모델은 효율적이다. 그러나 학습한 패턴이 무엇인지 명확히 드러나지 않는다. GAM(Generalized Additive Model)은 모델이 학습한 내용을 명확히 드러내기 때문에 배포에 유용한지 결정할 수 있다.

오해 6 : 강화 학습을 사용할 준비가 돼 있다
현재 대부분 머신러닝 시스템에 지도 학습이 사용되고 있다. 대부분의 경우, 사람이 준비에 관여한 명확히 분류된 데이터 세트로 학습을 한다. 이런 데이터 세트 분류와 준비에 많은 시간과 노력이 필요하다. 그래서 RL(Reinforcement Learning)을 중심으로 에이전트가 환경과 접촉하면서 옳은 행동에 보상을 받고, 시도와 실수를 통해 학습하는 비지도 학습에 관심을 둔다. 딥마인드(DeepMind)의 알파고(AlphaGo) 시스템이 ‘바둑’ 고수를 이길 때 지도 학습과 함께 RL을 사용했다. 또 카네기멜론대학의 팀이 구축한 시스템인 리브라투스(Libratus)도 2종의 다른 AI 기법과 함께 RL을 사용해 (장시간의 복잡한 베팅 전략이 필요한)텍사스 홀뎀 세계 챔피언을 무찔렀다. 학자와 연구원들은 로봇부터 보안 소프트웨어 테스트까지 다양한 분야에서 RL을 시험하고 있다.

연구실 밖 RL 활용 사례는 훨씬 적다. 구글은 데이터 센터 전력 절감에 딥마인드를 사용하고 있다. 더 효율적으로 냉방을 하는 방법을 학습해 전략을 절약한다. 마이크로소프트는 MSN.com 방문자들에게 뉴스 헤드라인을 개인화해 제공하는 데 CB(Contextual Bandit, 맥락 강도)라는 제한된 전용 RL 기법을 활용한다. 문제는 실제 환경에는 쉽게 발견할 수 있는 보상과 즉각적인 피드백이 드물다는 것이다. 또 무언가 진짜 행동이 발생하기 전에 여러 행동을 하는 에이전트에 보상을 하기 쉽다.

오해 7 : 머신러닝은 ‘편견(편향)’이 없다
머신러닝은 데이터로 학습한다. 데이터 세트의 편향을 복제한다는 의미다. CEO 이미지를 검색하면 백인인 남성 CEO 이미지가 결과로 나타난다. 백인 남성 CEO가 훨씬 더 많기 때문이다. 여기에 그치지 않는다. 머신이 편향을 더욱 증폭시키는 것으로 밝혀졌다.

이미지 인식 시스템을 훈련할 때 자주 사용하는 COCO 데이터 세트에는 남성과 여성 사진이 있다. 그런데 여성은 주방 기구 옆에 서 있는 사진이 더 많고, 남성은 컴퓨터 키보드나 마우스 앞에 앉아 있거나, 또는 테니스나 스노보드를 즐기는 사진이 더 많다. 그리고 COCO 시스템으로 시스템을 학습시킬 경우, 실제 사진의 ‘통계’보다도 더 많이 남성과 컴퓨터 하드웨어를 연결한다.

특정 머신러닝 시스템이 다른 시스템에 편향을 전염시킬 수도 있다. 단어를 단어 간 관계를 보여주는 벡터로 표현하는 인기 있는 프레임워크로 머신러닝 시스템을 훈련한다고 가정하자. 여성과 남성을 각각 컴퓨터 프로그래머와 가정주부, 의사와 간호사, 사장과 리셉셔니스트로 파악하는 ‘고정관념’을 학습할 것이다. 이 시스템을 남성 대명사와 여성 대명사가 있는 영어를 중성 대명사만 존재하는 핀란드어나 터키어로 번역하는 시스템에 사용한다고 가정하자. “그들은 의사야”를 “그 남자들은 의사야”, “그들은 간호사야”를 “그 여자들은 간호사야”로 번역하게 될 것이다.

쇼핑 사이트에서 유사한 제품을 추천하는 기능은 유용하다. 그러나 민감한 주제에 적용하면 문제가 될 수 있다. 또 피드백 루프가 생성될 수 있다. 백신 예방접종에 반대하는 페이스북 그룹에 가입했다고 가정하자. 페이스북 추천 엔진은 음모 이론을 주장하는 그룹, 지구가 평평하다고 주장하는 그룹을 추천한다.

머신러닝에 이런 편향 관련 문제가 존재한다는 점을 인식하는 것이 중요하다. 학습 데이터 세트에서 편향을 없앨 수 없다면, 단어 쌍 간 성별 연상을 정규화해 편향을 없애는 기법, 추천에 관련 없는 항목을 추가해 ‘필터 버블’을 없애는 기법을 사용해야 한다.

오해 8 : 머신러닝은 좋은 일에만 쓰인다
머신러닝은 바이러스 백신 도구를 강화한다. 예를 들어, 새로운 공격이 출현하는 즉시 그 행동(동작)을 조사한다. 그러나 해커들도 머신러닝을 이용, 바이러스 백신 도구의 방어체계를 조사하고, 수많은 공개 데이터와 기존에 피싱 공격이 성공한 사례를 분석해 대규모로 표적화된 피싱 공격을 전개한다.

오해 9 : 머신러닝이 사람을 대신할 것이다
AI가 미래에 사람의 일자리를 뺏는 것을 걱정하는 사람들이 많다. 머신러닝은 우리가 하는 일의 종류, 일을 하는 방법을 바꿀 것이다. 그리고 머신러닝 시스템은 효율성과 컴플라이언스를 강화하고, 비용을 줄여준다. 장기적으로 기업에 새로운 일자리를 만들고, 기존 일자리 중 일부를 도태시킬 것이다. 그러나 머신러닝이 자동화할 작업 중 상당수는 과거 그냥 불가능했던 작업이다. 예를 들어, 소셜 미디어에 게시된 사진 중 자신의 브랜드가 들어있는 사진을 모두 찾는 것은 불가능했던 일이다. 이를 처리할 수 있을 정도로 많은 인력을 채용할 수 없기 때문이다.

머신러닝은 새로운 비즈니스 기회를 창출하기 시작했다. 예측 유지관리 및 유지보수로 고객 경험을 향상하는 기회, 비즈니스 의사결정자에게 제안하고 지원하는 기회를 예로 들 수 있다. 과거 자동화 기술처럼, 머신러닝은 직원들의 시간을 절약해줘 전문성과 창의력을 발휘하도록 도와줄 것이다.

* Mary Branscombe는 20년 이상 기술 분야를 다뤄온 프리랜서 저널리스트다. 프로그래밍 언어, 윈도우와 오피스, 웹, 소비자 기기, 홈 엔터테인먼트 분야를 취재해왔다. dl-ciokorea@foundryco.com

Mary Branscombe
Contributing writer

Mary Branscombe is a freelance journalist who has been covering technology for over three decades and has written about everything from programming languages, early versions of Windows and Office and the arrival of the web to consumer gadgets and home entertainment.

Her work has appeared in the Financial Times, The Sunday Times and the Guardian as well as several technology publications including The Register, CIO.com, InfoWorld, ComputerWorld, ZDNet, The New Stack, Ask Woody, TechRadar Pro, Tom’s Hardware, PC Advisor, and a long list of others. She founded and edited IT Expert magazine, which covered IT consultancy for the small business market.

Mary holds an M.A., Literae Humaniores from the University of Oxford and an M.Sc., Intelligent Knowledge Based Systems from the University of Essex.

이 저자의 추가 콘텐츠