자세히 보기

By Kim Jin Cheol

김진철의 How-to-Big Data | 빅데이터 조직과 시스템 (6)

기획
2019.03.2527분

데이터과학자는 어떻게 만들어지는가? – 필자의 사례최근 필자에게 조언을 구하는 많은 분이 가장 어려워하고 관심이 많은 문제는 좋은


지난 스물여섯 번째 글에서 자세히 살펴보았듯이, 데이터 과학자에게 요구되는 역량은 일반 기업에서 쉽게 얻을 수 있는 것도 아니고 하루 이틀, 또는 몇 주 데이터 과학 과정을 교육을 받거나 데이터 과학이나 빅데이터 과정을 유학을 다녀온다고 해서 얻을 수 있는 것도 더더욱 아니다.  빅데이터 기술로 유명한 하둡(Hadoop)과 같이 클라우데라(Cloudera, Inc.)와 같은 소프트웨어 업체가 일정 시간 교육해서 그 기술과 역량을 어느 수준 이상으로 키워줄 수 있다면 차라리 나을 것이다. 이렇게 데이터 과학자로서 역량을 키우는 것 자체가 어려운 일이라 좋은 데이터 과학자를 찾아 기업에 합류시키기가 더더욱 어려운 일이 되어가는 것 같다.

이번 글에서는 좋은 데이터 과학자를 찾고 기업에 합류시키기 위한 대안을 같이 고민해보자. 먼저 데이터 과학자로 일할 수 있는 인력을 어디에 가면 가장 잘 찾을 수 있는지부터 생각해보자.

많은 기업이 빅데이터를 이용해 성과를 내야 한다는 마음이 급하다 보니, 데이터 과학자라는 타이틀을 가지고 일하고 있는 사람들을 먼저 찾게 된다. 어느 분야든 이건 당연한 일이지만, 문제는 데이터 과학자라는 말이 새로운 IT 직업으로 자리 잡은지 불과 10년정도 밖에 되지 않는다는 것이다. 데이터 과학이라는 말이 등장하고 사용된 것은 사실 1960년대부터이지만, 현재 우리가 사용하고 있는 맥락과 의미로 사용되기 시작한 것은 필자가 이전 글에서 소개한 그리드 컴퓨팅 기술이 발전하면서 2005년에서 2008년 경에 ‘데이터 집중 과학(data-intensive science)’이라는 말이 등장하기 시작하면서 부터였다.

이후 2012년경 하버드 비즈니스 리뷰(Harvard Business Review)에 “데이터 과학자: 21세기의 가장 각광받을 직업(Data Scientist: The Sexiest Job of the 21st Century)”이라는 글을 쓴 디제이 파틸(DJ Patil)에 따르면 현 클라우데라의 공동 창업자이자 수석 과학자이기도 한 제프 해머바커(Jeff Hammerbacher)가 자신들이 링크트인과 페이스북에서 하는 일을 설명하기 위해 쓴 말이 ‘데이터 과학자’라고 하며, 이후 오늘날 우리가 이해하는 의미의 말로 업계에 자리 잡게 되었다.

이렇듯, 현대적인 의미의 데이터 과학자라는 말이 IT업계에 등장한 것이 불과 7년여밖에 되지 않았고, 데이터 과학자가 어떤 일을 하는지, 어떤 역량을 가져야 하는지 조금이나마 구체적으로 논의되기 시작한 것은 불과 3~4년에 불과하다. 하둡과 같이 특정한 기술 하나만 잘 익히면 전문가로 통용될 수 있는 성격의 직업도 아니고, 데이터 과학자 한 사람이 어느 정도 역량을 갖추기에 3~4년은 짧은 시간이기 때문에 ‘데이터 과학자’라는 타이틀을 가지고 활동하고 있는 사람을 찾기가 쉽지 않은 것이다.

그래서 현재 시점에서 우리나라 기업들이 데이터 과학자를 영입할 수 있는 가장 최선의 방법으로 필자가 권하는 것은 데이터 과학자로 일할 만한 소양과 경험을 갖춘 사람을 찾아낼 수 있는 안목을 가지고 잠재적 데이터 과학자들을 찾아서 기업에 영입하는 것이다. 실무자급 데이터 과학자들은 이런 방법으로 어느 정도 영입이 가능하다. 리더급 데이터 과학자는 우리나라에 절대적으로 부족하며, 리더급 데이터 과학자를 찾는 문제에 대해서는 별도로 같이 생각해보자.

왜 이런 방법이 가능한지에 대해서는 필자의 경험을 공유하는 것이 좋을 것 같다. 필자의 경험을 토대로 좋은 데이터 과학자를 찾기 위한 방법을 같이 한번 살펴보자. 

필자는 물리학을 전공하기 시작하면서, 당시 빠르게 발전하고 있던 컴퓨터 기술을 이용하면 물리학 문제를 더 잘 풀 수 있지 않을까 하는 생각을 하게 되었다. 그래서, 물리학을 공부하면서 컴퓨터 과학과 공학에 관련된 공부도 열심히 하였고, 이런 과정에서 자연스럽게 물리학적 사고방식과 함께 컴퓨터 및 정보 기술에 관한 소양도 쌓을 수 있게 되었다.

필자가 대학원에 진학하여 박사 학위를 밟게 될 즈음 요즘 딥러닝으로 불리는 인공신경망(Artificial Neural Network; ANN) 기술이 주목 받고 있었고, 대학 4학년 때 ‘생물인지심리학(biological cognitive psychology)’이라는 과목을 들었던 필자는 인공신경망을 전공하기로 마음을 먹고 뇌과학과 인공신경망에 대한 연구를 시작하게 되었다. 이렇게 뇌과학과 인공신경망을 전공하면서 자연스럽게 요즘 데이터 과학자들에게 중요하게 여겨지는 데이터 마이닝, 머신러닝과 인공지능 기술에 대해서도 깊이 있는 소양을 쌓을 수 있는 기회를 가질 수 있었다.

박사 과정중에 가속기 물리학으로 전공이 바뀌게 되면서 CERN에서 추진하는 LHC 실험에서의 빅데이터 문제를 만나게 되었고, 가속기 물리학을 전공하기 전에 필자가 연구했던 인공신경망을 비롯한 인공지능 기술이 이 LHC실험 빅데이터의 수집과 처리에 중요한 역할을 하겠다는 것을 알아차렸다. 당시 오늘날의 클라우드 컴퓨팅이나 빅데이터 기술과 같이 사회에서 차세대 정보기술로 주목받던 그리드 컴퓨팅 기술을 활용한 실험 데이터 분석 연구를 하게 되면서 인공지능 기술을 이용해 실험 데이터의 수집과 처리를 자동화하고, 이를 그리드 컴퓨팅 기술을 이용해 대용량 데이터 처리로 확장하면 새로운 과학 분야를 개척할 수 있겠다는 생각이 들었다. 요즘 얘기하는 소위 ‘빅데이터’ 문제를 풀기 위한 연구를 시작했던 것이다. 

필자가 위와 같이 빅데이터 기술에 대한 일을 개인적인 확신을 가지고 시작할 당시에는 ‘빅데이터’라는 말이 없었다. 당시 필자가 하려는 일을 가장 잘 설명해주는 말이 ‘지능형 대용량 데이터 처리(Intelligent Large-scale Data Processing)’이었고, 얼마 지나지 않아 ‘데이터 집중 과학’이라는 말이 튜링상을 받은 짐 그레이(Jim Gray)와 그리드 컴퓨팅 분야의 대가인 토니 헤이(Tony Hay)에 의해 쓰이기 시작하였다. 당시 필자가 하려는 일을 다른 사람들과 필자의 경력에 중요한 역할을 할 분들에게 소개 하기 위해 ‘데이터 집중 과학’을 연구한다는 말로 필자의 경력을 소개하곤 했다.

2010년경 빅데이터라는 말과 데이터 과학자라는 말이 등장하면서 필자가 하는 일을 가장 잘 설명해주는 말이 바로 이 ‘빅데이터’와 ‘데이터 과학자’라는 것을 알게 되었다. 그 이후로 필자는 필자가 하는 일을 ‘빅데이터’ 전문가, 또는 ‘데이터 과학자’라고 주변 지인들에게 소개하기 시작하였다. 필자가 빅데이터 전문가, 데이터 과학자로서 일을 시작하게 된 것은 데이터 과학자라는 말이 사용되기 훨씬 전인 2001년부터였지만, 데이터 과학자라는 말로 필자의 경력을 소개하기 시작한 것은 2011년부터인 8년여밖에 되지 않은 것이다. 그러니까 필자의 경우는 필자의 경력을 키우던 와중에 만난 문제를 해결하고 더 잘 하려는 와중에 자연스럽게 ‘빅데이터’ 전문가로서, ‘데이터 과학자’로서 경력과 실력이 쌓이게 된 것이다. 

사실 빅데이터 문제는 과학계에서는 꽤 오래전부터 이슈가 되어왔던 문제였고, 슈퍼컴퓨팅 기술 분야에서 해결하여야 하는 중요한 연구주제이기도 했다. 거대한 입자 가속기와 영상 빅데이터를 쏟아내는 최첨단 검출기를 실험 장비로 사용하는 고에너지 물리학, 거대한 우주 현상을 연구할 수 있도록 우주에 대한 방대한 영상 데이터를 쏟아내는 허셜 우주 망원경, 전 세계의 각종 천문대와 아레시보 전파 망원경 등의 다양한 천문 관측 장비를 활용하는 천문학과 천체물리학, 유전자 염기 서열과 단백질 아미노산 서열과 구조, 단백질 결정을 해석할 수 있게 돕는 X선 결정 사진 등의 빅데이터를 쏟아내고 분석해야 하는 생물정보학과 현대 분자생물학에 이르기까지 현대 과학은 다양한 형태의 빅데이터를 처리해야 하는 문제에 직면하고 있다.

위와 같이 현대 과학에서 빅데이터를 처리해야 하는 문제는 사실 1980년대 후반부터 이미 과학계에서 부각이 되고 있었고, 이를 위해 다양한 수퍼컴퓨팅 기술과 분산 컴퓨팅 기술이 개발되어 왔다. 다만 산업계에서는 이를 모르고 있었을 뿐인데, 웹 기술이 발전하면서 웹 데이터를 이용한 광고 비즈니스 모델을 처음으로 사업화하던 야후와 구글 같은 인터넷 검색 서비스 사업자들이 처음으로 빅데이터를 이용한 수익을 내기 시작한 것이 오늘날의 빅데이터 산업과 트렌드의 시작이다.

위와 같은 필자의 경력 성장의 과정을 좋은 데이터 과학자를 찾는데 적용해볼 수 있을 것이다. 현재 이공학 분야에는 잠재적인 데이터 과학자들이 많다. 위에서 간단히 언급했듯이, 현대 과학은 다양한 실험 장비에서 쏟아져 나오는 빅데이터를 적절하게 처리할 수 있어야만 과학자들이 실험 데이터를 해석하고 새로운 과학적 돌파구를 만들어낼 수 있었기에, 이들 과학자는 빅데이터 문제에 대해서 고민을 하지 않을 수밖에 없었다. 

위의 필자 사례에서 살펴보았듯이, 빅데이터 문제는 산업계에서 먼저 시작된 것이 아니라 기초과학 분야에서 먼저 시작되었다. 이들 빅데이터 문제를 해결하기 위해 노력했던 과학자, 공학자들은 자연스럽게 빅데이터를 다루어 연구 대상을 연구하고 조사하여 새로운 지식과 통찰을 밝혀내는 데이터 과학의 프로세스와 기술을 자연스럽게 익히게 되었다. 비록 데이터 과학자라는 말로 자신들을 소개하지는 않지만, 데이터 과학자로서 소양과 기술은 이미 충분히 가지고 있는 것이다.
 


그렇다면, 과학, 공학의 어떤 분야에서 데이터 과학자로서 소양과 기술을 갖춘 잠재적인 데이터 과학자 후보자들을 찾을 수 있을까? 좀더 구체적으로 같이 살펴보자.

좋은 데이터과학자를 어디에서 찾을 수 있는가? – 데이터 과학자를 찾기 용이한 분야
위에서 필자는 데이터 과학자로서 필요한 소양과 기술을 자연스럽게 쌓게 되는 자연과학과 공학 분야들이 있다고 언급하였다. 이제 이들 자연과학과 공학 분야에서 좋은 데이터 과학자 후보자들을  찾는 방법에 대해서 같이 생각해보자. 데이터 과학자라는 타이틀을 걸고 일하고 있는 경력이 어느 정도 쌓인 데이터 과학자를 영입하는 것이 제일 좋겠지만, 현재 데이터 과학자로 일하는 전문가들이 수요에 비해서 많이 부족하기 때문에 위와 같이 빅데이터 문제를 해결해 일하는 과학 분야에서 경력을 쌓고 일하다가 산업계와 IT 분야로 경력 전환을 시도하는 과학자들을 데이터 과학자로 영입하는 방법에 대해서 같이 생각해보려고 한다. 

데이터 과학자로 경력 전환을 했을 때 성공적인 경력을 쌓을 수 있는 역량을 갖춘 과학자와 공학자들이 IT 분야 외에도 많이 일하고 있다. 최근 데이터 과학자로 전환하는 과학자가 많은 분야로 필자가 일했던 실험 고에너지 물리학, 그리고 천문학 및 천체 물리학을 들 수 있다. 앞에서도 설명했듯이, 이들 실험 고에너지 물리학, 천문학 및 천체 물리학의 경우 30년 전부터 빅데이터 문제를 해결하기 위해 다양한 IT 기술을 개발하고 연구에 적용하고 있던 분야이다. 실제로 미국에서는 최근 고에너지 물리학과 천문학, 천체 물리학 전공자들이 데이터 과학자로 성공적인 경력 전환을 한 사례가 늘어나는 추세다.

이들 고에너지 물리학과 천문학, 천체 물리학 전공자들은 우선 배경이 물리학이다 보니, 물리학에서 쓰이는 다양한 수학에 익숙하며, 실험 설계와 데이터 분석 및 해석에 중요한 역할을 하는 통계학도 상당한 지식을 가지고 있다. 더군다나 물리학이 오늘날 산업 기술의 뿌리가 된 학문이다 보니 산업 분야에서 쓰이는 다양한 산업 수학들이 물리학에서 쓰이는 수학에 근간을 두고 있고, 산업 수학을 컴퓨터로 풀어내기 위한 다양한 수치 계산 방법들도 초기에는 물리학자들이 물리학 연구를 하려다가 고안해낸 것들이 많다.

현대 물리학자들은 연구를 위해 계산을 많이 해야 하다 보니, 기본적으로 컴퓨터 및 IT기술과 친숙할 수밖에 없다. 특히, 현대 물리학은 물리학적 방정식을 수치로 풀어내는 수치 해석과 컴퓨터 시뮬레이션을 이용한 연구 없이는 실험 데이터 해석이 쉽지 않을 정도로 컴퓨터를 많이 사용한다. 손과 물리학자의 두뇌로 물리학적 방정식을 푸는 전통적인 물리학적 문제 해결 방법으로는 도저히 발견해낼 수 없는 결정론적 미분방정식의 ‘혼돈(chaos)’ 현상과 ‘이상 끌개(strange attractor)’와 같이 컴퓨터를 통해서만 발견할 수 있는 현상도 있다.

고에너지 물리학과 천문학, 천체 물리학에서는 연구하려는 대상을 연구하기 위해 필요한 데이터를 고민하고, 이를 수집하기 위한 실험 장치와 과정, 프로세서를 설계하는 것이 언제나 가장 먼저 하는 일이다. 이들은 데이터를 수집하는 과정을 자동화하고 실험을 통해 알고자 하는 것이 무엇인지 문제를 정의해서 실험 장치와 데이터 수집, 처리 과정을 설계하는 것이 익숙하여, 데이터 과학을 위한 데이터 처리 파이프라인을 설계하는 것도 자연스러운 일이다. 

뿐만 아니라 물리학 연구를 위한 수학, 통계학에도 강한 배경지식을 가지고 있으며 연역을 주로 사용하는 수학자들과는 달리 데이터로부터 일반적인 자연의 법칙을 상상하고 추론해내는 귀납적인 연구 방법론과 사고방식도 익숙하다. 물리학자들은 수학으로 표현된 물리학적 법칙이 품고 있는 의미와, 이 물리학 법칙이 새로운 자연 현상에 대해 예측하는 바를 알아내기 위해 물리학적 방정식으로 표현된 모델로부터 연역적으로 사고하여 현상을 예측한다. 연역적 사고를 활용하는 것과 함께 수집된 데이터가 연역적 사고로부터 예측된 현상에 대한 가설을 지지하는지, 아니면 또 다른 흥미로운 현상을 암시하는지 생각하는 귀납적 사고방식도 많이 활용하여 실험 데이터 분석을 한다.

물리학 실험을 위한 실험 장치들은 실험을 수행하는 물리학자가 아니고서는 실험 장치의 각 구성요소가 어떤 역할과 기능을 하는지 이해하기 어렵다. 이런 이유로 자신이 원하는 실험을 하기 위한 실험 장치에 필요한 데이터 수집, 처리, 가공, 분석 소프트웨어는 실험을 수행하는 물리학자 자신 외에 다른 사람이 대신 개발해주기는 쉽지 않은 일이다. 물리학 실험을 위한 실험 장치들 대부분이 기존에 없던 새로운 실험을 위한 장치들로, 일부 일반적으로 많이 쓰이는 범용 장비 외에 실험 장치를 온전한 기능을 위해 통합하기 위해서는 물리학자들 자신이 직접 시스템을 개발하고 운영할 수밖에 없다.

위와 같이 고에너지 물리학, 천문학, 천체 물리학적 실험과 관찰을 위해서 만드는 실험 장치와 데이터 수집, 처리, 가공, 분석 소프트웨어와 컴퓨터 시스템을 만드는 과정은 데이터 과학자들이 데이터 과학 시스템을 만드는 과정과 많이 닮았다. 이런 이유로, 이들 고에너지 물리학자와 천문학자, 천체물리학자들은 데이터 과학자라는 타이틀을 가지고 직접 기업 경영 현장에서 일하는 데이터 과학자가 아니라고 하더라도, 기업의 비즈니스 모델과 업을 어느 정도 이해하게 되면 데이터 과학자로서 일할 수 있는 역량을 충분히 갖추고 있는 것이다.

오늘날 첨단 비즈니스들은 사실 과학, 기술의 전문적인 지식과 경험이 있어야 그 업과 비즈니스 모델을 이해할 수 있는 것들이 많다. 그런 의미에서 다양한 학문과 공학적인 배경지식이 있어야 실험 장치를 만들 수 있고 실험을 수행할 수 있는 고에너지 물리학, 천문학, 천체 물리학과 같은 거대 과학 연구를 전문적으로 수행하는 과학자들이 첨단 비즈니스의 작동 원리와 업을 이해하고 데이터를 다루어 기업의 비즈니스에 도움이 되는 일을 하는 것이 그렇게 어려운 일은 아니다. 

좋은 데이터 과학자를 찾을 수 있는 또 다른 분야로 엔지니어링 과학과 항공우주과학 분야를 들 수 있다. 원자력, 수력 발전, 스마트 팩토리와 관련되는 공장 자동화와 대규모 플랜트 엔지니어링, 핵융합과 같은 대규모 실험 장치를 이용한 엔지니어링 과학, 항공우주과학과 같은 분야는 건설과 개발의 대상이 되는 플랜트나 거대 실험 장치, 그리고 항공기나 우주발사체 등의 기체들을 만드는 것 자체가 큰 위험을 수반하는 일이다. 이 때문에 전통적으로 많은 종류의 다양한 수치 모델을 통해 다양한 수치 해석과 예측 분석을 수행하고, 플랜트나 실험 장치, 항공기와 발사체 등의 상태를 점검하기 위한 다양한 센서와 데이터 수집 장치를 이용해서 데이터를 분석하는 데 익숙하다.

무엇보다도 엔지니어링 과학과 항공우주과학 분야에서 일하는 과학자와 공학자들이 데이터 과학자로서 적합한 이유는 이들 분야가 혼자의 힘으로는 절대로 목표를 달성할 수 없는, 절대적으로 협업이 요구되는 분야이기 때문이다. 엔지니어링 과학과 항공우주과학 분야는 모두 대규모의 예산과 자원, 인력이 동원되고 꽤 긴 시간을 통해 계획을 세우고 설계하여 건설, 개발해야 하는 분야이기 때문에 철저한 위험 관리에 큰 노력을 기울이는 분야이기도 하다. 이렇게 대규모의 협업이 요구되는 분야에서 자신의 역할을 다하고, 복잡한 시스템의 전체를 이해하면서 세부 요소에서 일어나는 문제를 해결하는 훈련을 받은 과학자와 공학자들은 데이터 과학자로서 품성과 기술을 역시 충분하게 갖추고 있다고 볼 수 있다.

엔지니어링 과학과 항공우주과학 분야의 과학자들과 공학자들이 데이터 과학자로서 적합한 또 하나의 이유는 시뮬레이션과 모델링에 강하다는 것이다. 전통적으로 대규모 엔지니어링 과학과 항공우주과학 분야에서 만드는 플랜트, 거대 실험 장치, 그리고 항공기와 우주발사체는 쉽게 만들 수 없고 실패할 경우 막대한 예산과 자원의 손실이 일어나기 때문에 이들을 만들기 전에 일어날 수 있는 문제점과 위험을 사전에 예측하고 해결 방안을 찾기 위한 시뮬레이션과 모델링, 예측 분석에 매우 익숙한 분야이다.

데이터 과학자들이 기업 경영에 줄 수 있는 가치는 기업 경영의 위험 관리를 경영자의 직관과 과거 데이터의 단순한 외삽을 통해 하는 방식에서 벗어나게 하는 것이다. 이들 데이터 과학자들은 비즈니스 위험 관리의 대상이 되는 시장의 현상, 비즈니스 모델의 이슈들을 체계적으로 시뮬레이션할 수 있는 모델을 만들고, 이를 기반으로 다양한 시나리오에 대한 예측 분석을 통해 보다 정교하고 체계적인 방법으로 기업 경영의 위험을 관리하게끔 기업 경영의 패러다임을 바꿀 수 있다. 시뮬레이션과 모델링, 예측 분석을 통한 문제 해결에 익숙한 엔지니어링 과학과 항공우주과학 분야의 과학자와 공학자들이 바로 이런 측면에서 데이터 과학자로서 적합하다.

엔지니어링 과학과 항공우주과학 분야의 과학자들과 공학자들이 데이터 과학자로서 적합한 또 다른 이유 중 하나는, 이들 분야에서 개발, 운영하는 플랜트, 거대 실험 장치, 그리고 항공기와 우주발사체 등이 바로 대표적인 빅데이터 원(source)이라는 점이다. IT업계 종사자들이 IT 기술의 관점에서만 빅데이터를 접했기 때문에 잘 모르는 경향이 있는데, 사실 빅데이터라는 말이 IT 미디어상에 등장하기 꽤 오래전부터 이들 분야에서는 빅데이터를 다루어 왔다. 특히, 플랜트와 거대 실험 장치, 항공기와 우주발사체 등의 상태를 점검하고 문제점을 파악하기 위해 많은 수의 센서와 데이터 수집 장치를 장치 곳곳에 설치하여 다양한 종류의 데이터를 수집하고 분석에 활용한다. 

마지막으로 데이터 과학자로서 적합한 배경지식과 경험을 가지고 있으면서 경력 전환이 상대적으로 용이한 전문가들로 과학 기술 계산(scientific computing) 소프트웨어를 연구하거나 개발하는 소프트웨어 엔지니어들을 들 수 있다. 특히 eScience라 불리는 분야를 연구개발 했거나 관련된 소프트웨어를 개발한 경력을 가진 이공학 전공자들은 데이터 과학자로서 소양을 어느 정도 갖추고 있다고 볼 수 있다.

과학 기술 계산 소프트웨어의 대표적인 소프트웨어가 바로 데이터 분석에 많이 쓰이는 MATLAB과 같은 소프트웨어이다. 우리나라에 많이 알려진 과학 기술 계산(scientific computing) 소프트웨어로는 MATLAB, Mathematica, IDL, Origin 등과, 기업에서 통계 분석에 많이 활용하는 SAS, IBM SPSS/코그너스 등의 분석 환경들이 있다.

과학 기술 계산 분야는 원래 수퍼컴퓨터와 같은 고성능 컴퓨팅에서 과학기술 및 엔지니어링 계산을 빠르고 쉽게 할 수 있는 기술을 연구하고, 과학기술 및 엔지니어링을 위한 수치계산, 데이터 가시화, 워크플로우 및 미들웨어, 사용자 인터페이스 등을 연구하는 분야이다. 과학 기술 계산 소프트웨어를 개발하는 소프트웨어 엔지니어들의 일부는 과학 기술 계산 및 데이터 분석 소프트웨어와 수치 계산용 소프트웨어를 활용해 연구개발을 하던 과학자와 엔지니어들이다.

과학 기술 계산 소프트웨어를 개발하는 소프트웨어 엔지니어들은 기본적으로 과학 기술 계산을 활용하는 자연과학 및 공학, 엔지니어링 분야의 데이터 수집, 가공, 처리, 분석 과정과 요구사항에 대해서 잘 이해하고 있는 사람들이다. 컴퓨터 과학이나 공학을 전공한 소프트웨어 엔지니어가 아닌 과학자나 엔지니어 출신의 소프트웨어 엔지니어들은 이들 데이터 분석 소프트웨어를 활용하는 수치 계산과 데이터 분석에도 익숙한 경우가 많아 데이터 분석도 어려움 없이 소화할 수 있는 경우가 많다.

특히 2007년도부터 많은 관심을 받기 시작한 eScience 분야를 연구했던 경력이 있는 소프트웨어 엔지니어나 과학자, 공학자들은 데이터 과학이라는 말이 나타날 즈음부터 이미 데이터 과학을 잘하기 위한 각종 기술과 소프트웨어를 개발하려 노력했던 사람들이다. 특히 eScience 발전 초반에 연구자들이 해결하려던 문제는 빅데이터를 활용하는 데이터 집중 과학 분야에 필요한 데이터 수집, 가공, 처리, 관리, 분석을 위한 분산 컴퓨팅 시스템과 소프트웨어를 개발하는 문제였다.

결국 eScience를 연구한 연구자들과 소프트웨어 엔지니어들은 오늘날 우리가 데이터 과학, 빅데이터 시스템이라고 부르는 기술들을 연구했다. 이 분야에서 일했던 연구자와 소프트웨어 엔지니어들이 오늘날 데이터 과학 및 빅데이터 분야에서 쉽게 적응하고 성과를 낼 수 있는 이유이다.

과학 기술 계산 분야의 소프트웨어 엔지니어, 과학자 및 공학자, 특히 eScience 전문가들이 앞에서 소개한 고에너지 물리학, 천문학, 천체물리학, 엔지니어링 과학, 항공우주과학 분야 전문가들과 다른 차별점은 바로 소프트웨어 개발과 엔지니어링에 더 전문성을 가진 사람들이라는 것이다. 데이터 과학을 위한 데이터 처리와 분석의 전 생애주기(lifecycle)와 프로세스를 이해하고 있으면서도, 이런 데이터 과학을 효과적으로 수행하기 위해 필요한 IT 시스템과 소프트웨어를 전문적으로 개발할 수 있는 소프트웨어 개발과 엔지니어링 역량이 좀더 체계적으로 갖추어져 있는 전문가들이다. 이런 이유로 데이터 분석과 해석에서도 역량을 발휘할 수 있지만, 데이터 과학을 위한 IT 시스템을 개발하는 업무에서 더 효과적으로 역량을 발휘할 수 있다.

지금까지 이력서상에서 데이터 과학자라는 말을 직접적으로 쓰고 있지 않더라도 데이터 과학자로서 역할을 훌륭하게 해낼 수 있는 분야의 전문가들이 어떤 사람들이 있는지 같이 간단하게 살펴보았다. 이들은 데이터 과학자로서 소양을 어느 정도 갖추고 있기 때문에, 데이터 과학이 적용되는 비즈니스의 업의 특성과 배경지식만 어느 정도 소화할 수 있다면 데이터 과학자로서 활동할 수 있는 사람들이다. 만약 이들이 데이터 과학자로 경력을 전환하고 싶은 충분한 동기부여만 되어 있다면 기업에서 데이터 과학자로서 채용을 고려해볼 수 있다.

데이터 과학자로서 위의 분야에서 일하는 과학자, 공학자들보다 최근 인공지능 기술 연구자나 데이터 마이닝 전문가, 또는 컴퓨터 과학, 공학자들을 영입하려는 회사가 꽤 많고, 주요 대학에서 개설되는 빅데이터 과정도 컴퓨터 과학 및 공학 과정의 연장으로 개설되는 경우가 많은데 필자 개인적으로는 이런 방법이 실제 기업의 입장에서는 크게 효과를 보기 어려울 것으로 생각한다.

컴퓨터 과학과 머신러닝, 딥러닝 등의 인공지능 기술 전문가, 데이터 마이닝 전문가들은 빅데이터 처리와 분석에 사용되는 알고리즘과 주요 분석 도구에 대해서는 전문적으로 잘 알고 연구하지만 대개 이들 알고리즘과 분석 도구가 현실적으로 어떤 문제에서 잘 쓰일 수 있는지, 그리고 이렇게 응용된 알고리즘과 분석 도구를 통해 얻은 결과가 어떤 의미와 맥락을 가지는지에 대해 깊게 생각하거나 연구하지는 않기 때문이다.

데이터 과학자로서 소양을 갖추게 되는 것은 위의 인공지능과 머신러닝 기술, 데이터 마이닝 기술을 통해 얻은 데이터의 구조와 의미를 적용되는 분야의 맥락에 맞게 해석하고 적용하는 과정에서 생기기 때문이다. 데이터 과학에 쓰일 수 있는 데이터 분석 알고리즘, 인공지능 기술, 데이터 마이닝 기술에 대한 전문적인 이해와 지식은 분명히 데이터 과학 업무에 도움이 되는 것은 사실이지만 그것이 전부는 아니라는 것을 염두에 둘 필요가 있다. 위에서 필자가 언급한 자연과학과 엔지니어링 과학, 공학 분야의 과학자, 공학자들을 잠재적 데이터 과학자로서 검토하는 것이 데이터 과학자의 수가 절대적으로 부족한 우리나라 현실에서는 매우 중요하다.

전문가용 소셜 네트워크 서비스인 링크드인의 2019년 전망에 따르면 과학기술 분야 최고의 인재들이 많이 배출되는 미국의 경우에도 데이터 과학자의 수요가 가장 많을 것으로 보인다. 연간 4,000개 이상의 데이터 과학자 자리가 기업에서 새로이 요구되어 56% 이상 증가할 것으로 전망되었다[2]. 구직 사이트 ‘인디드(Indeed)’의 경우에도 2018년 작년 한 해 동안 데이터 과학자의 수요가 29% 증가한 것으로 집계되었다[2]. 지난 2017년 미국의 버닝글래스 테크놀로지, IBM, 비즈니스 고등 교육 포럼(Business Higher-Education Forum; BHEF)이 공개한 보고서에서 예측된 것과 같은 2020년까지 데이터 과학자의 수요가 29%이상 치솟을 것이라는 예측에 거의 부합하는 데이터이다[9].

영국의 경우에도 2019년에 데이터 과학자를 포함한 데이터 분석 및 관련 인력을 채용하겠다는 회사가 전체 회사의 80%에 달하고 있다[10]. 자사의 인력들이 데이터 및 디지털 마인드가 약해 역량을 보완해야 한다고 생각하는 경영진이 많은 것으로 조사되었다[10]. 

미국과 영국의 경우도 이런데, 우리나라의 경우는 데이터 과학자의 수요가 공급보다 턱없이 많을 것으로 보인다. 그나마 많은 좋은 인재들이 성공적인 경력을 쌓기 위해 미국 등의 선진국으로 떠나는 상황에서 데이터 과학자라는 말을 직접 사용하는 전문가를 찾는 것은 훨씬 더 어려울 수밖에 없다.

이렇게 데이터 과학자의 공급은 모자란 반면, 위에서 언급한 고에너지 물리학, 천문학, 천체물리학, 엔지니어링 과학과 항공우주과학 등 분야의 과학자, 공학자들은 해마다 꾸준히 배출되고 있다. 이들이 우리나라에서 전공을 살려 일할 수 있는 정부출연연구소나 기업의 숫자는 제한된 경우가 많다. 데이터 과학자로서 성장시켜 훌륭하게 일할 수 있는 이들 잠재적 데이터 과학자들이 자신들의 역량을 발휘할 기회를 주지 않는다면 우리나라로서는 큰 손해가 될 것이다.

특히 최근 미국의 경우에도, 고에너지 물리학이나 천문학, 천체 물리학, 우주 과학을 전공한 과학자들이 자신의 전공에 맞는 직장을 찾지 못하거나 전공과는 다른 일을 통해 경력 전환을 시도하면서 데이터 과학 분야에도 많이 진출하고 있다[3-8]. 2010년대 중반부터 미국 여러 대학에서 데이터 과학, 빅데이터에 관련된 과목을 가르치고 데이터 과학자를 양성하기 위한 정규 교육 과정이 대학원을 중심으로 많이 생기기도 했지만, 이들 기초 과학에 대한 일자리나 연구자의 수요가 예전보다는 많이 줄었기 때문에 모든 고에너지 물리학, 천문학, 천체 물리학 전공자들이 자신의 전공과 관련된 일자리를 찾는 것이 힘들어져 경력 전환을 많이 시도하기 때문이다.

우리나라는 미국의 상황보다 더 좋지 않은 상황이다. 대학에서 기초 과학과 관련된 학과와 교육 과정은 거의 고정적으로 개설되어 있어서 매년 꾸준히 인력이 배출되고 있지만, 이들이 일할 수 있는 정부출연연구소나 관련 기업의 일자리는 미국과 유럽 선진국보다 턱없이 모자라기 때문이다. 그렇지 않아도 이들 이공학 전공자들이 더 나은 연구 환경과 일자리를 찾기 위해 미국과 유럽 선진국의 연구소와 기업으로 나가는 상황이며, 이런 상황이 계속되다 보니 잠재적인 데이터 과학자 후보들도 외국으로 빠져나가 우리나라에서 적절한 역량을 갖춘 데이터 과학자를 찾기가 더욱 어려워지고 있다.

데이터 과학자를 너무 멀리서 찾지 말고, 데이터 과학자로서 기본 소양을 어느 정도 갖추고 있는 이공학 전문가들을 찾아서 이들의 경력 전환을 유도해보자. 현재 우리나라의 현실에서 데이터 과학자를 쉽게 찾고 조직과 회사에 기여할 수 있게 하는 더 효과적인 방법이 될 것이라고 필자는 굳게 믿는다. 이들을 어떻게 믿고 데이터 과학자로 채용하느냐고 묻는다면 앞서 잠시 소개해드렸듯이 필자의 사례를 주저없이 소개해드릴 수 있다. 필자가 물리학자로서 데이터 과학자로 활동하고 있는 것은 필자에게도 큰 행운이었다고 자신 있게 말할 수 있다.

좋은 데이터과학자인지 어떻게 판단할 수 있는가?
마지막으로 기업의 입장에서 이렇게 데이터 과학자로 경력을 전환하는 이공학 전문가들을 채용할 때, 지원하는 데이터 과학자 후보들이 데이터 과학자로서 성공적으로 경력에 안착할 수 있는지 판단할 수 있는 방법을 필자의 경험에 비추어 몇 가지 소개해 보려고 한다. 아래 소개하는 방법은 필자의 경험에 따른 것이므로 참고로 활용하면 좋을 것 같다.

사실 실제 면접에 들어갔을 때 데이터 과학자로서의 소양을 볼 수 있는 기술적인 질문들과 점검 사항, 노하우들이 아래 소개하는 것 외에 많이 있지만, 이 글에서 모두 소개하기는 지면이 부족하다. 이들 질문과 점검 사항들이 데이터 과학에 쓰이는 인공지능이나 머신러닝, 데이터 마이닝과 분석 알고리즘이나 통계학 등의 데이터 과학 전문가들만이 그 의미를 이해할 수 있는 것이기 때문이기도 하다. 이런 질문이나 점검 사항들이 데이터 과학자로서 지원자의 소양을 판단하는데 왜 중요한지 설명하려면 글이 많이 길어질 것 같아 일반적인 면접관들이 확인할 수 있는 내용을 중심으로 간단하게 소개하고자 한다.

첫번째로, 지금까지의 경력 성장 경로를 보는 것이다. 업무내용이 문제 해결에 초점이 맞추어져 있고 데이터 수집, 처리, 가공 및 분석 파이프라인 전체를 설계하고 개발했던 경험, 모두를 경험하진 못했더라도 자신이 수행했던 업무와 실험의 전체 큰 그림을 보고 일해왔는지 확인할 수 있으면 데이터 과학자로서 일할 수 있는 경험을 훌륭하게 쌓았다고 볼 수 있다. 특히, 작은 문제라 할지라도 하나의 문제 해결을 위해 데이터 수집부터 분석까지의 전 과정을 설계하고 실행한 경험이 있는지 확인해보는 것이 중요하다.

문제 해결한 결과를 논문이나 보고서의 형태로 논리 정연하게 정리해서 학술회의에서 꾸준하게 발표하거나, 고객사에 프리젠테이션한 경험이 충분한지도 살펴야 한다. 문제 해결의 결과를 보고서나 논문과 같은 적절한 문서와 학술회의나 보고회의 등의 회의 형태로 정리하고, 명료하고 간결하게 전달할 수 있는 커뮤니케이션 능력도 데이터 과학자에게 매우 중요하기 때문이다.

경력 성장 과정에서 데이터 과학과 관련된 분야와 기술들을 적극적으로 배우고 활용했는지도 점검하는 것이 필요하다. 이런 점검 과정은 컴퓨터 과학이나 공학 등 IT 기술과 직접적으로 연관이 있는 전문가가 아닌 자연과학이나 공학 분야에서 활동하던 전문가들이 데이터 과학에 필요한 컴퓨터 과학 지식을 빠르게 흡수하고 데이터 과학 실무에 적용할 수 있는지 여부를 판단하는 데 필요하다. 

특히 이들 자연과학과 공학 전문가들이 가진 인공지능과 머신러닝, 데이터 마이닝 등의 분야에 대한 배경지식은 단순히 텐서플로(TensorFlow)와 같은 기술들을 배경지식 없이 적용만 한 것인지, 어느 정도의 배경지식을 이해하고 자신이 해결하려던 문제의 맥락에 맞게 적용한 것인지 점검하는 과정이 필요하다. 인공지능과 머신러닝, 데이터 마이닝과 관련된 알고리즘이나 기술을 배경지식에 대한 이해나 자신이 풀려던 문제 해결의 맥락 없이 그저 가져다 쓰기만 했다면 일반 소프트웨어 엔지니어와 크게 차이가 없기 때문이다.

컴퓨터 과학이나 공학 전공자가 데이터 과학자로서 지원했을 경우에는 이들이 가지고 있는 데이터 과학 관련 컴퓨터 과학과 IT 전문 지식을 실용적인 문제에 적용하고 해결하는 데 응용한 경험이 충분하게 있는지 점검하는 것이 필요하다.

컴퓨터 과학 및 공학 전공자는 자연과학이나 공학 전공자보다 데이터 과학과 관련된 알고리즘과 모델, 컴퓨터 과학의 체계적이고 폭넓은 지식을 가지고 있다는 것에는 장점이지만, 실용적인 문제에 적용하고 해결하는 과정에서 얻게 되는 직관과 해당 데이터 과학 기술들의 쓰임새에 대한 이해의 깊이가 자연과학 및 공학 전문가에 비해 낮을 수 있다. 

이들 컴퓨터 과학 및 공학 전문가가, 특히 인공지능이나 머신러닝, 데이터 마이닝 등의 데이터 과학과 관련된 분야를 전공한 사람일 경우, 단순히 해당 전문 분야의 지식을 확장하는 연구만 한 것이 아니라 실용적인 실세계 문제에 적용해보고 그 지식과 기술이 실세계 문제를 해결하는 데 어떤 한계와 어려움이 있는지를 이해하고 있나 점검해보는 것이 매우 중요하다.

자연과학과 공학 분야 전문가들은 컴퓨터 과학, 공학 전공자보다 이런 측면에서 데이터 과학자로서 더 빨리 적응할 가능성이 높다. 자신의 전문 분야에서 해결하려는 문제의 맥락에 맞게 데이터 과학에 쓰이는 컴퓨터 과학, 공학 기술을 적용하는 과정에서 자연스럽게 해당 지식과 기술이 자신의 문제를 해결하는데 어떤 맥락과 기술적인 한계를 가지고 적용되는지 구체적으로 고민하고 연구하게 되기 때문이다. 이런 경험이 쌓이면서 데이터 과학의 특정한 기술이나 지식에 의존하기 보다는 문제 해결의 본질에 더욱 집중하는 경험을 쌓게 되기 때문에 데이터 과학자로서 문제 해결 마인드를 더욱 날카롭게 다듬게 된다.

정리하면, 데이터 과학자로서 성공 가능성을 가장 믿을 만하게 엿볼 수 있는 것은 데이터 과학자로 지원한 대상자의 경력 성장 경로이다. 이 경력 성장 경로를 이력서나 면접 등을 통해 확인할 때에는, 

– 과학적 문제 해결의 전 과정, 데이터를 얻기 위한 실험 및 장치 설계, 데이터 수집, 처리, 가공, 분석까지의 전 단계를 직접 설계 하였거나 큰 그림을 가지고 이해하고 일을 하였는지
– 그 결과를 논문이나 보고서, 발표 등으로 논리적으로 정리하고 커뮤니케이션한 경험이 충분히 있는지
– 문제 해결 과정에서 새로운 데이터 분석 기법과 논리를 적극적으로 개발하고, IT와 컴퓨팅 기술을 적극적으로 활용하였는지

점검하는 것이 중요하다.

두번째로, 자기 일과 삶에 긍정적인 태도와 호기심이 있는지 확인하는 것이다. 대개 자기 일에 열정이 있고, 호기심과 하고 싶은 것이 많은 사람일수록 데이터 과학자로 경력을 성공적으로 전환하는 경향이 있고, 실제로도 그렇다고 한다.

비슷한 사례로 모바일 UX/UI 프로토타이핑 도구인 ‘인비전(InVision) 스튜디오’로 유명한 ‘인비전’이라는 회사는 사무실이 없이 전 직원이 전 세계에 흩어져 원격 근무를 하는 것으로 유명하다. 원격 근무 환경에서 직원들로부터 최상의 생산성을 끌어내기 위해 채용 단계에서 지원자에게 눈여겨보는 것 중의 하나가 하고 싶은 것이 많고 삶에 적극적인 자기주도적인 인재인지를 본다고 한다[11].

“각 분야에 맞는 인재가 있는 것처럼, 근무방식에도 적합한 인재가 있다. 원격 근무에 적합한 이들은 매일 가고 싶은 곳, 하고 싶은 일이 있고, 하고 싶은 질문도 있는 그런 적극적인 사람들이다.
인비전은 자유와 유연성에 가장 큰 만족감을 느끼는 사람들이 일하는 회사이다.” (마크 프레인, 최고인사책임자, Inc. 2015년 12월 28일자)

이렇게 하고 싶은 것이 많고 삶에 적극적인 사람들이 회사의 규정이나 눈치를 보면서 태만하지 않고 원격 근무를 하더라도 자기 일에 대한 자부심과 자신감을 가지고 능동적으로 일할 수 있기 때문이라고 한다[11].

데이터 과학자의 경우에도 문제 해결에 집중하기 위해서는 자신이 하는 데이터 과학 업무, 과학적 마인드와 데이터를 이용한 문제 해결이 기업 경영에 주는 가치에 대해 자기 나름의 확신이 필요하다.  이런 확신이 자신의 삶과 데이터 과학자로서 역할에 대해서 긍정적이고 적극적인 태도로 나타난다면 기업의 입장에서는 데이터 과학자에 대한 높은 생산성과 신뢰성을 기대할 수 있을 것이다.

과학자라면 의례 보통 사람에 비해 높은 수준으로 가지고 있을 특성인 호기심도 데이터 과학자가 조직에 주는 필수적인 가치이다. 정답이 없는 문제를 진득하게 달라붙어 해결해 나가기 위해서는 미지의 것을 두려워하지 않고 탐험해볼 수 있는 호기심이 일을 착수하고 진척시키게 할 수 있는 절대적인 동기가 되기 때문이다. 

과학자, 공학자들이 자연에 대한 지식, 새로운 기술에 대한 열망, 그리고 기술 혁신을 꾸준히 추구하게 하는 배경에는 과학자, 공학자들의 이런 자연과 기술에 대한 호기심과 과학자, 공학자로서 자신의 역할과 역량에 대한 긍정적인 태도와 확신이 가장 큰 동기부여 요인으로 작용한다. 데이터 과학자로서 조직의 별도 지시가 없이도 능동적으로 업무에 임하고 기업에 도움이 되는 분석의 결과와 통찰로 기여하기 위해서 이런 자가 일과 삶에 대한 긍정적인 태도와 호기심은 데이터 과학자의 동기 부여에 중요한 역할을 하므로 면접 시 차분하게 점검해보는 것이 중요하다. 

세번째로, IT 기술에 대한 관심과 열정이 있는지 확인해야 한다. 새로운 IT 기술을 들어 읊는 수준의 얕은 관심이 아니라, 자기 일과 문제 해결에 IT 기술이 중요함을 가슴 깊이 인식하고 적극적으로 배우고 활용해서 데이터 과학 업무의 생산성과 효과를 극대화하려는 관심과 열정이 필요하다.

물리학자들 중에서도 이론 물리학 등의 분야에서는 여전히 손으로 문제를 풀기를 좋아하고 IT 기술은 크게 관심이 없거나 좋아하지 않는 사람도 있다. 이런 일부 이론 물리학자들은 물리학자로서는 좋은 성과를 낼 수 있고, 과학적인, 수학적인 마인드와 지식, 통찰은 뛰어날 수 있을지 모르겠지만, 데이터 과학자로서는 적합하지 않다. 데이터 과학을 위해서 IT 기술은  우리가 매일 마시고 살아가는 공기와 같이 꼭 필요하다. 데이터 과학자로 경력을 전환하려는 이공학 전문가들이 새로운 IT 기술을 배우고 이를 자신의 업무에 적용하려는 의지와 열정이 없으면 데이터 과학자로 성공하기에 쉽지 않다. 이 점을 꼭 점검해야 할 필요가 있다.

IT 기술에 대한 관심과 열정은 문제 해결에 대한 집중력과 책임감과도 관련이 있다. 자신이 맞닥뜨린 문제를 자신의 전문 지식과 경험에 의존해서만 해결하려는 것이 아니라, 문제 해결을 위해 필요한 모든 것을 언제라도 배우고 연구해서 적용하여 풀어내려는 적극적인 마음 가짐을 가지지 않고는 쉽지 않은 일이다. 특히 기술 변화와 진보의 속도가 유난히 빨라 날이 갈수록 새롭게 발전하고 변하는 IT 기술에 대한 관심을 놓지 않고 꾸준히 학습하고 배워 업무에 적용한다는 것은 업무에 대한 성실성과 적극성을 보여주는 것이기도 하고, 문제 해결에 대한 집중력을 잃지 않고 데이터 과학자로서의 업무를 진지하게 대한다는 것을 보여주는 것이기도 하다.

면접을 볼 때, 데이터 과학자로 지원한 후보자가 이런 IT 기술에 대한 관심과 열정이 있는지 확인하기 위해서는 최근 새롭게 관심을 가지고 있는 IT 기술이 있는지를 물어보고, 그런 IT 기술에 대한 관심이 왜 생긴 것인지, 어떤 배경에서 그 IT 기술을 택하게 되었는지 물어보면 좋다. 데이터 과학자로서 적극적인 자세를 가진 후보자라면 자신의 연구나 업무를 더 잘하거나 문제 해결에 필요한 도구를 이리저리 탐색하며 찾다가 관심을 가지게 된 IT 기술을 알게 되었을 것이고, 그 IT 기술이 자신에게 왜 중요하고 유용한지 구체적으로 설명할 수 있을 것이다. 하둡과 스파크가 요즘 뜨는 기술이라더라는 식으로 그 IT 기술에 대한 관심의 이유를 답변하지는 않을 것이다.

지금까지 필자에게 가장 많은 문의가 오는 질문 중의 하나인 좋은 데이터 과학자들을 어떻게 찾을 수 있는지의 문제를 같이 살펴보았다. 데이터 과학자라는 경력 타이틀을 직접 명함에 새기고 다니면서 공식적으로 활동하는 데이터 과학자를 영입하거나 채용하는 것도 중요하지만, 데이터 과학자로서 역량과 마인드를 이미 어느 정도 충분히 갖춘 잠재적인 데이터 과학자 후보자들을 찾을 수 있는 이공학 분야 전문가들이 있음을 소개하였다. 이런 이공학 전문가들이 데이터 과학자로서 경력 전환을 원하거나 유도하는 방식으로도 좋은 데이터 과학자들을 찾고 영입할 수 있음을 설명하였다.

이렇게 경력을 전환하는 데이터 과학자 후보들이 기업의 데이터 과학 업무를 맡기에 적합한지 알아볼 수 있는 방법을 몇 가지 간단하게 살펴보았다. 지원자의 경력 성장 과정을 살펴보는 것, 그리고 과학자로서 꼭 가져야 하는 성품인 자기 일에 대한 긍정적인 태도와 적극성, 호기심 등이 삶에서 배어 나오고 있는지 점검하는 것, 그리고 마지막으로 IT 기술에 대한 관심과 열정, 활용에 대한 적극적인 태도와 경험을 점검할 것을 제안하였다.

이공학을 전공하고, 다양한 이공학 분야에서 데이터 과학자로 경력을 전환하는 전문가들을 데이터 과학자로 기업이 영입할 때 위의 세 가지를 잘 확인하면 기업의 입장에서도 큰 시행착오 없이 좋은 데이터 과학자를 찾을 수 있을 것이다. 

대학과 대학원에서 배우고 훈련 받는 과학과 공학의 전문 분야와 커리큘럼은 100여 년전에 확립된 것에서 변화가 크지 않지만, 사회에서 요구하는 전문 역량의 종류와 내용은 빠르게 변하고 발전하고 있다. 빠르게 변하는 사회에 맞추어 적응할 수 있는 이공학 전공자들의 새로운 경력의 기회로서도 데이터 과학자라는 직업은 중요하다. 이공학을 전공한 많은 인재들이 자신의 역량과 재능을 썩히지 않고 새로운 사회의 요구와 트렌드에 맞게 활용하여 사회에도 도움이 되고, 이공학 전공자 자신들의 삶과 경력도 개선할 수 있도록 데이터 과학자로의 경력 전환을 돕는 것이 필요하다. 기업에서도 데이터 과학자로서 역량과 마인드를 충분히 갖춘 이공학 전문가들을 데이터 과학자로서 활용하는 것을 적극적으로 고려했으면 한다.

위에서 필자가 제안한 것들을 잘 고려해서 데이터 과학자 후보들을 탐색해 보자. 오히려 경력을 전환한 데이터 과학자들이 데이터 과학에 필요한 역량, 기술과 마인드를 자신의 전문 분야가 아닌 기업의 비즈니스를 위한 새로운 문제들에 창의적으로 활용하면서 기업의 성장에 크게 기여할 수 있을 것이다. 이에 더해, 기업의 업과는 다른 기초과학이나 공학 분야의 연구개발이나 엔지니어링 실무를 통해 체득한 경험이 기업의 필요와 함께 융합하면서 새로운 시너지를 내고 기업에 새로운 기회를 만들어주는 것을 느낄 수 있을 것이다.

[참고문헌]
[1] 김진철, “LHC에서 배우는 빅데이터와 machine learning 활용 방안”, 2016년 9월 28일, A CIO Conversation for Technology Leadership – Breakfast Roundtable 발표 자료
[2] 권오성, “2019년 최고의 직종은 ‘데이터 과학자”, 인터넷 한겨레, 2019년 1월 18일자. (http://www.hani.co.kr/arti/science/scienceskill/878941.html#csidx697fda6443528fb810398ee80757b1e
[3] 권영일, “美 최고 유망 직종은 데이터 전문가”, The Science Times, 2019년 1월  10일자. (https://www.sciencetimes.co.kr/?news=%E7%BE%8E-%EC%B5%9C%EA%B3%A0-%EC%9C%A0%EB%A7%9D-%EC%A7%81%EC%A2%85%EC%9D%80-%EB%8D%B0%EC%9D%B4%ED%84%B0-%EC%A0%84%EB%AC%B8%EA%B0%80)
[4] 임민철, “한국 빅데이터•분석 시장, 2022년 2조2천억 규모”, ZDNet Korea, 2019년 2월 14일자. (http://www.zdnet.co.kr/view/?no=20190214154925)
[5] 이연주, “2019년 미국에서 잘 나가는 ‘최고의 직업’은?”, jobsN 블로그, 2019년 1월 25일자. (https://m.post.naver.com/viewer/postView.nhn?volumeNo=17688009&memberNo=27908841&searchKeyword=4%EC%B0%A8%20%EC%82%B0%EC%97%85%ED%98%81%EB%AA%85%20%EB%AF%B8%EB%9E%98%EC%9C%A0%EB%A7%9D%EC%A7%81%EC%97%85&searchRank=51
[6] 박형돈, “美 4차산업시대에 뜨는 직업, 데이터 사이언티스트의 명암”, KOTRA 해외시장 뉴스, 2018년 9월 2일자. (https://news.kotra.or.kr/user/globalBbs/kotranews/6/globalBbsDataView.do?setIdx=322&dataIdx=169305)
[7] SK Hynix Blog, “데이터 과학자, 그들이 필요하다”, 2018년 3월 2일자. (https://blog.skhynix.com/2483)
[8] Louis Columbus, “IBM Predicts Demand For Data Scientists Will Soar 28% By 2020”, Forbes, May 13, 2017. (https://www.forbes.com/sites/louiscolumbus/2017/05/13/ibm-predicts-demand-for-data-scientists-will-soar-28-by-2020/#64bb0537e3bd)
[9] Will Markow, Soumya Braganza, and Bledi Taska, with Steven M. Miller and Debbie Hughes, “THE QUANT CRUNCH: HOW THE DEMAND FOR DATA SCIENCE SKILLS IS DISRUPTING THE JOB MARKET”, Business Report by BurningGlass Technologies, IBM, and Business Higher-Education Forum, 2017. 
[10] Andrew Ross, “80% of UK businesses looking to hire a data scientist in 2019”, Information Age, September 25, 2018. (https://www.information-age.com/hire-data-scientist-i2019-123474995/
[11] 김지현, “700명 몽땅 원격근무해도 잘 되는 회사”,  TTimes.co.kr, 2018년 10월 11일자. (http://www.ttimes.co.kr/view.html?no=2018101010257793545&fbclid=IwAR13eBRZ-i5AeeyOkmXKdJuM_TjiPk_QSkWAjJazfoLCRDOO7rJANDojqQ0
[12] 이상현, “직원 700명 전원이 원격 근무하는 회사, 인비전(InVision)”, techNeedle, 2018년 10월 4일. (http://techneedle.com/archives/36360)
[13] 정새롬, “우버와 에어비앤비가 사용하는 프로토타이핑 도구 ‘인비전’, 514억 원 투자 유치”, beSUCEESS, 2015년 7월 15일. (https://besuccess.com/2015/07/invision)
[14] 추가영, “제프 베이조스도 쓰는 사용자경험의 디자인 툴…직원 800명에 사무실은 ‘0’”, 한국경제, 2019년 2월 14일자. (http://news.hankyung.com/article/2019021486511)

*김진철 박사는 1997년 한국과학기술원에서 물리학 학사, 1999년 포항공과대학교에서 인공신경망에 대한 연구로 석사 학위를, 2005년 레이저-플라즈마 가속기에 대한 연구로 박사 학위를 받았다. 2005년부터 유럽입자물리학연구소(CERN)의 LHC 데이터 그리드 구축, 개발에 참여, LHC 빅데이터 인프라를 위한 미들웨어 및 데이터 분석 기술을 연구하였다. 이후 한국과학기술정보연구원(KISTI), 포항공과대학교, 삼성SDS를 거쳐 2013년부터 SK텔레콤에서 클라우드 컴퓨팅과 인공지능 기술을 연구하고 있다. 빅데이터와 인공지능 기술의 기업 활용 방안에 대해 최근 다수의 초청 강연 및 컨설팅을 수행하였다. dl-ciokorea@foundryco.com