지금까지 필자의 기고문은 각 회 전반부는 CERN과 LHC 실험의 현황과 실제 사례를 소개하고, 글의 후반부에 이 사례가 빅데이터 비즈니스에 주
글의 형식을 이렇게 바꾸는 이유는 일단 CERN과 LHC 실험의 빅데이터 조직과 시스템, 인력 운용에 대한 필자의 경험과 찾을 수 있는 문헌이 다소 제한되어 문의 사항에 대한 적절한 사례를 바로바로 찾기 어려운 점도 있고, 고객들과 지인분들의 고충사항에 대한 궁금증을 먼저 해소해드리는 것이 글의 취지에 더 적절할 것 같다는 생각도 있기 때문이다. 추가 기고에서 빅데이터 비즈니스 조직과 운영, 그리고 데이터과학자로서 커리어 계발에 대한 궁금증이 조금이나마 먼저 해소되길 바란다.
빅데이터 비즈니스 조직과 운영, 데이터과학자 커리어에 대한 추가 기고가 이어진 후에는 이 How-to-Big Data 시리즈를 마무리하는 의미로 몇 회에 걸쳐서 지금까지 살펴본 빅데이터 비즈니스의 교훈을 앞으로의 기업 비즈니스 개발에 적용하는 문제를 같이 생각해보고, 지금까지 살펴본 빅데이터 비즈니스의 전반적인 요소가 최근 기업 IT 트렌드와 어떤 연관이 있고 앞으로 어떻게 발전해 나갈 것인지 같이 예측해 보려고 한다. 부디 미래의 기업 IT 인프라를 어떻게 발전시켜야 할지 고민하는 CIO 및 IT 전문가들에게 조금이나마 도움이 되길 바란다.
좋은 데이터과학팀을 만들기 위해서는 어떻게 해야 하는가? – 데이터과학팀의 문화적 규범
지난 스물 네번째 글에서는 데이터과학자로서 LHC 물리학자들의 일반적인 특성에 대해서 알아보았다. 물론, LHC 실험을 수행하는 물리학자도 모두 사람이고, 물리학자마다 개성이 다르고 차이가 크지만, 그 개인적인 차이에도 불구하고 보편적으로 나타나는 일반적인 특징이다. 그런 특성들이 실제 연구 현장에서 어떻게 나타나는지는 사람에 따라 크게 차이가 있을 수 있다.
이번 글에서는 LHC 실험 공동체의 문화적 규범에 대해서 같이 살펴보려고 한다. LHC 실험은 다양한 국적과 민족의 과학자들이 모여 같은 목표를 위해 실험과 연구를 수행하는 LHC 프로젝트가 이런 국적과 민족의 다양성을 초월하여 우주를 이루는 물질을 지배하는 근본 법칙의 발견 및 검증이라는 공동의 목표를 위해 협력하고 그 성과를 창출하기 위해 지켜야 하는 규범에 대해서 같이 살펴보면서 데이터과학팀의 문화적인 규범을 어떻게 만들어가야 할지 같이 고민해보자.
다른 과학 분야와 마찬가지로 LHC 커뮤니티 또한 연구자 본인만의 독창적이고 고유한 업적에 대해 높이 평가하며, 표절과 데이터 조작, 동료 연구자들의 업적을 가로채는 행위는 중대한 범죄로 생각한다. 데이터과학팀이 빅데이터 분석을 통해 비즈니스에 도움이 되는 새로운 지식과 통찰을 밝혀내기 위해서 꼭 필요한 아이디어와 생각의 자유로운 흐름이 데이터과학팀에 나타나기 위해서는 역시 데이터과학자 각각이 본인만의 독창적인 기여를 할 수 있도록 표절과 데이터 조작, 성과 가로채기가 일어나지 않게 엄격하게 관리해야 한다.
과학을 포함한 학문 대부분 분야에서 표절과 데이터 조작은 중대한 범죄로 인식된다. 실제로 이런 표절과 데이터 조작은 과학 연구의 근본을 깨는 심각한 범죄 행위로 과학계에서 인식되고 있다. 이런 과학계의 전통과 규범을 따라 일하는 LHC 물리학자들은 자신만의 독창적이고 고유한 연구 성과를 내기 위해 피나는 노력과 많은 시간을 연구에 몰입하여 노력한다.
사실 과학계에서 표절과 데이터 조작, 성과 가로채기가 전혀 일어나지 않는 것은 아니다. 연구팀과 조직의 권력 위계에 따른 연구 성과 무임승차나 암묵적인 표절, 성과 가로채기나 연구자의 성과에 대한 조급한 마음, 또는 공명심과 명예욕으로 데이터 조작 등의 사례가 실제로 일어나기도 한다. 하지만, 일단 이런 표절과 성과 가로채기, 무임승차의 사례가 발견되면 연루된 연구자들은 해당 전문 연구 분야에서 거의 매장될 정도로 혹독하고 가혹한 징계나 인사 조처를 받게 마련이다. 왜 이렇게 표절과 성과 가로채기와 같은 일들을 과학계에서 유독 엄격하게 관리하는 것일까? 표절, 데이터 조작, 성과 가로채기 각각에 대해 이들 부정이 일어났을 때 어떤 부작용이 있는지 살펴보면서 왜 이들을 엄격하게 관리해야 하는지 알아보도록 하자.
먼저 표절은 연구자들의 자발적이고 헌신적인 연구와 몰입을 방해하기 때문에 엄격하게 금지되어야 한다. 지난 스물 네번째 글에서 LHC 연구자들이 자신들의 데이터 분석과 연구에 몰입하는 이유는 지적인 호기심과 우주의 근본을 이해하고 싶어 하는 고상한 동기도 있지만, 과학자 커뮤니티에서 자신의 입지를 다지고 과학자로서 좋은 직장을 얻고 생활을 안정시키고 싶어 하는 현실적인 이유도 있다고 얘기한 바 있다.
표절이 만연하고 허용되게 되면 자신만의 고유하고 독창적인 연구 성과를 내기보다는 학계에서 발표되는 연구 성과를 가만히 지켜보다가 그럴듯해 보이는 연구 성과물을 보게 되면 그 내용만 가져다가 자신의 이름으로 발표해버리는 경우가 많아지게 될 것이다. 이렇게 되면 적당히 연구성과만 내면서 과학자라는 타이틀만 유지하며 자리만 지키려는 사람들이 많아져 과학자 본연의 임무인 새로운 자연 현상의 발견과 연구를 통한 지식과 통찰을 추구하는 일이 제대로 이루어지지 않게 될 것이다. 자연에 대한 새로운 통찰을 줄 수 있는 새로운 관점과 지식을 제공하는 연구보다는 그럴듯하고 비슷한 연구들만 넘쳐나게 되어 정말로 쓸모 있는 지식과 통찰을 주는 연구 성과물을 찾기가 어렵게 되고, 과학이 인류 사회 발전에 주는 효용도 크게 감소하게 되어 사회가 더 이상 과학의 발전에 투자하지 않게 될 것이다.
표절이 만연하게 되면, 과학자의 역할을 진심으로 수행하면서 중요하고 도전적인 연구를 하려는 과학자들이 다른 연구자들의 연구만 가져다가 연구 성과만 부풀리는 과학자들에 비해 연구성과 평가 측면에서 불이익을 받을 가능성이 커지게 되기 때문에, 과학자의 역할을 제대로 수행할 수 있는 역량 있는 연구자들이 제대로 후원을 받을 수 없게 되어 사회로서는 큰 손실을 안게 된다. 아직 인류가 모르는 새로운 지식과 통찰을 시행착오나 열띤 논쟁과 치열한 분석이 없이 쉽게 얻을 수는 없기 때문이다.
이런 과학자 커뮤니티에서 연구 과정에서 나타나는 시행착오, 열띤 논쟁, 치열한 분석과 합의의 과정을 지나기 위해서는 시간이 필요하다. 이렇게 새로운 지식과 통찰이 과학자들과 사회에 유용한 지식으로서 인정받기 위해 꼭 필요한 숙성의 시간을 거친 진정한 지식과 통찰이 우대받을 수 있는 문화를 과학자들이 유지해 나갈 수 있으려면 표절은 엄격하게 관리되고 징계 되어야 한다. 과학자의 본분을 다하는 연구자들이 그들의 노력과 헌신을 인정받고 과학자로서 안정된 활동을 보장받기 위해서 과학 커뮤니티의 직업윤리로서 표절을 금지하는 것은 위와 같이 과학 커뮤니티의 존속과 본분을 지키기 위해 정말 중요한 일이다.
위의 표절에 이어 데이터 조작이 엄격하게 금지되어야 하는 이유는 과학 연구 결과의 신뢰성을 지키기 위해서이다. 과학적 방법론으로 추구한 지식이 믿을 만한 지식으로 사회에서 쓰이고 자리 잡기 위해서는 과학적 방법론으로 얻은 지식이 정말 믿을 만하고 쓸만한 것이어야 할 것이다. 데이터는 과학적 방법론으로 추구한 지식이 정말 믿을 만하고 쓸만한 지식인지 논증하고 뒷받침하기 위한 근거로 활용될 뿐만 아니라, 엄밀한 과학적 지식 추구 방법론을 통해 사고를 정밀하고 엄격하게 하여 새로운 지식에 이르는 논리와 사고 과정을 체계적이고 신뢰할 만한 것으로 만들기 위해서도 필요하다.
데이터를 얻는 과정에 문제가 있어 데이터가 원래 목적한 바를 증명하거나 뒷받침하기에 문제가 있었다거나, 데이터의 양과 품질에 문제가 있어 연구 결과로 얻은 지식과 통찰에 이르게 된 논리와 사고 과정의 신뢰성이 의심을 받을 수밖에 없다면 연구 결과 얻은 지식과 통찰을 믿을 수 없게 되기 때문에 믿고 사용할 수 없게 될 것이다.
실험과 시뮬레이션, 또는 데이터 수집 방법을 통해 얻은 데이터 자체의 신뢰성을 높이는 것도 어려워 이런 데이터를 근거로 새로운 지식과 통찰을 뒷받침하기도 쉽지 않은데, 만약 과학자들이 자신의 주장을 뒷받침하기 용이하도록 데이터를 수시로 조작하고 이런 데이터 조작이 과학계에 만연하게 되면 어떤 연구 결과를 믿고 믿을 수 없는지 판단하는 것이 어려워지게 된다. 이렇게 되면 동료 과학자들이 얻은 결론과 실험 결과를 토대로 새로운 과학적 지식과 통찰을 쌓아나가는 과학자들이 어떤 결론과 실험 결과를 믿고 믿지 말아야 할지 판단하고 검증하는데 더 많은 시간과 노력이 필요하게 되기 때문에 과학 지식의 발전 속도도 느려질 뿐만 아니라, 과학자들이 연구해 낸 과학적 지식의 효용성과 신뢰성도 의심할 수밖에 없는 상황에 이르게 된다.
위와 같은 이유로 과학계에서는 데이터 조작과 이를 이용한 연구 부정을 더욱 더 엄격하게 관리하는 것이다. 우리나라에서는 이미 널리 알려진 황우석 전 서울대 교수의 사이언스 논문 부정 사건도 바로 이런 데이터 조작에 의한 연구 부정이었다. 황우석 교수 줄기세포 연구 부정뿐만이 아니라 일본의 오보가타 하루코라는 젊은 연구자의 STAP 세포 연구 부정 사건도 최근 잘 알려진 데이터 조작 연구 부정에 관련된 사건이다.
일본 이화학연구소(RIKEN)에서 일하던 오보가타 하루코 연구 주임은 2014년 “자극야기 다능성 획득 세포(Stimulus-Triggered Acquisition of Pluripotency; STAP)”라는 새로운 만능세포를 만들었다고 주장했다. 그러나, 논문 결과가 재연되지 않고 논문에 근거로 실린 데이터의 문제점이 드러나게 되면서 결국 연구 결과가 발표된 네이처지의 논문이 철회되고 오보가타 하루코는 일본 이화학연구소(RIKEN)를 떠나야 했다. 이 STAP세포 연구 부정 사건도 과학계에서 데이터의 신뢰성이 얼마나 중요하게 여겨지는지를 보여주는 사건이라고 할 수 있다[2-6].
최근 과학계의 경쟁이 치열해지고 의미 있는 실험 데이터를 얻기 위해 들여야 하는 노력과 비용, 시간이 증가하면서 성과 압박과 사회적인 인정을 빨리 얻고자 하는 공명심으로 인해 데이터와 논문을 조작하고 이로 인해 연구자들이 자신의 직장을 떠나고 과학계에서 매장당하는 사례가 상대적으로 자주 나타나고 있다. 이런 데이터 조작에 대해 과학계에서 엄격하게 대처하지 않는다면 우리는 과학자들이 연구한 결과를 믿고 활용하기가 어려울 것이다. 과학자들이 얻은 지식의 공공성과 그 사회적인 여파를 고려할 때 과학 커뮤니티에서 데이터 조작에 의한 연구 부정을 엄격하게 관리하는 자체적인 정화 체계가 작동하고 있는 것은 참 다행스러운 일이 아닐 수 없다.
데이터 조작의 사례는 아니지만, 과학 연구에서 믿을 수 있는 데이터를 확보하는 문제의 중요성을 잘 보여주는 사례를 하나 간단하게 소개하려고 한다. 스웨덴 린쾨핑 대학(Linköping University)의 의공학과(Department of Biomedical Engineering) 교수인 안데르스 에크룬트(Anders Eklund)와 한스 크누트슨(Hans Knutsson), 영국 워릭 대학(University of Warwick) 통계학과의 토마스 니콜스(Thomas E. Nichols) 교수는 기능자기공명영상 기기(Functional Magnetic Resonance Imaging; fMRI)를 이용한 뇌기능 연구에 쓰인 클러스터링 분석 방법의 오류로 인해서 당시까지 약 15년 동안 수행된 fMRI를 이용한 뇌기능 연구 관련 논문 약 40,000편의 결과를 재검토해야 할 수 있다는 가능성을 제기하였다[7].
안데르스 에크룬트(Anders Eklund)와 한스 크누트슨(Hans Knutsson), 토마스 니콜스(Thomas E. Nichols) 교수의 fMRI 데이터 분석 오류 문제 제기는 뇌과학계에 큰 혼란을 불러왔다. 우리 사람의 두뇌를 연구하는데 두뇌를 절제하거나 변형하지 않고 비파괴적인 방법으로 사람이 정상적인 활동을 하는 상태에서 두뇌의 기능을 조사하고 관찰할 방법으로 fMRI가 거의 유일하기 때문이다. 만약 이런 fMRI 영상 분석 알고리즘의 오류 가능성이 사실이라면 fMRI 영상을 사용한 연구 결과와 이 fMRI 영상을 이용한 연구 결과를 활용해 수행된 응용 연구, 특히 인공 지능 및 뇌의학 분야의 많은 연구가 낸 결론들이 모두 잘못될 것일 수도 있었다.
위 세 연구자의 fMRI 데이터 분석 오류 가능성을 주장한 논문은 뇌과학계의 많은 논란을 불러일으켰으며[8-13], 대중 매체와 언론에서 대서 특필되었다[14-18]. 특히 fMRI를 이용한 연구 결과들은 뇌와 관련된 질병을 진단하는 데에도 많이 활용되어 사람의 생명과 의료 사고에도 직결될 수 있는 연구였기 때문에 사회적으로도 큰 파장을 불러일으켰다[14-18].
위 세 과학자가 제기한 fMRI 영상 분석 방법의 오류 가능성이 사실이라면 fMRI가 사용된 약 15년간의 영상 뇌과학 연구 결과 상당수를 처음부터 다시 검토하여 확인해야 할 수도 있었다. 이 얘기는 최악의 경우 뇌과학에서 쌓은 지난 15년간의 연구 결과 대부분이 잘못된 것일 수도 있다는 것이며, fMRI를 이용한 영상 뇌과학이 15~20년 전으로 퇴보한다는 것을 의미하기 때문이다.
이렇게 단순한 fMRI 영상 분석 방법의 오류 가능성으로 인해 생긴 연구 결과의 오류 및 신뢰성 문제도 과학계와 사회에 미치는 영향이 이렇게 크고 심각할 수 있는데, 만약 과학자들이 임의로 데이터를 조작해서 연구 결과를 내는 관행이 과학계에 만연한다면 어떤 결과를 믿고 후속 연구를 진행해야 할지 알 수 없어 과학자 간에 큰 혼란이 생기게 될 것이다. 과학자들은 데이터와 연구 결과를 검증하는데 많은 시간과 노력을 들여야 하기 때문에 과학의 발전이 더뎌지고 과학이 퇴보하게 될 것이다.
위와 같은 이유로 데이터 조작은 과학의 발전을 방해하고 과학 자체를 퇴보시킬 뿐만 아니라, 과학 연구를 위한 비용과 시간을 증가시켜 효율을 떨어뜨리는 원인이기 때문에 과학계에서 범죄로 인식하고 엄격하게 금하고 있다. 다행히도 데이터 조작에 의한 연구 결과는 같은 분야에서 일하는 동료 연구자들의 재연 실험이나 검증으로 대개 사실인지 아닌지 잘 밝혀진다. 과학자들의 연구윤리 의식과 전문가로서의 사명감으로 과학계 내에서 자체적으로 잘 작동하는 데이터 조작 범죄에 대한 정화 메커니즘이 있다는 것은 참 다행스러운 일이다.
표절, 데이터 조작과 함께 과학자 커뮤니티에서 엄격하게 관리하고 과학자들에게 요구하는 또 하나의 연구윤리는 성과 가로채기를 금하는 것이다. 성과 가로채기는 과학자들의 연구 의욕과 생산성을 떨어뜨린다는 점에서 부정적이며, 최근 과학계에 경쟁이 치열해지면서 상대적으로 많이 나타나고 있다.
성과 가로채기의 경우 연구 결과의 신뢰성에 미치는 영향은 앞에서 언급한 표절이나 데이터 조작보다는 적다고 볼 수 있다. 그렇지만, 과학자들의 연구 의욕과 생산성, 연구개발조직에 투자한 비용, 시간 대비 생산성과 투자회수비용을 떨어뜨려 역시 연구개발을 수행하는 조직과 과학자 자신의 평판과 신뢰성에 영향을 주기 때문에 과학계에서 신경 써서 관리하는 주요 연구부정 중의 하나다.
성과 가로채기가 과학자들에게 미치는 영향은 앞서 얘기한 표절과 맥락이 비슷하다고 볼 수 있다. 표절과 성과 가로채기가 다른 점은 표절은 이미 있는 연구 결과를 도용해서 자신의 연구 결과로 발표하는 것이지만, 성과 가로채기는 아직 공식적으로 발표되지 않은 연구 성과를 가져다가 자신의 연구 결과로 발표하는 것이 다르다. 이런 문제 때문에 성과 가로채기는 표절보다 눈에 잘 띄지도 않으면서 상대적으로 많이 일어나는 것으로 알려져 있다.
성과 가로채기가 과학계에서 범죄가 되는 이유 첫번째는 앞서 설명한 표절의 경우처럼 성과 가로채기가 만연할 경우 과학 연구의 생산성과 진보의 속도가 크게 떨어지고 이는 연구개발에 투자한 조직의 비용과 비즈니스 기회 손실로 나타나기 때문이다.
성과 가로채기는 특정한 주제에 대해 연구한 과학자들의 정당한 노력과 헌신의 대가를 연구와 상관이 없거나 기여도가 낮은 사람이 가로채어 연구자의 노력과 헌신의 대가로 주어지는 연구비와 추가 연구의 기회를 박탈하여 과학과 사회 발전의 기회를 차단하기 때문에 문제가 된다. 해당 연구가 사회 문제 해결에 유용하고 기업에서 상업화했을 경우 막대한 이익을 볼 수 있는 문제이거나, 역사적으로 유명한 과학적 문제여서 가장 먼저 해결한 사람이 명성과 부를 얻을 수 있는 문제인 경우 이런 성과 가로채기가 나타날 가능성이 커진다.
노벨상 수상자 중에서도 이런 성과 가로채기 사례가 있다는 것은 과학적 연구 성과에 대한 경쟁이 과학계에서 매우 치열하다는 것을 보여준다. 노벨상 수상자 간 성과 가로채기의 유명한 사례 중 하나가 인슐린 발견의 공로로 노벨상을 받은 캐나다의 프레데릭 그랜트 밴팅 박사와 존 제임스 리카드 맥클리오드 교수의 사례이다[19-21].
프레데릭 그랜트 밴팅 박사는 토론토 대학 의학과 연구원으로 일하고 있었는데, 당뇨병에 대한 조사를 진행하던 중 찰스 베스트와 함께 인슐린을 발견하게 되었다. 이때, 노벨상을 공동 수상한 존 제임스 리카드 맥클리오드 교수는 자신의 실험실과 자신의 지도 학생이었던 찰스 베스트를 프레데릭 그랜트 밴팅 박사의 연구원으로 붙여주는 역할만 하고 실제 인슐린을 발견하기 위한 실험에는 참여하지 않거나 전혀 기여가 없었다. 찰스 베스트가 인슐린 발견 당시 대학원생이라는 이유만으로 노벨상을 받지 못하고 오히려 실험실만 빌려준 존 제임스 리카드 맥클리오드 교수가 노벨상을 받은 것에 반발하여 프레데릭 밴팅 박사는 자신의 상금 절반을 찰스 베스트에게 나누어 주고 베스트의 업적에 대해 적극적으로 알렸다[19-21].
프레데릭 밴팅 박사의 노력으로 오늘날 교과서상의 인슐린 발견자는 다행히도 프레데릭 밴팅과 찰스 베스트로 올바르게 알려지게 되었다. 또한, 인슐린 발견에 기여한 찰스 베스트는 밴팅의 노력으로 설립된 “밴팅과 베스트 의학 연구 부서”에서 자신의 후속 연구를 계속 이어나갈 수 있게 된다. 인슐린 발견에 대한 공로를 밴팅이 적극적으로 알린 결과 1929년 그의 지도교수인 존 제임스 맥클리오드 교수에 이어 토론토 대학 생리학 교수(Professor of Physiology)가 되어 많은 훌륭한 연구를 수행하게 된다[19-21].
만약 찰스 베스트가 인슐린 발견에 기여한 공로가 프레데릭 밴팅 박사에 의해 알려지지 않았다면 과학계는 찰스 베스트가 인슐린 발견과 함께 이후 수행했던 많은 연구에 의한 혜택을 보지 못했을 것이다. 또한, 찰스 베스트도 자신의 연구를 계속 이어갈 수 있는 토론토 대학 교수직과 같은 안정된 연구 환경과 직장을 얻기가 쉽지 않았을 것이고, 연구를 계속 수행하기가 어려웠을 것이다.
두번째는 과학 연구 성과를 내기 위해 연구자들이 들여야 하는 시간과 노력, 비용이 만만치 않은데, 성과 가로채기가 만연하게 되면 연구자들의 이런 노력이 적절하게 보상받기가 어려워지기 때문이다.
과학자도 인간인 이상 아무리 고결한 동기와 의도로 과학 연구개발에 매진한다고 해도 인간으로서 필요한 것이 있고 충족시켜야 할 욕구가 있기 마련이다. 과학 연구 활동에 몰입하여 집중하기 위해서는 한 인간으로서 생활을 지켜나갈 수 있는 현실적인 보상이 주어져야 한다. 성과 가로채기는 전문가로서의 과학자가 자신의 신념과 이상을 지켜 과학 연구개발에 매진하기 위해 필요한 적절한 보상과 혜택을 받아야 할 사람이 받지 못하게 하여 과학과 인류 사회 발전을 저해시키기 때문에 문제가 된다.
과학 연구개발을 24시간 지치지 않고 할 수 있는 인공지능이나 컴퓨터가 있다면 이런 컴퓨터에게 과학 연구개발을 맡겨 놓고 우리들은 그 성과물을 이용해 풍요롭고 여유 있는 삶을 즐기면 좋겠지만, 현실적으로 그렇지 못하다. 아직 과학 연구개발은 일부 자동화가 가능한 데이터 처리 및 분류 영역을 제외하고는 여전히 인간만이 할 수 있는 창의적인 활동으로 남아있다. 과학 연구도 인간이 하는 활동이기 때문에 과학 연구개발을 수행하는 과학자들이 인간으로서 삶과 생활을 유지할 수 있도록 적절한 보상과 혜택이 주어져야만 하는 것이다.
모든 과학자가 고귀한 신념과 이상으로 과학 연구에 헌신하는 것만은 아니다. 최근 과학 연구 개발은 정부 예산 등의 공적인 예산으로 수행되는 경우보다 영리기업이나 영리자본에 의해 수행하는 경우가 더 많다. 이런 이유로 기업의 수익을 위한 연구와 물질적인 보상을 더 바라고 연구하는 과학자가 과거보다 더 많은 것도 사실이다. 그 동기가 어떻더라도 과학자들의 지적인 재능이 우리 사회에 도움이 되도록 적절한 재능과 품성을 가진 과학자들이 자신들이 쏟아부은 노력과 시간에 비례하는 만큼, 인간으로서 품격을 지킬 수 있는 삶을 누릴 수 있는 만큼 현실적인 보상을 주기 위해서는 그들의 연구성과에 대한 적절하고 공정한 평가가 이루어져야 한다.
다른 과학자들의 성과를 가로채서 자신의 성과로 발표하는 과학자라면 과학자로서 연구윤리와 품성에 일단 기본적인 문제가 있는 것은 분명하다. 과학 연구에 뜻이 있다기보다는 명예욕과 출세욕, 물욕 등이 앞선다면 정직하고 엄밀한 방법으로 자신의 연구를 수행하는 과학자의 역할에 충실하기는 어려울 것이다. 연구성과를 내기 위해 자신의 삶과 시간을 아낌없이 바쳐 사회에 도움이 되는 연구를 수행한 과학자가 보상을 받지 못하고 과학 자체에 헌신하기보다는 명예욕과 출세욕, 물욕을 만족시키기 위해 적절한 노력을 들이지 않고 무임승차하는 연구자가 그 열매를 모두 가져간다면 재능 있고 정직한 과학자들이 삶을 지키면서 자신의 연구를 지속하지 못해 우리 모두에게 큰 손실이 될 것이다.
무임승차하는 연구자들에 의해서 재능 있고 정직한 과학자들의 연구 성과가 빛을 보지 못하고 적절한 보상이 주어지지 않는 상황이 만연하게 되면 과학 분야에서 자신의 뜻을 펼쳐보겠다고 하는 사람들이 점차 줄어들게 될 것이다. 이렇게 되면 과학 지식의 진보도 느려질 것이고, 현재 우리 생활 대부분 영역에서 영향을 미치고 있는 각종 기술 진보의 속도도 느려져 우리 생활도 많이 불편해질 것이다.
과학자 커뮤니티에서 성과 가로채기를 표절, 데이터 조작과 함께 특히 엄격하게 관리하는 것은 과학도 인간이 하는 것이기 때문에 과학자들의 인간으로서 존엄과 노력을 적절하기 기리고 보장해주어 과학 연구에 투자한 사회자원의 효과를 극대화하기 위한 최소한의 장치라고 볼 수 있다.
과학 연구를 통해 얻은 지식의 신뢰성을 높이고, 사회의 많은 자원이 들어가는 공적인 활동으로서 과학 연구의 결과를 사회가 더 효과적으로 사용하며, 과학자들의 인간으로서 존엄과 노력을 기리기 위한 과학자 커뮤니티와 사회의 자정 작용으로서 표절, 데이터 조작, 성과 가로채기 등을 엄격하게 금하고 관리하기 위한 노력은 우리가 과학자들의 연구 성과를 이용해 풍요로운 사회를 만들고 우주와 자연에 대한 지식을 이해하고 쌓아가는 데 큰 역할을 하였다.
LHC 연구자들의 커뮤니티도 위와 같은 과학자 커뮤니티의 일반적인 규범을 잘 따르고 있다. 다만, LHC 실험과 같은 거대 과학 커뮤니티의 경우, 일반 기업에서 나타나는 것과 같은 과학자 간 정치, 사회적인 복잡한 역동이 나타나기는 한다. 그렇지만, 전 세계적으로 체계적으로 조직되어 움직이는 국제 협력 프로젝트 연구 조직의 활동으로 인해 다른 분야에 비해 상대적으로 표절, 데이터 조작, 성과 가로채기 등의 연구 부정이 일어날 가능성은 작았으며 그런 사례는 아직 눈에 띄게 발견되지 않았다. 오히려 LHC 커뮤니티와 프로젝트의 기술 위원회를 통해 공동 연구 수행이 효과적으로 수행되도록 역할이 분담, 조율되고 데이터 해석과 연구 결과가 엄격하게 검토, 검증된 후에 발표되어 왔기 때문에 신뢰할 만한 연구결과를 내놓을 수 있었다.
LHC 사례는 잘 조직된 조직 체계와 문화, 그리고 이런 조직 체계에서 엄격하게 지키고 관리하는 규범과 규칙이 데이터과학팀의 성과와 그 결과물의 신뢰성에 어떤 영향을 미치는지 잘 보여준다. 데이터과학팀도 조사와 연구 대상이 비즈니스일 뿐이지, 근본적으로는 그 방법론과 업무 수행 방식은 과학자들과 같다는 점을 명심하자. 데이터과학팀의 성과를 극대화하고, 생산성을 최대로 높이기 위해 위와 같은 연구부정을 막기 위한 최소한의 규범을 어떻게 엄격하게 지키고 팀의 문화를 만들어갈 것인지 데이터과학팀 리더와 팀원들은 고민할 필요가 있다.
데이터과학팀의 규범과 문화를 어떻게 확립할 것인가? – “데이터”가 아닌 “과학”에 집중하라
빅데이터와 관련해 여러 강연이나 컨설팅을 하면서 필자가 많이 느꼈던 점은 많은 고객과 기업 IT 관계자들이 데이터과학의 본질에 집중하기보다는 “빅데이터”라는 말에 지나치게 집착한다는 느낌이었다. 필자가 요즘 하는 일을 다른 분들께 잘 전달하기 위해 필자의 현재 역할을 데이터과학자라고 소개하기는 하지만, 필자 또한 데이터과학이라는 말을 누가 만들었는지 모르겠지만 참 정보가 없는 단어라고 느낄 때가 많다.
빅데이터 비즈니스를 하려는 기업이나 조직이 “데이터과학”이라는 말에서 집중해야 할 것은 “데이터”라는 말이 아니라 “과학”이라는 말이다. “데이터”는 과학적인 의사 결정과 프로세스를 하기 위한 도구에 불과하다. 비즈니스 외부 환경과 기업 내부의 상태와 환경에 대한 정보를 분석 가능한 구체적인 대상으로 만든 것이 데이터이다. 이 데이터를 가지고 외부 환경과 기업 내부 환경에 대한 정보를 분석하고 과학적인 의사 결정을 하기 위한 체계를 만들기 위해 빅데이터 인프라와 정보 시스템을 만드는 것이다. 빅데이터 기술을 활용하는 근본적인 목적인 과학적인 마인드와 의사 결정을 통한 기업 경영의 합리화와 이를 통한 기업 경영의 위험 요소의 체계적인 관리가 데이터과학의 목적인 것이다.
지금까지 빅데이터라는 트렌드가 주목을 받으면서 많은 미디어에서 빅데이터 기술에 주로 초점을 맞추고, 이런 빅데이터 기술을 중심으로 각 IT업체의 주요 상품과 이를 활용한 사례를 부각하는 식으로 얘기가 되어 온 것이 데이터과학에 대한 많은 오해를 낳아온 것이 아닌가 생각된다. 내, 외부 환경에 대한 정보를 구체적으로 객체화한 빅데이터를 잘 다루고 활용하는 과정이 빅데이터 비즈니스와 데이터과학에서 중요하기는 하지만 이것이 전부는 아니다.
기업에 데이터과학팀과 빅데이터 기반 의사 결정 체계를 만들고 정착시키는 것이 어려운 이유는 빅데이터를 활용하는 것은 기업 경영의 패러다임이 바뀌는 경험이 되기 때문이다. 지금까지 기업의 주요 경영 요소에 대한 의사 결정의 패러다임은 CEO 및 경영진의 직관과 경험, 과거의 데이터를 이용한 문제 원인 추적에 의존하는 의사 결정 방식이었다.
빅데이터를 이용한 의사 결정과 비즈니스 수행 체계를 도입하는 것은 다음과 같은 경영 마인드의 변화를 같이 요구하게 된다. 보다 객관적인 정보를 이용해 다양한 의사 결정 대안들을 도출하기 위한 모델링과 시나리오 플래닝, 이런 모델링과 시나리오 플래닝에 근거한 체계적인 의사 결정 대안들의 도출과 분석, 해석, 그리고, 이런 다양한 경영 의사 결정 대안들을 고려하여 얻는 시장 및 기업 내부 환경에 대한 체계적인 예측에 근거한 합리적인 의사 결정을 통해 기업 경영의 위험을 최소화하고 기업이 직면한 경영 현실에 더 적합한 의사 결정을 하게 된다.
모델링과 시나리오 플래닝, 다양한 의사 결정 대안의 도출, 분석, 해석, 예측 분석을 통한 합리적인 의사 결정의 과정은 기업 경영을 위해 해결해야 하는 문제를 다양한 관점에서 가능한 한 정확하게 이해하기 위해 데이터를 수집, 가공하고, 최적의 의사 결정을 위해 필요한 믿을 수 있는 지식과 지혜, 즉 통찰을 얻기 위해 과학자들이 사용하는 귀납적, 연역적 사고방식을 이용하는 과정이다. 과학자가 아닌 이상 일반인이 이런 방식의 체계적인 사고방식으로 문제를 해결하는 것은 낯설고 어려운 일임이 분명하다.
이렇게 어렵고 쉽지 않은 변화를 기업에 요구하는 빅데이터 기반 의사 결정과 비즈니스 체계가 기업에 성공적으로 도입되기 위해서는 과학자와 같이 사고하고 문제 해결을 할 수 있는 역량을 기업 구성원들이 갖추고 기업 경영 현장에 적용해야 하는데, 이렇게 하기 위해서는 기업 구성원들의 일하는 방식에 어느 정도 가이드가 필요하다. 이런 최소한의 가이드가 데이터과학을 사용하는 조직과 부서의 규범과 합의된 문화가 될 것이며, 이런 규범과 합의된 문화의 중요한 원리들이 앞서 설명한 과학자들의 규범과 크게 다르지 않다는 것이다.
앞서 설명했듯이 과학자들이 표절과 데이터 조작, 성과 가로채기를 커뮤니티 내에서 엄격하게 금하고 관리하는 연구윤리 의식을 가지고 정직하고 과학적 지식 추구 방법을 일관되게 지키려고 노력해왔기 때문에 사회에서 과학자들의 활동과 그들이 축적해온 지식을 신뢰하고 사용하며 지지를 보낼 수 있는 것이다. 기업의 발전과 성장을 위해 기업 경영의 지식과 통찰을 쌓아가는 데이터과학팀도 같은 규범과 직업윤리가 필요한 것이다.
비슷한 업종에서 같은 비즈니스를 하는 기업들이라고 해도, 창업주 및 기업 경영진의 경영 철학과 방식, 기업의 시스템, 기업마다 다른 상품의 특성과 고객, 시장과의 관계 맺는 방식의 차이 때문에 기업마다 해결해야 하는 문제의 종류와 깊이, 이를 해결하는 방식은 다를 수밖에 없다. 이런 기업 경영의 문제들을 체계적인 방식으로 해결하고 대안을 도출해야 하는 데이터과학팀이 비판적인 검토 없이 표절을 일삼고, 단기적인 성과만을 위해 기업 내, 외부 환경을 정확하게 인지하지 못하도록 데이터 조작을 일삼으며, 기업의 성장과 발전보다 팀의 이익을 위해 성과 가로채기에 모두 몰두하고 있다면 기업 경영에 필요한 의사 결정의 기반이 되는 지식과 통찰을 제공할 수 있을 리 없다.
표절, 데이터 조작, 성과 가로채기 등의 연구 부정은 데이터과학팀 내부 구성원 간 통합에도 심각한 악영향을 미치며 팀워크를 발휘하지 못하게 하는 주요한 원인이 된다. 자신만의 엄밀한 사고와 데이터에 근거한 정확한 분석과 추론을 통해 결론을 도출하는 데이터과학자가 아니라 동료가 일한 것을 가져다가 자신이 한 일인 양 먼저 리더에게 보고하고 그 열매만 가져가는 데이터과학자가 가득한 팀에서 과연 데이터과학자들이 소신 있게 기업에 도움이 되는 분석 결과와 통찰을 열심히 내놓으려 하겠는가? 자신의 노력에 대한 평가와 보상이 정당하게 이루어지지 않는 조직, 내 노력의 결과를 누가 언제 어떻게 가져가 이용할지 모르는 조직에서 동료를 믿고 협업을 하고 시너지를 내려고 하겠는가?
과학자들이 자연과 세상에 대한 의미 있고 유용한 지식을 발견하고 창출하기 위해 지켜왔던 규범들은 데이터과학팀에도 마찬가지로 적용된다. 빅데이터를 활용한 비즈니스 의사 결정이 기업의 또 다른 성장의 돌파구가 되기 위해서는 이런 데이터과학자와 데이터과학팀의 직업윤리를 위한 엄격한 규범과 문화가 반드시 전제되어야 한다. 그 이유는 “데이터과학(data science)”에서 중요한 것은 “데이터”가 아니라 “과학”이기 때문이다. “데이터”는 “과학”적 의사 결정과 문제 해결을 위해 사용되는 도구일 뿐이고, “빅데이터”는 그 특성으로 인해 “과학”적 의사 결정과 문제 해결에 활용될 때 조직과 기업의 경쟁력이 되기 때문에 중요한 것이다.
어느 조직이든 그 조직의 진정한 효용과 가치에 맞는 역할을 하기 위해서는 최소한으로 지켜야 할 엄격한 규칙이 있어야 하는 법이다. 과학자들이 연구의 신뢰성을 지킬 수 있도록 자발적으로 지켜야 할 연구윤리를 정하고, 엄격하게 지켜 왔기 때문에 우리가 과학자들의 연구 성과를 믿고 사용할 수 있었던 것이다. 데이터과학팀이 그 역할을 온전하게 다하기 위해서는 과학자들이 지켜온 진정성 있는 지식 추구의 가치와 엄밀한 과학적 연구 방법론에 따라 정직하게 데이터과학 업무에 임해야 한다.
일반 기업과 조직은 과학자들이 지키는 연구윤리, 직업윤리에 따라 움직이는 조직들이 아니기 때문에 데이터과학팀에 필요한 문화와 규범을 갖추는 것 자체를 이질적으로 느끼거나 어렵게 생각할 가능성이 높다. 그렇지만, 이렇게 생각하면 좋을 것 같다. 과학자 커뮤니티의 연구 신뢰성을 지키기 위한 표절, 데이터 조작, 성과 가로채기 금지와 같은 규범들도 사실은 일반 기업이 조직 문화를 투명하게 하고, 구성원간, 그리고 구성원과 경영진 간의 신뢰를 두텁게 하기 위해 필요한 직업윤리와 같은 것이라는 것을 생각하면 그렇게 어려운 것도 아니다.
과학자들의 연구윤리, 직업윤리를 엄격하게 지켜나가는 데이터과학팀이 그 역할을 다할 때, 오히려 기업의 의사 결정 과정이 투명해져 구성원들과 경영진 간의 신뢰가 더 높아지게 될 것이다. 믿을 방법으로 수집한 데이터에 근거한 과학적인 의사 결정을 통해 급변하는 시장에 민첩하게 적응할 수 있는 기업과 조직의 체질 개선도 가능할 것이다.
조직과 기업에서 데이터과학팀의 이런 문화적인 환경과 규범을 잘 갖추는 것을 미래의 내, 외부 환경 변화에 대비하기 위한 무기를 갖춘다는 생각으로 비중 있게 추진하도록 하자. 데이터과학팀이 쌓아가는 비즈니스와 조직에 대한 지식과 통찰은 탁한 물이 가득한 양동이에 맑은 물을 계속 부어 넣으면 양동이 물이 맑아지는 것과 같이 기업과 조직의 경영 과정도 투명하게 하여 미래에 대한 전략과 대안을 준비하기 한결 수월하게 할 것이다.
[참고문헌]
[1] 김진철, “LHC에서 배우는 빅데이터와 machine learning 활용 방안”, 2016년 9월 28일, A CIO Conversation for Technology Leadership – Breakfast Roundtable 발표 자료
[2] 최성우, “자살로 막을 내린 논문 조작“, The Science Times, 2016년 1월 29일자, https://www.sciencetimes.co.kr/?news=%EC%9E%90%EC%82%B4%EB%A1%9C-%EB%A7%89%EC%9D%84-%EB%82%B4%EB%A6%B0-%EB%85%BC%EB%AC%B8-%EC%A1%B0%EC%9E%91 .
[3] 오철우, “STAP 논란, 어디로 가고 있나 -일지정리”, 사이언스 온 -한겨레 스페셜, 2014년 3월 12일, http://scienceon.hani.co.kr/152566 .
[4] 목정민, “[과학]세계를 흥분시킨 오보카타 ‘일본판 황우석 사건’ 가능성”, 주간경향 1068호 (2014년 3월 25일자), http://weekly.khan.co.kr/khnm.html?artid=201403181033561&mode=view#csidx22461bc3ba13119a8b124ea412c71f2 .
[5] 요시노 타이치로, “오보카타의 무서운 눈물”, 허핑턴포스트 한국판, 2014년 4월 16일자, https://www.huffingtonpost.kr/taichiro-yoshino-kr-/story_b_5147879.html .
[6] 조준형, “만능세포, 결국 존재하지 않았다”, 허핑턴포스트 한국판, 2014년 12월 18일자, https://www.huffingtonpost.kr/2014/12/18/story_n_6345978.html .
[7] Anders Eklund, Thomas E. Nichols, and Hans Knutsson, “Cluster failure: Why fMRI inferences for spatial extent have inflated false-positive rates,“ Proc. Natl. Acad. Sci. U. S. A., 113(28): 7900-7905, July 12, 2016. (https://www.pnas.org/content/113/28/7900.full, https://doi.org/10.1073/pnas.1602413113)
[8] Anders Eklund, Thomas E. Nichols, and Hans Knutsson, “Correction for Eklund et al., Cluster failure: Why fMRI inferences for spatial extent have inflated false-positive rates,” Proc. Natl. Acad. Sci. U. S. A., 113(33): E4929, August 16, 2016. (https://www.pnas.org/content/113/33/E4929, https://doi.org/10.1073/pnas.1612033113)
[9] Anders Eklund, Thomas E. Nichols, and Hans Knutsson, “Reply to Brown and Behrmann, Cox, et al., and Kessler et al.: Data and code sharing is the way forward for fMRI,” Proc. Natl. Acad. Sci. U. S. A., 114(17): E3374-E3375, April 25, 2017. (https://www.pnas.org/content/114/17/E3374, https://doi.org/10.1073/pnas.1620285114)
[10] Satish Iyengar, “Case for fMRI data repositories,” Proc. Natl. Acad. Sci. U. S. A., 113(28): 7699-7700, July 12, 2016. (https://www.pnas.org/content/113/28/7699, https://doi.org/10.1073/pnas.1608146113)
[11] Emery N. Brown, Marlene Behrmann, “Controversy in statistical analysis of functional magnetic resonance imaging data,” Proc. Natl. Acad. Sci. U. S. A., 114(17): E3368–E3369, Apr 25, 2017. (https://www.ncbi.nlm.nih.gov/pmc/articles/PMC5410776/pdf/pnas.201705513.pdf)
[12] Robert W. Cox, Gang Chen, Daniel R. Glen, Richard C. Reynolds, and Paul A. Taylor, “fMRI clustering and false-positive rates,” Proc. Natl. Acad. Sci. U. S. A., 114(17): E3370-E3371, April 25, 2017. (https://www.pnas.org/content/114/17/E3370, https://doi.org/10.1073/pnas.1614961114)
[13] Daniel Kessler, Mike Angstadt, and Chandra S. Sripada, “Reevaluating “cluster failure” in fMRI using nonparametric control of the false discovery rate,” Proc. Natl. Acad. Sci. U. S. A., 114 (17) E3372-E3373, April 25, 2017. (https://www.pnas.org/content/114/17/E3372, https://doi.org/10.1073/pnas.1614502114)
[14] BEC CREW, “A Bug in FMRI Software Could Invalidate 15 Years of Brain Research,” Science Alert, July 6, 2016. (https://www.sciencealert.com/a-bug-in-fmri-software-could-invalidate-decades-of-brain-research-scientists-discover)
[15] EMILY REYNOLDS, “Bug in fMRI software calls 15 years of research into question,” WIRED, July 6, 2016. (https://www.wired.co.uk/article/fmri-bug-brain-scans-results)
[16] David Biello, “Much of what we know about the brain may be wrong: The problem with fMRI,” IDEAS.TED.COM, August 30, 2016. (https://ideas.ted.com/much-of-what-we-know-about-the-brain-may-be-wrong-the-problem-with-fmri/)
[17] Cyril Pernet, Tom Nichols, “Has a software bug really called decades of brain imaging research into question?” The Guardian, September 30, 2016. (https://www.theguardian.com/science/head-quarters/2016/sep/30/has-a-software-bug-really-called-decades-of-brain-imaging-research-into-question)
[18] Simon Oxenham, “Thousands of fMRI brain studies in doubt due to software flaws,” New Scientist, July 18, 2016. (https://www.newscientist.com/article/2097734-thousands-of-fmri-brain-studies-in-doubt-due-to-software-flaws/)
[19] Wiki 백과사전 – 프레데릭 밴팅, https://ko.wikipedia.org/wiki/%ED%94%84%EB%A0%88%EB%8D%94%EB%A6%AD_%EB%B0%B4%ED%8C%85 .
[20] 과학 「아사히」, “노벨상의 빛과 그늘”, 전파과학사, 2015년.
[21] 서현교, “실험실 빌려주고 노벨의학상 탄 얌체 교수 ?”, 미래한국 2007년 11월 23일자.

*김진철 박사는 1997년 한국과학기술원에서 물리학 학사, 1999년 포항공과대학교에서 인공신경망에 대한 연구로 석사 학위를, 2005년 레이저-플라즈마 가속기에 대한 연구로 박사 학위를 받았다. 2005년부터 유럽입자물리학연구소(CERN)의 LHC 데이터 그리드 구축, 개발에 참여, LHC 빅데이터 인프라를 위한 미들웨어 및 데이터 분석 기술을 연구하였다. 이후 한국과학기술정보연구원(KISTI), 포항공과대학교, 삼성SDS를 거쳐 2013년부터 SK텔레콤에서 클라우드 컴퓨팅과 인공지능 기술을 연구하고 있다. 빅데이터와 인공지능 기술의 기업 활용 방안에 대해 최근 다수의 초청 강연 및 컨설팅을 수행하였다. dl-ciokorea@foundryco.com