자세히 보기

By Kim Jin Cheol

김진철의 How-to-Big Data | 빅데이터 수집에 관한 생각 (3)

LHC 검출기 및 가속기 데이터의 수집과 측정 지난번 연재(How-to-Big Data 4 – 빅데이터 수집에 관한 생각 (

LHC의 입자 검출기들은 소립자 세계를 들여다보는 일종의 현미경, 사진기와 같다고 지난 첫 번째 연재(How-to-Big Data 1 – 빅데이터 비즈니스의 근본적인 질문)에서 잠깐 언급했었다. 사실 눈에 보이지도 않는 나노(10^-9m), 펨토(10^-12m), 아토(10^-15m) 스케일, 심지어 관찰 가능한 물리 현상이 일어날 수 있는 공간적인 한계로 받아들여지고 있는 플랑크 스케일(1.61622938×10^−35m) 수준에서 일어나는 현상들은 눈으로 직접 관찰할 수 없기 때문에 이런 현상을 관찰하기 위한 방법을 고안하는 것 자체가 기술적인 난제다.

원자, 분자, 소립자들과 같이 눈에 보이지 않는 영역을 관찰하는 것 자체가 근본적인 철학적인 문제를 제기한다. 이 때문에 20세기 초반 물리학자들은 양자역학을 개발하는 초기 과정에서 불확정성 원리로 대표되는 자연 현상 인식의 한계와 양자역학의 물리학적 해석 문제에 대해 많은 논란을 벌이기도 했다. (신기하게도 양자역학을 고안하면서 알게 된 측정 과정의 철학적인 문제들은 소셜 빅데이터 수집에서도 비슷하게 나타난다. 자세한 내용은 이후에 다시 언급하기로 한다.)

LHC에서 입자들의 정보를 얻기 위해 측정하는 물리량은 여러 종류가 있는데, 이중에서 독자분들이 상대적으로 이해하기 쉬운 입자들의 궤적 측정 방법에 대해 살펴보기로 하자. 입자들의 궤적(trajectory)이란 입자가 이동하는 경로를 물리학 전문용어로 말한 것이다. 소립자들이 빛의 속도에 가까운 아주 빠른 속도로 움직일 뿐 아니라, 입자들의 크기도 나노, 펨토미터 수준으로 아주 작기 때문에 눈으로 직접 관찰할 수 없다. 입자들이 고유하게 가진 질량, 전하, 자기 모멘트(magnetic moment; 또는 자기 스핀(magnetic spin)이라고도 함) 등의 물리적인 성질 때문에 주변 물질과 상호작용하면서 남기는 흔적을 추적해서 입자들의 운동 경로를 기록하게 된다.

20세기 초 중반에는 입자들의 궤적을 기록하기 위해 안개상자(cloud chamber; Wilson chamber)라는 장치를 사용했다. 안개상자는 수증기나 메탄올 가스를 넣은 용기의 압력을 낮추어 용기를 과포화(supersaturation) 상태로 만들고, 이 용기 안에서 고에너지 입자를 생성, 상호작용 시키고 운동하도록 한다. 이렇게 과포화된 수증기나 메탄올 가스를 고에너지 입자가 통과하게 되면 고에너지 입자가 가스 입자를 이온화시키면서 생긴 전하 때문에 입자가 움직이는 경로를 따라 수증기, 또는 메탄올 가스 입자가 응집되어 흔적을 남기게 된다. 이렇게 입자가 안개상자에 남긴 흔적을 사진으로 촬영, 분석하면 어떤 입자가 생성되어 어떤 상호작용을 했는지 판독할 수 있게 된다. 아래의 그림 1의 왼편에 있는 것이 CERN 설립 초반에 사용했던 대형 안개상자고, 오른편이 안개상자에 기록된 입자들의 궤적이 사진으로 기록된 모습이다.

그림 1. CERN에서 사용한 대형 안개상자(cloud chamber)와 안개상자를 이용해 촬영한 입자들의 궤적

위의 안개상자는 궤적을 관찰하려는 입자의 에너지가 높을수록 더 큰 크기의 용기(chamber)가 필요하다. 현대 입자 물리학에서 관심을 가지고 연구하는 쿼크 등의 소립자들이 만드는 현상을 기록하기에는 시간, 공간 정밀도가 낮아 사용하기 어렵다. 이런 이유로 현대 입자 물리학에서는 소립자들의 궤적을 기록하기 위해 실리콘과 같은 반도체 물질을 이용한 센서와 정밀 전자 회로를 이용해 정밀한 궤적 기록을 한다.

아래의 그림 2는 실리콘 센서 패널을 이용한 궤적 검출기(tracker)이다. 실리콘 센서에 전하를 가진 입자가 지나가면 입자가 실리콘 센서 내 실리콘 원자를 이온화시키면서 실리콘의 전도 밴드(conduction band)에 전류로 흐를 수 있는 전자를 발생시킨다. 이렇게 생긴 전자는 실리콘 결정 내에 전류를 발생시키게 된다. 이런 단위 실리콘 센서(픽셀)를 아래 그림 3과 같이 일정한 크기로 반복적으로 붙여 센서 기판으로 제조하게 된다. 단위 실리콘 센서의 아래층에는 실리콘 센서에서 발생한 전류를 읽어 신호로 변환해주는 신호 수신 칩(readout chip)이 센서와 혹같이 생긴 회로를 통해 연결되어 있다. 이렇게 신호 수신 칩에서 검출된 전류 신호를 통해 실리콘 센서 패널의 어느 픽셀에서 입자가 지나갔는지를 판독하여 데이터 수집 회로를 통해 외부 컴퓨팅 시스템으로 전송하게 된다[2-7].

위의 실리콘 센서 패널을 이용한 궤적 검출기는 궤적의 공간 해상도가 실리콘 센서의 크기에 의해 결정된다. CMS 검출기에 쓰인 실리콘 하이브리드 픽셀 검출기의 경우는 하나의 실리콘 센서 픽셀이 길이 150µm, 폭 100µm, 깊이 270µm의 크기로, CMS 검출기 내 원통형 모양의 공간을 약 4,800만 개의 픽셀로 분해하여 궤적을 추적할 수 있는 정밀도를 가지고 있다. 이 픽셀들로 재구성할 수 있는 공간 해상도보다 더 작은 스케일로 일어난 입자의 이동 경로는 이 실리콘 센서 픽셀 검출기로는 검출과 재구성이 되지 않는다[2-7].

그림 2. CMS 검출기의 하이브리드 실리콘 픽셀 궤적 검출기(tracker)와 실리콘 센서 전자 회로 모듈

그림 출처: (왼편) HEPHY Homepage – Der CMS Tracker, http://www.hephy.at/de/cmstracker/ (오른편) DESY CMS Group – CMS Tracker Design for HL-LHC, http://cms.desy.de/e53612/e155175/e155179/

위와 같이 소립자들을 관찰하기 위해서는 소립자들이 주변과 어떤 상호작용을 하는지 이해하고 있어야 한다. 우리가 흔히 관찰한다고 하면 사람의 오감을 이용해서 관찰하는 것을 생각하기 때문에 관찰 과정에 대해 특별히 깊은 생각을 하지 않는다. 하지만, 눈에 보이지 않고, 인간의 오감을 넘어서는 대상을 관찰할 경우에는 우리가 관찰하는 대상이 환경과 관찰자와 어떻게 상호작용하게 될지 이해해야만 무엇을 관찰하고 관찰 과정을 어떻게 설계할지 알게 된다.

그림 3. CMS 검출기에서 쓰이는 하이브리드 실리콘 픽셀 궤적 검출기의 실리콘 픽셀 센서 유닛의 구조

우리가 관찰하고 측정하는 대상에 대해 잘 알고 있다면 관찰, 측정을 위한 데이터 수집 과정을 이해하고 데이터 분석을 보다 정확하게 할 수 있다. 만약 관찰하고 측정하는 대상이 미지의 것이고 모르는 것이라면, 우리가 가진 지식을 이용해서 가설을 세우고 지식의 지평선을 넓혀가는 과학적 탐구의 과정을 거쳐야 한다. 데이터가 어떻게 수집되었고, 데이터가 뭘 말하고 데이터가 보여주는 대상의 한계가 어디까지인지 이해하지 못한 상태에서 수행하는 데이터 분석은 아무 의미도 없다.

빅데이터 비즈니스의 데이터 수집과 측정 – 수집 과정과 비즈니스 모델과의 관계
위에서 CMS 검출기 중 입자의 이동 경로를 기록하는 안개상자와 하이브리드 실리콘 픽셀 궤적 검출기에 대해 간단하게 살펴보면서 데이터가 만들어지는 과정과 데이터의 한계를 이해하지 못한다면 데이터 분석이 의미 없다는 얘기를 했다. 사실 관찰과 측정에 관해서만도 아직도 깊게 논의해야 할 것이 많지만 여기서는 생략하고, 빅데이터 비즈니스가 과연 이런 과학 실험에서의 측정과 데이터 수집과 어떻게 관련 있는지 생각해 보자.

먼저 빅데이터 비즈니스에서 보통 많이 다루는 데이터의 수집 과정을 살펴보자. 요즘 미디어에서 제일 많이 언급되는 빅데이터는 역시 검색엔진을 통해 볼 수 있는 웹 빅데이터와 소셜 네트워크 서비스를 통해 수집되는 소셜 네트워크 데이터들이다. 웹 데이터는 꼭 사람들에 대한 데이터만을 수집하는 것은 아니지만, 웹 빅데이터와 소셜 네트워크 빅데이터 모두 비즈니스와 연관해서는 사람들에 대한 데이터를 수집하는 관점에서 많이 다뤄진다.

그림 4. 데이터 수집 대상이 사람인 경우의 다자 플랫폼 비즈니스 모델의 예

사람들에게 자신에 대한 개인 정보를 내놓도록 하려면 그런 정보를 주어야만 받을 수 있는 제품이나 서비스를 제공하고, 그 대가로 개인 정보를 수집해야 한다. 제일 대표적인 것이 소셜 네트워크 서비스다. 소셜 네트워크 서비스는 사람들이 개인 정보를 올리고 이를 이용해 다른 사람들과 온라인으로 쉽게 관계를 맺으며 즐겁게 할 수 있는 서비스를 제공함으로써 사람들의 신상 정보와 취향과 같은 다양한 개인 정보를 수집한다. 이런 개인 정보는 적절하게 가공되어 사람들의 개인 정보를 필요로 하는 광고회사나 온라인 마케팅 회사들에 제공되고, 이들 광고회사나 온라인 마케팅 회사들이 개인화된 상품 추천이나 마케팅 등에 개인 정보를 활용하게 된다. 결국은 데이터 흐름으로 중심으로 그려지는 플랫폼 비즈니스 모델을 통해 데이터가 수집되고 또 다른 비즈니스로 연결된다. 이런 비즈니스 모델은 요즘은 너무 흔해져서 누구나 잘 알고 있다. 이렇게 플랫폼을 통해서 서비스를 제공하고 개개인에 대한 정보를 수집하는 과정이 바로 일종의 측정 과정이 된다.

여기서, 수집된 개인정보가 대상이 되는 각 사람에 대해 얼마나 정확한 정보를 주는지는 보통 잘 고려하지 않는다. 만약 이런 비즈니스 모델이나 플랫폼을 통해서 아무리 많은 개인 정보를 모았다고 한들, 사람들이 제공한 정보가 정확하지 않다면 이런 데이터를 이용한 비즈니스는 크게 효과도 없을 것이고 성공하지도 못할 것이다. 사용자들이 자신들의 정확한 개인 정보를 기꺼이 내놓을 만큼 가치 있다고 믿는 서비스를 제공하지 않는다면 양질의 개인 정보 데이터를 얻는 것은 매우 어렵다.

위와 같은 개인 정보 수집 시에, 사람들이 만약 서비스를 받는 과정에서 자신의 정보 수집이나 측정 과정에 대한 내용을 알고 있을 때는 사람들이 주는 정보가 달라질 수 있음을 고려해야 한다. 사람들은 기계와는 달리 자신이 하는 행동에 대해 생각하고 성찰할 수 있는 능력이 있고, 이러한 자신의 행동에 대한 생각과 성찰은 일종의 재귀적인(recursive) 피드백으로 작용하여 서비스의 대가로 제공하는 사람들이 보이는 반응과 정보에 영향을 줄 수 있다.

이러한 효과의 대표적인 예가 페이스북의 데이터과학자인 아담 크레이머와 코넬대의 제이미 길로이, 제프리 핸콕이 미국의 저명 학술지인 미국 국립과학원보(PNAS)에 2014년에 공동 발표한 논문을 통해 논란이 되었던 페이스북의 감정 조작 실험 논란이다. 2012년 68만 9,003명의 뉴스피드에서 긍정적 또는 부정적 단어가 들어간 콘텐츠를 사용자 몰래 삭제하여 긍정적인, 또는 부정적인 감정을 사용자에게 유발하고, 그에 따라 사용자가 긍정적이거나 부정적인 콘텐츠를 작성하게 되는지 확인한 실험에서 사용자는 뉴스피드의 조작에 따라 긍정적인, 또는 부정적인 감정을 사용자가 겪게끔 영향을 줄 수 있다는 것을 확인하였다[8-9].

이 실험은 그 실험 결과 자체도 많은 논란을 불러일으켰지만, 이렇게 소셜 네트워크를 통해 사람들의 감정이 조작되고 전파될 수 있다는 사실이 사람들을 통해 알려지면서 사람들이 소셜 네트워크 서비스를 이용하면서 제공하는 개인 정보에 대한 불안감이 확산되었다는 것이 더 큰 문제였다. 이런 경우라면 페이스북을 통해 보다 정확한 사용자들의 정보와 데이터를 수집하기가 더 어려워질 수 있다.

LHC 실험을 분석할 때 사용하는 양자역학 및 양자장론의 핵심 아이디어 중의 하나는, 우리가 자연의 어떤 대상을 관찰하는 행위 그 자체가 대상에 영향을 주어 대상을 변화시키기 때문에, 관찰, 측정하는 결과를 해석할 때 이렇게 관찰과 측정 과정 자체가 대상에 주는 변화를 고려해서 해석해야 한다는 것이다. 이런 양자역학의 기본 생각은 우리가 개인 정보를 수집하거나, 센서 네트워크를 통해 환경에 대한 정보를 수집할 때에도 비슷하게 적용된다. 특히 대상이 사람인 경우, 위의 감정 조작 실험 논란에서 입증된 바와 같이 사람들의 감정이나 생각에 관련된 데이터를 수집하는 과정 그 자체가 수집되는 데이터에 변화를 줄 수 있다. 이런 효과가 고려되지 않으면, 이런 데이터를 분석해서 얻은 통찰이라는 것은 오히려 잘못된 결정을 내리게 할 수 있으므로 더 위험할 수 있다.

두 번째로, 최근 많이 등장하는 빅데이터는 다양하고 많은 센서를 통해 동시다발적으로 연속적으로 수집되는 데이터이다. 센서들이 측정하는 대상이 사람들이 될 수도 있겠지만, 이런 데이터 수집 방법은 관찰의 대상이 되는 사람들의 의지와는 관계없이 센서 및 측정 기계들의 연속적인 동작을 통해 자동화된 방법으로 수집된다. 이런 센서들은 사람에 대한 데이터도 수집하지만, 보통은 환경이나 기계에 대한 데이터를 연속적으로 수집하는 데 많이 이용된다.

그림 5. 데이터 수집 대상이 센서, 기계인 경우의 다자 플랫폼 비즈니스 모델의 예

왼쪽 아이콘 출처: (위, 아래) iconfinder.com (중간) plainicon.com

센서를 이용한 연속적인 데이터 수집 과정을 위해서는 어떤 센서를 어느 정도의 양으로 어떤 위치에 설치하여 대상에 대한 어떤 정보를 수집할 것인지 설계하는 과정이 필요하다. 최근 아마존이 공개한 무인 온라인 스토어인 아마존고(Amazon Go) 매장을 한번 생각해보자. 우선 매장 안에서 사람들이 구입한 물건이나 사람들의 구매 행동에 관한 정보를 수집하기에 최적인 영상센서와 RFID 등의 센서 설치 장소를 매장 내에서 선별해야 할 것이다. 이러한 센서 설치 장소를 고르기 위해서는 사람들이 물건을 구매할 때 보이는 행동이나 패턴, 스토어안에서 사람들이 구매를 하면서 보이는 행동 양식에 대한 구체적인 정보와 이해가 필요할 것이다. 그래야 이런 정보를 이용해 고객들이 어떤 물건을 구입하려 하는지 센서 데이터를 분석하여 알아낼 수 있기 때문이다. 매장 운영을 위해 가장 중요한 정보인 사람들이 구매한 물건의 종류 및 수량을 영상 센서와 RFID 등의 센서를 통해 알아내기 위해서는 매장 내 전시된 품목들의 위치와 수량에 관한 정보가 센서 정보 처리에 같이 연관되어야 할 것이다.

이렇게 대상으로부터 연속적인 데이터를 기계적이고 자동화된 방식으로 수집할 때에도 데이터를 수집하는 센서나 데이터 수집 장치가 대상의 어떤 정보와 상태를 보는지, 그리고 어떤 원리로 이런 정보와 상태를 데이터로 만드는지 이해하는 것이 필요하다. 센서의 수와 위치가 적절치 않고, 데이터 수집에 꼭 필요한 관련 정보를 수집한 센서 정보와 적절하게 연결하지 못한다면 아무리 많은 데이터를 촘촘하게 모은다 해도 관찰하는 대상에 대한 정확한 정보로 가공할 수는 없을 것이기 때문이다.

위에서 살펴본 바와 같이, 데이터 수집 과정이 비즈니스 모델을 지원할 수 있도록 적절하게 설계되지 않으면 비즈니스를 지탱할 수 있는 적절한 데이터가 아예 수집될 수 없다. 데이터 수집 과정에 필요한 측정 대상과 데이터와의 관계, 데이터 수집 과정에서 얻을 수 있는 데이터의 한계 및 제약, 데이터가 줄 수 있는 대상에 대한 정보의 한계에 대해 적절하게 평가하지 않고 수집한 데이터는 자칫 비즈니스에 영향을 줄 수 있는 중요한 의사 결정을 의미 없게 만들 수 있다.

지금까지 생각해본 데이터 수집 과정의 다양한 이슈를 고려해서, 빅데이터 비즈니스 모델을 어떻게 설계할 것인지 다음 연재에서 같이 살펴보고 데이터 수집에 관한 생각들을 마무리하려고 한다.

[참고문헌]
[1] L. Taylor, “Silicon Pixels.” http://cms.web.cern.ch/news/silicon-pixels, 2011.
[2] Manfred Krammer, The Silicon Inner Tracker of CMS,
http://www.hephy.at/fileadmin/user_upload/Vortraege/UAE-CERN.pdf .
[3] Matteo Centis Vignali, Silicon Sensors for the Upgrades of the CMS Pixel Detector, Ph. D. Dissertation, Universität Hamburg, 2015.
[4] Georg Auzinger, Silicon Sensor Development for the CMS Tracker Upgrade, Ph. D. Dissertation, Technische Universität Wien, 2013.
[5] Manfred Krammer, INSTRUMENTATION AT THE LHC – A CLOSER LOOK TO THE SILICON DETECTOR SYSTEMS, Presentation at the 8th International “Hiroshima” Symposium on the Development and Application of Semiconductor Tracking Detectors at Academia Sinica, Taipei, December 5-8, 2011.
(https://indico.cern.ch/event/135986/contributions/141143/attachments/109602/155972/HSTD8-Krammer_2.pdf )
[6] Manfred Krammer, Frank Hartmann, Silicon Detectors, Lecture at the CERN Winter School – Silicon strips and pixels technologies – part 1, Jan. 31 ~ Feb. 10, 2011. (https://indico.cern.ch/event/124392/contributions/1339904/attachments/74582/106976/IntroSilicon.pdf )
[7] Marko Dragicevic, The New Silicon Strip Detectors for the CMS Tracker Upgrade, Ph. D. Dissertation, Technische Universität Wien, 2010.
[8] The Wall Street Journal 한국어판 2014년 7월 1일자, http://kr.wsj.com/posts/2014/07/01/페이스북-사용자-70만명-모르게-감정-조작-실험
[9] Adam D. I. Kramer, Jamie E. Guillory, and Jeffrey T. Hancock, Experimental evidence of massive-scale emotional contagion through social networks, Proceedings of National Academy of Science (PNAS) Vol. 111, No. 24, June 17, pp. 8788–8790, 2014.
 

*김진철 박사는 1997년 한국과학기술원에서 물리학 학사, 1999년 포항공과대학교에서 인공신경망에 대한 연구로 석사 학위를, 2005년 레이저-플라즈마 가속기에 대한 연구로 박사 학위를 받았다. 2005년부터 유럽입자물리학연구소(CERN)의 LHC 데이터 그리드 구축, 개발에 참여, LHC 빅데이터 인프라를 위한 미들웨어 및 데이터 분석 기술을 연구하였다. 이후 한국과학기술정보연구원(KISTI), 포항공과대학교, 삼성SDS를 거쳐 2013년부터 SK텔레콤에서 클라우드 컴퓨팅과 인공지능 기술을 연구하고 있다. 빅데이터와 인공지능 기술의 기업 활용 방안에 대해 최근 다수의 초청 강연 및 컨설팅을 수행하였다. dl-ciokorea@foundryco.com