[비식별화 까기] 길들여진 정부와 기업

2016-11-28     강장묵 교수 (고려대학교 정보대학)

요점부터 콕 짚어 보자. 요즘 자주 쓰는 단어 '빅데이터'에서 데이터란 무엇인가. 교과서적인 답을 빼고 말해보면 데이터에는 두 가지 종류가 있다. ‘쉬운 데이터’와 ‘어려운 데이터’다.

 

여기서 쉬운 데이터란 무엇일까. 우리가 흔히 자주 사용하는 데이터다. 주민등록번호, 성명, 성별, 나이, 생일 등이 여기에 해당한다. 그러면 어려운 데이터는 무엇일까. 이런 거다. '어디를 자주 가서 커피를 마시는지' '어떤 색을 좋아하는지' '비 오는 날에는 무슨 노래를 듣고 싶은지' '어떤 칭찬을 들으면 가장 좋아하는지’등이 어려운 데이터다. 차이점을 바로 알 수 있을 거다.

 

우리나라는 빅데이터를 활성화하기 위해 비식별화 기술을 도입해야 한다며 정부 부처가 발 벗고 나섰다. 그런데 그렇게 나서며 공유하고 활용하겠다는 빅데이터 대부분이 ‘쉬운 데이터’다. 그런데 이런 쉬운 데이터를 공유하는 것은 위험할 뿐만 아니라 기업에게도 도움이 되지 않는 정책이다. 사례를 들어보자. 

 

 


우리는 '청춘'이라는 이름으로 이성을 만날 때 보통 쑥스러운 자기소개의 시간을 갖는다. 그럴 때 보통 가장 지루했던 질문은 쉬운 데이터를 답해야 할 때였다. 가족 관계 등의 호구 조사말이다. 간혹 겉모습에 비해 '이 사람 진짜다'고 느껴졌던 이들은 이런 질문을 던졌다. 길을 가다 장미꽃을 보고 멈춘 나에게 "꽃을 좋아하시나봐요"라고 묻거나, 지나가던 개를 쓰다듬는 나를 유심히 관찰하고는 강아지와 관련해 멋진 질문을 던지곤 했다.

 

단순히 청춘 남녀의 '썸'에 관한 이야기 같지만 위 사례는 초연결 사회에서 데이터를 바라보는 시야를 담고 있다. 우리나라의 포털 기업을 보자. 모두 쉬운 데이터에 길들여져 있다. 그들은 개인정보의 중요성을 알면서도 오래 전부터 관습적으로 이메일 계정 하나 만들 때마다 쉬운 데이터를 수없이 물었다. 여기에 집이 전세인지 자가인지, 자동차 배기량은 얼마인지를 답하면 계정 용량을 더 주며 더 많은 쉬운 데이터를 받아내려고 했다. 

 

선거 때가 되면 후보에게 지역구민의 개인정보가 은밀하게 거래되고, 중국에서는 나의 여러 정보가 고작 수십원에 팔려서 사이버피싱의 대상이 된 것도 어제 오늘의 일이 아니다. 이미 개인정보는 팔리고 팔려 더는 별 가치가 없어진 지금이다, 그렇다고 거래 비용이 제로에 가까운 이런 개인정보가 사라지겠는가. 이런 쉬운 정보를 끌어다가 결혼기념일에 메일을 보내고 생일에 쿠폰을 쏘는 고루한 마케팅에 젖은 기업들이 지금껏 건재한 것을 보면 그렇진 않을 거다.

 

문제는 습성이다. 정책을 기안해야 할 관료들은 아무 비판 없이 기업이 원하는 쉬운 데이터를 맘껏 사용하도록 도왔고 기업은 굳이 어려운 데이터를 찾기 위한 노력을 기울일 필요가 없었다. 그 사이 아마존 같은 기업은 몇 살의 남성인지 여성인지를 묻지 않고서도 A라는 책을 읽은 소비자가 그 다음에 구매할 책을 소개해주는 추천 시스템으로 이미 소비자의 마음을 읽어가고 있었다. 

 

그뿐 만이 아니다. 우버는 이제 동남아를 중심으로 오토바이 서비스도 하는데, 빅데이터로 어느 지점에서 차량을 기다리면 쉽게 발견하는 지를 추천해준다. 모두 진정한 빅데이터(어려운 데이터 수집) 분석에 기반한 서비스이다. 

 

빅데이터는 전문가들 사이에 정형데이터(구조화된 성별, 이름, 식별번호 등), 비정형데이터(유튜브의 동영상과 트위터의 트윗 등), 반정형데이터(GPS 값, 로그 기록 등) 등으로 나뉜다. 빅데이터를 활성화 하겠다고 우리가 시도하는 비식별화 기술은 이것들 중에 정형 데이터에서 주요 식별 정보를 삭제하는 방식이다. 

 

그런데 이 방법이 시대착오적인 게 문제다. 기업이 요구하니 돕겠다며 팔을 걷어붙인 관료들은 대부분 쉬운 데이터를 적당히 감추고 숨겨서 제공하겠다며 나섰다. 이미 이런 데이터와 마케팅에 길들여진 기업의 체질을 바꾸겠다거나, 개인정보의 위협을 줄이겠다는 정책은 사라졌다. 이미 미국 등 ICT 유수 기업들은 사람의 걸음걸이, 자주 가는 카페, 택시를 타는 장소 등의 빅데이터를 분석해 ‘나를 누구보다 잘 아는’ 개인화된 서비스를 한다. ‘어려운 데이터’를 축적하고 분석한 빅데이터 덕분이다. 

 

탁자를 사이에 두고 앉은 이성이 아버지의 직업이나 집이 전월세인지 등을 묻는다면 과연 매력적일까. 아니면 탁자 사이의 거리가 까마득하게 멀어 보일까. 지금 기업은 고객과 멀어질 수밖에 없는 매력 없는 방식(쉬운 데이터)을 고도화하기 위해 비식별화 기술을 요청하고 있다. 그리고 전문성이 없는 관료들은 무비판적으로 이를 도와주려고 한다. 기업에 호구조사에 가까운 쉬운 데이터는 개인정보를 적나라하게 보여주기 때문에 매력적일 거다. 하지만 더 가치 있고 매력 있는  ‘어려운 데이터’를 찾기 위해 개발하고 연구해서 글로벌 기업이 되라고 자문하는 관료는 국내 어디에도 없다.