이재명과 ‘거짓말’, 김건희와 ‘무속’…페이스북에 숨은 네거티브[페이스북 분석]

[단독]시사저널-송민 교수팀, 2년간 정치인 16명 페이스북 글 전수 분석해 정쟁 유발 주제 17개 발견 대선 직전 ‘이재명·거짓말’ 최다 거론…‘조국·비난’은 절대적, ‘김건희·학대’는 상대적 최대 관심사

2022-11-28     공성윤·김현지·조해수 기자
‘김학의’ ‘윤우진’ ‘채널A’ ‘도이치모터스’ ‘성남도시개발공사’… 이 단어들에는 공통점이 있다. 지난 대선 때 여야가 네거티브 공방을 펼친 원인이 된 인물 또는 법인이라는 점이다. 해당 단어들은 대선이 포함된 최근 2년 동안 정치인들의 페이스북에서 핵심 주제로 드러났다. 이를 포함해 특정 대상과 부정적인 단어들이 포함된 주제의 게시물은 전체의 절반에 달했다. 시사저널이 송민 연세대 문헌정보학과 교수 연구팀과 함께 여야 주요 정치인의 페이스북 게시물을 조사·분석한 결과다. 분석 대상으로 삼은 정치인은 페이스북 팔로워가 1만 명 이상이면서 매해 평균 100건 이상 게시물을 올린 인물 16명이다. 국민의힘에서 8명(△윤석열 대통령 △이준석 전 대표 △원희룡 국토교통부 장관 △권성동 의원 △장제원 의원 △조수진 의원 △홍준표 대구시장 △유승민 전 의원), 더불어민주당에서 8명(△이재명 대표 △최강욱 의원 △고민정 의원 △김의겸 의원 △황운하 의원 △김용민 의원 △박지원 전 국정원장 △추미애 전 법무부 장관)을 각각 뽑았다. 이들이 20대 대선 기간이 포함된 2021년 1월부터 2022년 7월까지 올린 페이스북 게시물 1만2483건을 모두 수집해 ‘토픽 모델링’(아래 설명)을 적용했다. 이를 통해 핵심 주제 40개와 각 주제에 연관된 단어 20여 개 등 총 800여 개(중복 포함)의 연관어를 뽑아냈다.
ⓒ일러스트 김세중

핵심 주제 40개 중 17개가 특정 대상·부정적 단어 결합

이후 각 주제에서 특정 인물 또는 법인·행정기관과 부정적인 연관어가 동시에 출현한 경우를 추렸다. 그 결과 핵심 주제 40개 중 17개가 뽑혔다. 중복 대상을 제외하고 그 내용을 관련도 높은 순으로 나열하면 △김학의(전 법무부 차관)·혐의 △문재인·위기 △조국·비난 △윤석열·의혹 △국방부·참사 △채널A·사주 △성남도시개발공사·부패 △오세훈·권력 △도이치모터스·의혹 △전두환·독재 △이재명·거짓말 △조수진·위반 △조선일보·가짜 △법원·허위 △검찰·남용 △언경(언론과 경제)·특권 △김건희·학대 등이다. 이들 17개 주제하에 언급된 게시물은 전체 1만2483건 중 5719건(45.8%)이었다. 시사저널은 각 주제의 시기별 출현 빈도를 같이 살펴봤다.
특정 대상과 부정적 단어를 포함하는 주제 17개와 그 연관어 목록. 최상단 단어들은 해당 주제에서만 유독 두드러지는 특이 키워드고 그 아래에 관련성이 높은 순서대로 연관어들이 나열돼 있다.
대선 직전인 올 2월에 가장 많이 등장한 주제는 ‘이재명·거짓말’이다. 이 주제에 속하는 게시물은 2월에 126건 올라와 다른 주제에 비해 가장 많았다. 그중 특히 원희룡 장관의 글이 두드러졌다. 대선 기간 국민의힘 선대위 본부장이었던 원 장관은 ‘이재명’과 ‘거짓말’을 함께 쓴 게시물을 2월에만 12건 올렸다. 모두 이 후보를 둘러싼 의혹을 꼬집은 네거티브성 발언이다. 일례로 2월24일 원 장관은 “이재명 후보의 상식을 벗어난 거짓말”이라고 썼다. 이 후보가 대장동 개발 실무 담당자인 고(故) 김문기 전 성남도시개발공사 처장에 대해 모른다고 주장한 것을 비판하면서다. ‘이재명·거짓말’ 주제에는 ‘윤석열’ ‘발언’ ‘사과’ ‘토론’ ‘구설수’ 등의 연관어도 포함됐다. ‘이재명’을 관련성 높은 연관어로 공유하는 또 다른 주제는 ‘성남도시개발공사·부패’다. 이 주제에는 ‘대장동 게이트’ ‘화천대유’ ‘비리’ 등도 연관어로 들어가 있다. 해당 주제에 속한 게시물은 2021년 9월 100건 올라와 최다 출현했다. 이때는 경기경제신문의 “이재명 후보님, 화천대유자산관리는 누구 것입니까?” 칼럼을 시작으로 대장동 개발 의혹이 공론화됐던 시기다. 윤석열 대통령을 비롯해 홍준표 시장, 유승민 전 의원 등 당시 국민의힘 대선 경선 후보들은 2021년 9월 일제히 대장동 의혹을 근거로 이재명 대표를 공격했다. “대장동 개발사업을 두고 이재명 지사의 해명이 가관”(2021년 9월15일 유승민), “비리개발 주체가 성남시였는데 어떻게 성남에 사는 총각 사칭 변호사가 그걸 몰랐나”(2021년 9월19일 홍준표), “이재명 지사는 대장동 개발을 설계했다고 자랑했다”(2021년 9월29일 윤석열) 등이다. 특히 윤 대통령의 해당 발언은 4100회의 ‘좋아요’를 받으며 공감을 불렀다. 올 1월에도 가장 논의가 잦았던 주제는 ‘성남도시개발공사∙부패’다. 이를 주제로 한 게시물은 1월 103건 올라왔다. 대선 공식 선거기간을 1개월 앞둔 시점이자 대장동 사건의 첫 공판(1월10일)이 열린 달이다. 당시 원희룡 장관은 “대장동 몸통 이재명 시장의 직접 관여 사실이 증명되는 것은 시간문제”(1월22일)라고 했고, 김의겸 의원은 “대장동 수사에서 검찰은 윤석열의 연관성은 애써 눈을 감았다”(1월30일)고 했다. 같은 사건을 토대로 서로 상대 진영을 공격한 모양새다.

네거티브 선거전 드러난 ‘오세훈·권력’, 月 최다 게시물 배출

모든 시기를 통틀어 월 기준 최다 게시물을 배출한 주제는 ‘오세훈·권력’이다. 여기에는 ‘박영선’ ‘서울’ ‘시장’ ‘보궐’ 등의 연관어가 딸려있다. 이를 통해 알 수 있듯이 해당 주제는 2021년 4월7일 치러진 서울시장 보궐선거에 관한 내용이다. 보궐선거 직전인 2021년 3월 ‘오세훈·권력’ 주제로 묶인 게시물은 144건으로 집계됐다. ‘오세훈’과 ‘권력’을 동시 포함한 게시물 중에는 2021년 3월30일 당시 조수진 국민의힘 보궐선거 대변인이 쓴 글이 있다. “야권 단일후보인 오세훈 후보를 추궁했다”며 “보궐선거는 박원순 전 서울시장의 ‘권력형 성폭력’ 탓에 치러진다”는 내용이다. 박영선 후보가 오세훈 후보의 ‘생태탕 의혹’을 문제 삼자 박 후보 남편이 소유한 도쿄 아파트를 저격한 것이다. 그 연장선상에서 ‘오세훈·권력’ 주제의 연관어 중에는 ‘아파트’ ‘박원순’ 등도 눈에 띈다. 특정 시기와 상관없이 꾸준히 올라온 게시물의 공통 주제는 ‘조국·비난’이다. 관련 게시물은 매달 평균 약 53건 올라왔고 올 2월 106건으로 최다 게재됐다. 게재 건수를 모두 더하면 1000건으로 총 주제 40개 중 가장 많은 게시물을 쏟아냈다. 이는 조국이 ‘국적이 속한 나라(祖國)’ 또는 ‘전 법무부 장관 이름’을 가리키는 동음이의어라 등장 횟수가 많기 때문으로 추정된다. ‘조국·비난’ 주제의 연관어에는 ‘문재인’ ‘윤석열’ 등 각 진영을 대표하는 인물과 ‘프레임’ ‘세력’ ‘정권’ 등 정치권에서 흔히 쓰는 용어가 포함됐다. 토픽 모델링은 시기별 분포도를 근거로 상대적으로 두드러지는 주제를 뽑아내기도 한다. 이를 통해 시기별로 논의가 활발한 주제를 추정할 수 있다. 그에 따라 최상단에 위치한 주제는 ‘김건희·학대’로 나타났다. 단 ‘김건희’와 ‘학대’가 서로 관련 있다는 뜻은 아니다. 두 단어를 같이 쓴 게시물은 2월15일 김의겸 의원이 올린 글이 유일하다. 그 내용은 “동물학대의 현장에 윤석열-김건희 부부의 존재를 확인했다”는 것이다. ‘김건희·학대’ 주제의 연관어를 펼쳐보면 ‘아동’ ‘법사’ ‘무속’ 등이 있다. 윤 대통령 부부의 무속 논란과 정인이 사건에 관한 페이스북 게시물로 추정하건대 김건희 여사는 ‘법사’ ‘무속’과 관련 있고, 아동은 ‘학대’와 연결되는 것으로 보인다. 윤 대통령 부부의 무속 논란은 민주당의 네거티브 공세의 빌미가 됐다. ‘김건희’와 ‘법사’ 또는 ‘무속’이 함께 인용된 게시물은 총 42건으로 출처는 모두 민주당이다.  

최다 등장 단어는 '검찰'...황운하 의원 1259번 사용

유독 비판이나 네거티브에 열을 올린 정치인은 누굴까. 정치인별로 자주 쓴 단어를 모아본 결과 특정 주제와의 연관성을 가늠할 수 있었다. 부정적 핵심 주제 17개 중 가장 자주 등장한 단어는 ‘검찰’이다. 이는 6개 주제에 중복으로 들어가 있다. 사용 빈도가 높은 단어 3개 안에 ‘검찰’이 포함된 정치인은 김용민∙최강욱∙황운하 의원과 추미애 전 장관 등 4명이다. 모두 민주당이다. 황운하 의원의 경우 ‘검찰’만 1259번 사용했다. 이재명 대표의 경우 대선 기간을 포함한 지난해 10월부터 올 2월까지 “검찰제국 NO” “검찰 카르텔” 등 검찰 비판에 주력했다. 하지만 모두 삭제해 확인이 불가능한 상태다.  

◎ ‘토픽 모델링’이란?

‘토픽 모델링(Topic Modeling)’은 대량의 텍스트에서 추상적인 주제를 찾아내 연관어와 묶는 알고리즘이다. 예를 들어 ‘개’를 다룬 문서에서는 ‘멍멍’이 자주 등장하고, ‘고양이’에 관한 문서에서는 ‘야옹’이 자주 나온다. 그렇다면 ‘개’와 ‘멍멍’, ‘고양이’와 ‘야옹’을 각각의 주제로 따로 묶을 수 있다. 이러한 기법을 이용해 일관성(Coherence)은 높고 혼란성(Perplexity)은 낮은 핵심 주제 40개를 추렸다. 토픽 모델링은 텍스트에 숨겨진 의미 구조를 발견할 때 유용하다. 송민 교수는 2013년 논문을 통해 18대 대선후보들에 관한 기사를 토픽 모델링으로 분석했다. 그 결과 진보·보수 매체가 각각 자신의 이데올로기에 따라 기사를 보도하는 경향성을 입증한 바 있다. 또 2016~19년 트위터 데이터를 토픽 모델링으로 분석해 우울 증세를 보이는 사람들이 주로 어떤 단어를 쓰는지 밝혀냈다. 토픽 모델링은 빅데이터에 숨겨진 주제를 찾아준다는 점 덕분에 사회문제 해결, 경영 혁신 등 다양한 분야에 활용된다.  ※ 본 기획물은 정부광고 수수료로 조성된 언론진흥기금의 지원을 받았습니다.