연구 결과를 발표할 때 통계적 유의성은 논문의 생사를 가르는 핵심 요소다. 그런데 이 유의성을 인위적으로 만들어내는 P Hacking이라는 관행이 학계를 조용히 잠식하고 있다. 겉보기엔 그럴듯한 연구 결과가 실은 데이터를 이리저리 조작한 결과물일 수 있다는 충격적인 현실, 과연 우리가 믿는 과학적 사실들은 얼마나 신뢰할 수 있을까?
건신건정에서 다루는 건강 정보들 중 많은 수는 권위있는 학술지에 게재된 연구 논문을 참조하여 공신력 있는 정보를 전달하고자 노력하고 있다. 하지만 우리가 흔히 전문가라고 부르는 그런 의학 박사들의 집단조차도 논문 연구를 할 때 통계 데이터를 조작하거나 본인도 모르게 잘못 추출되는 경우가 있다는 것이다.
그래서 내가 누누히 강조하는 것이, 어디 외국에 논문 하나 발표된 걸 가져다가 자극적인 멘트만 뽑아서 냅다 기사를 쓰는 한국 언론의 건강 뉴스를 곧이 곧대로 믿지 말라는 것이다. (물론 그 후에 그걸 다시 확대 재생산하며 어그로 끄는 유튜버는 말할 것도 없고)
항상 제목만 보고 그러려니 하는 습관보다는, 이게 정말인지, 말이 안되는거 같은데 맞아? 같은 반론 질문하는 자세를 가지고 들여다봐야 주체적으로 건강 정보를 올바르게 학습할 수 있다.
P Hacking이란 무엇인가
P Hacking은 연구자가 통계적으로 유의미한 결과(p<0.05)를 얻기 위해 데이터를 선택적으로 분석하거나 보고하는 행위를 말한다.
쉽게 말해 원하는 결과가 나올 때까지 데이터를 이렇게 저렇게 만지작거리는 것이다. 2011년 펜실베니아대학교 심리학과 시몬스(Joseph Simmons) 교수 연구팀이 ‘Psychological Science’에 게재한 논문에서 이 개념을 본격적으로 조명했다.
이들은 실험을 통해 비틀즈의 ‘When I’m Sixty-Four’를 들으면 실제로 나이가 젊어진다는 황당한 결과를 통계적으로 ‘유의미하게’ 만들어냈다. 물론 말도 안 되는 결과지만, 이를 통해 연구 유연성(researcher degrees of freedom)을 악용하면 얼마나 쉽게 거짓 결과를 만들 수 있는지 입증했다.
문제는 이게 단순한 사기가 아니라는 점이다. 많은 연구자들이 자신도 모르게 P Hacking을 하고 있다.
P Hacking의 주요 수법들 🔍
선택적 데이터 제외
연구자들이 가장 흔히 사용하는 방법 중 하나다. “이상치(outlier)”라는 명목 하에 자신의 가설에 맞지 않는 데이터를 제거하는 것이다.
예를 들어 100명을 대상으로 실험했는데 결과가 유의미하지 않으면, “실험 지시사항을 제대로 이해하지 못한” 참가자 몇 명을 제외시킨다. 그러다 보면 어느새 p값이 0.05 아래로 떨어진다.
다중 비교의 함정
하나의 실험에서 여러 변수를 측정한 뒤, 그중 유의미한 결과만 보고하는 방식이다.
▲ 약물 효과 연구에서 혈압, 콜레스테롤, 혈당, 체중 등 20가지 지표를 측정 ▲ 그중 혈당에서만 p=0.04가 나옴 ▲ 다른 19개 결과는 언급하지 않고 “혈당 개선 효과 입증”이라고 발표
통계학적으로 20번 검정하면 순전히 우연으로도 한 번쯤은 p<0.05가 나올 수 있다. 이를 다중비교 문제(multiple comparisons problem)라고 한다.
샘플 크기 조정
데이터를 조금씩 모으면서 중간중간 유의성을 확인하는 방법이다.
50명 데이터로 분석했더니 p=0.08? 그럼 20명 더 모으자. 70명에서 p=0.06? 조금만 더. 이런 식으로 유의미한 결과가 나올 때까지 샘플을 늘리다가, 원하는 p값이 나오면 그때 데이터 수집을 중단한다.
2016년 캘리포니아대학교 버클리캠퍼스의 헤드(Megan Head) 교수 연구팀은 생의학 연구 논문을 분석한 결과, 샘플 크기가 통계적 파워보다는 유의성 달성 여부에 따라 결정되는 경향을 발견했다.
가설 수정하기
실험 후 데이터를 보고 나서 가설을 바꾸는 것이다. 원래는 A와 B의 관계를 보려고 했는데 유의미한 결과가 안 나오면, 갑자기 “사실 우리는 C와 D의 관계에 관심이 있었다”고 주장한다.
이를 HARKing(Hypothesizing After Results are Known)이라고 부른다.
왜 P Hacking이 문제인가
재현 불가능한 연구의 양산
P Hacking으로 만들어진 결과는 다른 연구자가 재현하려고 해도 똑같은 결과가 나오지 않는다.
2015년 ‘Science’지에 게재된 재현성 프로젝트(Reproducibility Project)는 심리학 분야의 주요 논문 100편을 재현 실험한 결과, 단 36%만이 원래 결과를 재현할 수 있었다고 보고했다. 버지니아대학교를 비롯한 270명의 연구자가 참여한 대규모 프로젝트였다.
의학 분야도 상황이 비슷하다. 암젠(Amgen)의 연구자들이 53개 주요 암 연구를 재현하려 시도했더니 겨우 6개(11%)만 성공했다.
| 분야 | 재현 성공률 | 연구기관 |
|---|---|---|
| 심리학 | 36% | 버지니아대학교 외 270명 |
| 암 연구 | 11% | 암젠(Amgen) |
| 생명과학 | 20-25% | 베이어(Bayer) |
잘못된 의료 결정
의학 연구에서 P Hacking은 직접적으로 사람의 생명과 연결된다.
어떤 약물이 효과가 있다고 잘못 발표되면, 환자들은 실제로는 도움이 안 되는 치료를 받게 된다. 반대로 부작용이 과소평가되면 위험한 약이 시장에 유통될 수 있다.
2005년 스탠퍼드대학교 의학통계학과의 이오아니디스(John Ioannidis) 교수는 “Why Most Published Research Findings Are False”라는 제목의 논문에서, 출판된 연구 결과 대부분이 거짓일 가능성이 높다고 주장했다. 이 논문은 지금까지 7,000회 이상 인용되며 과학계에 큰 충격을 줬다.
연구비와 시간 낭비
잘못된 연구 결과를 기반으로 후속 연구를 진행하면 막대한 자원이 낭비된다.
한 연구팀이 5년간 수억 원을 들여 특정 가설을 검증했는데, 알고 보니 그 가설의 근거가 된 원래 연구가 P Hacking으로 만들어진 거짓이었다면? 그 5년과 수억 원은 그냥 증발한 셈이다.
P Hacking을 막기 위한 노력들 💡
사전 등록 제도
연구를 시작하기 전에 가설, 방법론, 분석 계획을 공개 등록하는 것이다.
Open Science Framework(OSF)나 ClinicalTrials.gov 같은 플랫폼에서 연구 계획을 사전 등록하면, 나중에 데이터를 보고 가설을 바꾸는 것이 불가능해진다. 2013년부터 많은 학술지들이 사전 등록된 연구에 대해 특별한 배지를 부여하고 있다.
임상시험의 경우 2005년부터 국제의학학술지편집인위원회(ICMJE)가 사전 등록을 의무화했다. 덕분에 제약회사들이 부정적 결과를 숨기는 것이 훨씬 어려워졌다.
다중비교 보정
통계 분석 시 여러 검정을 수행할 때는 반드시 보정을 해야 한다.
본페로니 보정(Bonferroni correction)이 가장 간단한 방법이다. 10개 변수를 검정한다면 유의수준을 0.05가 아니라 0.005(0.05/10)로 설정하는 식이다. 좀 더 정교한 방법으로는 FDR(False Discovery Rate) 보정도 있다.
하버드대학교 통계학과에서 개발한 이런 기법들은 이제 대부분의 통계 소프트웨어에 기본 탑재되어 있다.
음성 결과 출판 장려
“효과가 없었다”는 결과도 중요한 과학적 정보다.
하지만 전통적으로 학술지들은 긍정적 결과만 선호했다. 이를 출판 편향(publication bias)이라고 한다. 최근에는 PLOS ONE 같은 저널들이 방법론이 탄탄하다면 결과와 무관하게 논문을 게재하는 정책을 펼치고 있다.
Journal of Negative Results in Biomedicine처럼 아예 음성 결과 전문 저널도 생겨났다.
P Hacking 자가진단 체크리스트
- ✓ 데이터 수집 중 중간 분석을 여러 번 했는가?
- ✓ 이상치를 제거할 때 명확한 기준 없이 판단했는가?
- ✓ 여러 변수 중 유의미한 것만 보고했는가?
- ✓ 결과를 본 후 가설이나 분석 방법을 수정했는가?
- ✓ 다른 분석 방법을 시도했지만 보고하지 않았는가?
하나라도 ‘예’라면 P Hacking 가능성을 점검해야 합니다
P값에 대한 오해와 올바른 이해
많은 사람들이 p<0.05가 “95% 확실하다”는 뜻으로 착각한다.
실제로는 그렇지 않다. p값은 “귀무가설이 참일 때, 현재 관찰된 결과 또는 더 극단적인 결과가 나올 확률”이다. 말이 복잡한데, 쉽게 말하면 “우연히 이런 결과가 나올 가능성”이다.
p=0.03이라는 건 “효과가 전혀 없는데도 우연히 이런 차이가 나타날 확률이 3%”라는 의미다. 가설이 참일 확률이 97%라는 뜻이 아니다.
2016년 미국통계학회(ASA)는 역사상 처음으로 p값의 올바른 사용에 대한 공식 성명을 발표했다.
▲ p값은 연구 가설이 참일 확률을 알려주지 않는다 ▲ p>0.05가 “효과 없음”을 증명하는 것도 아니다 ▲ p값만으로 결과의 중요도를 판단할 수 없다 ▲ 과학적 결론은 p값 하나에 의존해서는 안 된다
2019년에는 800명 이상의 과학자들이 Nature에 기고하며 “통계적 유의성”이라는 개념 자체를 폐기하자고 제안했다. 존스홉킨스대학교, 컬럼비아대학교 등 주요 대학의 통계학자들이 대거 참여한 이 운동은 학계에 상당한 파장을 일으켰다.
대안적 접근법들
p값 대신 신뢰구간(confidence interval)을 보고하는 것이 더 정보를 많이 담는다.
예를 들어 “신약이 혈압을 평균 5mmHg 낮췄다(p=0.03)”보다는 “신약이 혈압을 평균 5mmHg 낮췄다(95% 신뢰구간: 1-9mmHg)”라고 쓰는 게 낫다. 후자는 효과의 크기와 불확실성 범위를 동시에 보여준다.
베이지안 통계(Bayesian statistics)도 주목받고 있다. 전통적인 p값 대신 사전 정보를 활용해 가설의 확률을 직접 계산하는 방식이다. MIT와 스탠퍼드대학교 통계학과에서는 이미 베이지안 방법론을 표준 커리큘럼에 포함시켰다.
연구자와 대중이 해야 할 일 📊
연구자의 책임
투명성이 핵심이다. 모든 분석 과정, 시도했던 다른 방법들, 제외한 데이터와 그 이유를 솔직하게 보고해야 한다.
옥스퍼드대학교 심리학과의 노섹(Brian Nosek) 교수가 주도하는 Center for Open Science는 연구자들에게 원시 데이터와 분석 코드까지 공개하도록 권장한다. 처음엔 저항이 컸지만, 이제는 Nature, Science 같은 최고 권위 저널들도 데이터 공유를 요구하는 추세다.
사전 등록도 이제는 선택이 아니라 필수가 되어가고 있다. 2022년 기준 OSF에 등록된 연구가 10만 건을 넘어섰다.
언론과 대중의 역할
“획기적 연구 결과”라는 뉴스를 볼 때 비판적으로 생각해야 한다.
샘플 크기는 얼마나 되나? 재현 연구가 있나? p값 하나에만 의존하지 않았나? 이런 질문들을 던져야 한다. 특히 건강이나 의학 관련 뉴스는 더욱 신중하게 받아들여야 한다.
“초콜릿이 뇌 건강에 좋다”는 연구가 나왔다고 바로 초콜릿을 사재기하기보단, 그 연구가 어떻게 설계됐는지, 다른 연구들은 뭐라고 하는지 확인하는 습관이 필요하다.
📌 신뢰할 수 있는 연구의 특징
• 충분한 샘플 크기 – 최소 수백 명 이상
• 사전 등록된 연구 계획
• 독립적인 연구팀에 의한 재현 성공
• 체계적 문헌고찰(systematic review) 또는 메타분석 포함
• 이해상충(conflicts of interest) 명확히 공개
• 원시 데이터와 분석 코드 공개
교육의 중요성
통계 교육을 근본적으로 바꿔야 한다는 목소리가 크다.
단순히 공식을 외우고 p값 계산하는 법만 가르칠 게 아니라, 통계적 사고 자체를 길러줘야 한다. 불확실성을 다루는 법, 확증편향을 피하는 법, 데이터를 윤리적으로 다루는 법 같은 것들 말이다.
케임브리지대학교와 하버드대학교에서는 이미 “연구 무결성(research integrity)”을 별도 과목으로 개설했다. P Hacking의 위험성과 올바른 연구 수행 방법을 체계적으로 가르친다.
P Hacking은 단순히 몇몇 비양심적인 연구자의 문제가 아니다. 출판 압박, 경쟁적 연구 환경, 통계에 대한 오해가 복합적으로 만들어낸 구조적 문제다.
과학의 신뢰성을 회복하려면 연구자, 학술지, 연구비 지원기관, 언론, 그리고 대중 모두가 함께 노력해야 한다. 통계적 유의성이라는 마법의 숫자에 매달리기보단, 재현 가능하고 투명하며 정직한 과학을 추구하는 문화를 만들어가야 할 때다.