과학자들이 통계에 대해 속지 않는 방법

Dorothy Bishop의 흥미로운 기사가 자연 584 : 9 (2020); 도이 : 10.1038 / d41586-020-02275-8

시뮬레이션 된 데이터를 수집하면 우리의인지 적 편견이 우리를 타락하게 만드는 일반적인 방법을 알 수 있습니다.


강력하고 신뢰할 수있는 연구를 촉진하기 위해 지난 XNUMX 년 동안 수많은 노력을 기울였습니다. 일부는 획기적인 돌파구보다 개방형 과학을 선호하기 위해 자금 및 출판 기준 변경과 같은 인센티브 변경에 중점을 둡니다. 그러나 개인에게도주의를 기울여야합니다. 지나치게 인간의인지 적 편견은 거기에없는 결과를 보게 할 수 있습니다. 잘못된 추론은 의도가 좋은 경우에도 엉성한 과학으로 이어집니다.

저자에 대한 몇 마디 :  

도로시 비숍 교수


실험 심리학과 발달 신경 심리학 교수; 세인트 존스 칼리지 연구원


비숍 교수는 어린이의 언어 장애를 연구합니다. 어떤 경우에는 언어 장애가 청력 상실이나 다운 증후군과 같은 상태와 같은 명백한 원인을 가지고 있습니다. 다른 경우에, 아이들은 명백한 이유없이 말을 배우거나 언어를 이해하는 데 특별한 어려움을 겪습니다. Bishop 교수는 인구의 약 3 %를 차지하지만 연구자들에 의해 무시되는 경향이있는 "특정 언어 장애"(SLI)를 가진 어린이를 연구했습니다. 쌍둥이 연구를 사용하여 이러한 장애의 유전 적 구성 요소를 연구하고 분자 유전 학자와 협력하여 어떤 유전자가 관련되어 있는지 알아 냈습니다. 소스 이미지 : Wikipedia


과학자들이 통계에 대해 속지 않는 방법

강력하고 신뢰할 수있는 연구를 촉진하기 위해 지난 XNUMX 년 동안 수많은 노력을 기울였습니다. 일부는 획기적인 돌파구보다 개방형 과학을 선호하기 위해 자금 및 출판 기준 변경과 같은 인센티브 변경에 중점을 둡니다. 그러나 개인에게도주의를 기울여야합니다. 지나치게 인간의인지 적 편견은 거기에없는 결과를 보게 할 수 있습니다. 잘못된 추론은 의도가 좋은 경우에도 엉성한 과학으로 이어집니다.

연구원들은 이러한 함정에 대해 더 잘 알고 있어야합니다. 실험실 과학자가 안전 교육없이 유해 물질을 다룰 수없는 것처럼 연구원은 그것이 의미하는 바를 이해한다는 것을 입증 할 때까지 P- 값 또는 유사한 통계적 확률 측정 값에 접근 할 수 없습니다.

우리 모두는 우리의 견해와 모순되는 증거를 간과하는 경향이 있습니다. 새로운 데이터에 직면했을 때 우리의 기존 아이디어는 존재하지 않는 구조를 보게 할 수 있습니다. 이것은 정보를 검색하고 우리가 이미 생각하고있는 것과 관련된 정보를 기억하는 확인 편향의 한 형태입니다. 적응할 수 있습니다. 사람들은 중요한 정보를 걸러 내고 위험에서 벗어나기 위해 신속하게 행동 할 수 있어야합니다. 그러나 이러한 필터링은 과학적 오류로 이어질 수 있습니다.


1913 년 물리학 자 로버트 밀리칸 (Robert Millikan)이 전자의 전하를 측정 한 것이 그 예입니다. 그는 그의 작업에 그의 유명한 기름 방울 실험의 모든 데이터 포인트가 포함되어 있다고 주장했지만, 그의 노트북은 최종 값을 약간만 변경했지만 더 큰 통계 오류를 제공했을 다른보고되지 않은 데이터 포인트를 공개했습니다. Millikan이 독자들을 오도하려는 의도인지에 대한 논쟁이있었습니다. 그러나 정직한 사람들이 불편한 사실에 대한 기억을 억 누르는 것은 드문 일이 아닙니다 (RC Jennings Sci. Eng. Ethik 10, 639-653; 2004).

또 다른 유형의 제한은 확률과 통계의 오해를 조장합니다. 우리는 사람들이 작은 샘플과 관련된 불확실성을 파악하는 데 어려움을 겪는다는 사실을 오랫동안 알고있었습니다 (A. Tversky 및 D. Kahneman Psychol. Bull. 76, 105-110; 1971). 현재의 예로서 인구의 5 %가 바이러스에 감염되었다고 가정 해 보겠습니다. 각각 100 명을 검사하는 25 개의 병원, 100 명을 검사하는 50 개의 병원, 100 명을 검사하는 100 개의 병원이 있습니다. 병원의 몇 퍼센트가 어떤 사례도 발견하지 못하고 바이러스가 사라 졌다고 잘못 판단합니까? 답은 28 명을 검사하는 병원의 25 %, 8 명을 검사하는 병원의 50 %, 1 명을 검사하는 병원의 100 %입니다. 병원에서 발견 된 평균 사례 수는 검사 한 사례 수에 관계없이 동일하지만 샘플이 적을수록 범위가 훨씬 큽니다.

이 비선형 스케일링은 직관적으로 파악하기 어렵습니다. 이는 작은 샘플이 얼마나 시끄러울 수 있는지 과소 평가하여 효과를 감지 할 수있는 통계적 능력이 부족한 연구를 수행하게합니다.

연구자들은 또한 P- 값으로 표현되는 결과의 중요성이 맥락에 크게 좌우된다는 사실을 인식하지 못했습니다. 더 많은 변수를 조사할수록 잘못 "유의 한"값을 찾을 가능성이 높아집니다. 예를 들어, 장애와의 연관성에 대해 14 개의 대사 산물을 테스트하는 경우 일반적으로 사용되는 통계적 유의성 임계 값 인 0,05 미만의 P- 값을 하나 이상 찾을 확률은 1 분의 20이 아니라 1에 더 가깝습니다. 2.

이것에 대한 이해를 어떻게 전달할 수 있습니까? 한 가지는 분명합니다. 통계에 대한 기존의 교육은 사용자에게 부적절한 신뢰를 줄 수 있기 때문에 부적절하거나 심지어 비생산적입니다. 저는 학생들이 다양한 통계 분석을받을 수있는 시뮬레이션 데이터를 생성하는 대안적인 접근 방식을 실험하고 있습니다. 저는 이것을 두 가지 핵심 개념을 전달하는 데 사용합니다.

첫째, 학생들에게 null 레코드 (예 : 난수)가 표시되면 통계적으로 "중요한"것으로 보이는 잘못된 결과를 찾는 것이 얼마나 쉬운 지 빠르게 발견합니다. 연구자들은 "A가 B와 연관되어 있습니까?"라는 질문에 P- 값을 해석하는 것을 배워야합니다. "P <0,05 인 변수 A, B, C, D 및 E에 대한 상관 관계가 있습니까? 특정 대사 산물이 질병과 관련이 있는지 여부에 대한 질문은 범위를 찾는 것과 동일하지 않습니다. 대사 산물과 관련이 있는지 확인하기 위해 후자는 훨씬 더 엄격한 테스트가 필요합니다.

재현 불가능한 네 명의 기수를 억제

시뮬레이션 된 데이터는 샘플이 서로 다른 방법으로 두 "집단"에서 나온 경우에도 정보를 제공합니다. 학생들은 표본 크기가 작 으면 실험이 중간 정도의 차이도 드러내지 못할 수 있다는 것을 금방 알게됩니다. 30 분 데이터 시뮬레이션은 연구자들이 그 의미를 이해한다면 놀라게 할 수 있습니다.


연구자들은 긍정적 인 편견에 속지 않도록 평생 습관을 습득해야합니다. 우리의 기대와 모순되는 관찰은 특별한주의가 필요합니다. Charles Darwin은 1876 년에 "내가 내 일반적인 발견과 상반되는 사실, 관찰 또는 생각이 발표 될 때마다 즉시 그에 대한 메모를 작성하여 작성하는 습관을 들였다. 사실과 생각은 호의적 인 것보다 기억에서 벗어날 가능성이 훨씬 더 높았다. 나는 그것을 보았다. 문학 평론을 쓸 때, 나는 논문에 특별한 결함이 없었음에도 불구하고 내 본능에 반하는 논문을 언급하는 것을 완전히 잊었다는 사실에 겁이났다. 이제 목록을 작성하려고합니다.

우리 모두는 자신의 작업에서 결함을 보는 데 어려움을 겪습니다. 이것은 인간인지의 정상적인 부분입니다. 하지만 이러한 사각 지대를 이해하면이를 피할 수 있습니다.

인쇄