▲ 윤종호 소장
통계청 직원들 간에 흔히 회자되는 슬로건 중에 "통계를 알면 미래가 보인다."는 말이 있습니다. 통계란 과거와 현재의 모습을 정확히 파악하여 미래의 상황을 미리 그려보고 대비할 수 있게 해준다는 의미겠지요. 오늘날 개인의 일상생활에서부터 기업가의 경영전략, 국가의 각종 경제·사회·문화·복지 정책에 이르기까지 통계 없이는 아무 것도 할 수 없다고 해도 과언이 아닐 만큼 이제 통계는 선택이 아닌 필수품이라고 할 수 있겠습니다. 

이렇듯 다방면에 활용되는 통계의 중요성은 아무리 강조해도 지나치지 않지만, 통계가 가진 역기능 또한 간과해서는 안 될 것입니다. 만일 통계를 의도적으로 악용하려 한다면 그 피해는 가히 상상하기도 어려울 것이기 때문입니다. 그래서 이번 호에서는 통계가 가지는 양면성(ambivalence)에 대해 생각해 보겠습니다. 

통계의 양면성이란 통계의 순기능과 역기능을 지칭하는데, 통계를 어떻게 만들고 활용하느냐에 따라 약이 될 수도 있고 독이 될 수도 있는 양날의 칼이란 것입니다. 다시 말해서 통계의 정의와 의미를 제대로 이해하고 활용하면 문제해결에 도움이 되지만, 그렇지 않고 통계를 자의적으로 해석하고 적용하면 오히려 문제를 악화시킬 수도 있다는 점을 통계이용자는 유념할 필요가 있다고 하겠습니다. 

통계의 순기능과 역기능을 얘기하기 전에 먼저 통계가 만들어지는 과정을 간략히 살펴보고 넘어가는 게 이해에 도움이 될 것 같군요. 잘 아시다시피 통계는 복잡한 사회․경제 현상을 단순한 몇 개의 숫자로 표현합니다. 이러한 수치를 대표값이라고 하는데, 일반적으로 많이 사용되는 것으로 평균, 최대값, 최소값, 최빈값, 중위수 등이 있지요. 통계를 만들기 위해서는 가장 먼저 누구 또는 무엇을 대상으로 무엇을 알고자 하는가가 정해져야 합니다.
 
즉, 목표로 하는 대상 집단의 대표값이 무엇인지 궁금하다는 얘기지요. 예를 들어 A중학교 학생들의 키가 궁금하다면 해당 중학교 학생 전체가 모(母)집단이 되고 전수조사를 하거나 표본을 뽑아 조사에 들어가지요. 실측 또는 설문조사 결과를 모아 조사 상 오류가 없는지 검토한 다음 컴퓨터에 입력·집계하여 알고자 하는 대표값을 산출하게 됩니다. 한편, 전수조사는 비용, 시간, 효율성 측면에서 표본조사에 미치지 못하기 때문에 오늘날 대부분의 대규모 조사는 표본을 선정하여 전체 값 을 추정하고 있습니다. 

통계청에서 작성하는 43종 조사통계 중 30종이 표본조사입니다. 

이제 통계적 오류에 대해 알아봅시다. 전수조사를 한다고 해서 오류가 발생하지 않는 것은 아닙니다. 방대한 조사대상을 일일이 조사하다 보면 피조사자의 심신취약 등으로 조사 자체가 불가능한 경우도 있고, 조사에 흔쾌히 협조하지 않거나 민감한 항목에 대해서 약간 부풀리거나 축소해서 응답하는 사례 등 헤아릴 수 없이 많은 난관에 봉착하게 됩니다. 현장조사와 이를 집계하는 과정에서 생기는 이러한 오류를 비표본오차라고 부르지요. 

표본조사의 경우를 볼까요? 전체 대상 집단을 잘 쪼개고 거기서 표본을 고르게 선정(층화 임의추출)한다면 잘 된 표본이라고 할 수 있겠습니다. 위의 예에서 보면 각 학년별, 학급별, 남녀별로 층(stratification)을 만들어 각 층에서 일정한 수의 학생을 무작위로 선정하는 절차를 밟으면 되겠군요. 만일 저학년 층에서 여학생을 더 많이 표본으로 선정한다면 그 표본이 전체를 잘 대표한다고 할 수 없겠죠? 전수조사를 실시했을 때와 차이가 나는 이런 경우를 표본오차라고 부릅니다.

그리고 전수조사에서처럼 크지는 않지만 표본조사에서도 역시 비표본오차가 조사과정에서 불가피하게 발생합니다. 요컨대, 알고자 하는 대상 집단에서 표본을 여하히 추출하느냐가 정확한 통계의 관건이 된다는 것을 알 수 있지요.

여기서 제가 강조하고 싶은 이야기는 표본오차와 비표본오차는 통계 작성자의 의도하지 않은 통계적 오차이며 지극히 정상적인 오류라는 사실입니다. 물론 이러한 표본 및 비표본오차를 최소한으로 줄이면 좋겠지만 현실적으로는 제약된 예산으로 인한 적정규모의 표본 확보 실패, 조사인력 부족으로 인한 업무량 과다책정, 응답자의 사생활보호의식 팽배 등 수많은 변수들이 작용하여 정확한 통계에 부정적 영향을 미치고 있지요. 
 
오늘은 통계의 작성 과정과 통계 작성 과정에서 의도하지 않았으나 필연적으로 따르는 정상적인 통계적 오류에 대해 생각해 보았습니다. 의도적으로 통계를 왜곡하는 통계의 역기능에 관한 설명은 지면 관계상 다음 호에서 다루도록 하겠습니다. 
 
9월 1일은 통계의 날입니다. 통계의 중요성을 널리 홍보하고 통계에 대한 국민의 이해와 협조를 당부 드리기 위한 여러 가지 행사를 개최합니다만, 아울러 통계인으로서 통계적 오차를 최소화하여 정확하고 신뢰받을 수 있는 통계를 작성하기 위한 우리들의 각오를 다잡는 계기가 되기를 또한 바래봅니다.