한국갤럽이 지난달 28일 발표한 여론조사 결과에 따르면 최근 국회를 통과한 노동조합법 2·3조 개정안, 이른바 ‘노란봉투법’에 대해 국민 42%가 찬성, 38%가 반대한다고 답해 찬반 의견이 팽팽하게 갈린 것으로 나타났다. 사진=아름다운재단 홈페이지
설문조사에서 가장 어려운 과제 중 하나는 성실한 응답과 불성실한 응답을 구분하는 것입니다. 아무리 좋은 질문을 만들어도 응답자가 진지하게 답하지 않는다면 의미 있는 결과를 얻기 어렵습니다. 그렇다고 지나치게 엄격한 기준을 적용하면 유의미한 데이터까지 잃을 수 있습니다. 이 가이드에서는 체계적이고 객관적인 방법으로 불성실 응답을 식별하고 필터링하는 실무적 방법들을 제시합니다.
응답 시간을 통한 1차 필터링
응답 시간은 불성실 응답을 감지하는 가장 기본적이면서도 효과적인 지표입니다. 25문항으로 구성된 웹조사에서 응답자들의 평균 소요시간이 10분이라고 가정해보겠습니다. 지나치게 짧은 응답 시간의 경우 문항당 최소 요구시간을 계산해야 합니다. 25문항에 각각 최소 2초씩 필요하다면 총 50초가 최소 요구시간이 됩니다. 만약 응답자가 45초만에 설문을 완료했다면 이는 불성실 응답으로 분류해야 합니다.
또 다른 기준은 전체 평균의 3분의 1 미만입니다. 평균 10분이라면 3분 20초 미만으로 응답한 경우를 의심해볼 수 있습니다. 반대로 비정상적으로 긴 응답 시간도 문제가 될 수 있습니다. 전체 평균의 3배를 초과하는 30분 이상 소요되거나, 특정 문항에 지나치게 오래 머무르는 경우입니다. 문항당 평균이 24초인 상황에서 특정 문항에 5분 이상 체류했다면 이는 설문에 집중하지 않고 있을 가능성을 시사합니다.
조사 방식에 따라서도 기준이 달라집니다. 전화 면접조사의 경우 질문을 듣고 이해하는 시간이 필요하므로 평균 소요시간이 15분 정도로 늘어납니다. 8분 미만은 질문을 끝까지 듣지 않고 성급하게 답변했을 가능성이 높고, 25분을 초과하면 과도한 부연 설명이나 불필요한 대화로 인한 것일 수 있습니다. 전화 자동응답 조사는 상대적으로 빠른 8분 정도가 평균이며, 4분 미만은 음성 안내 완료 전에 무작위로 번호를 입력했을 가능성을 의심해볼 수 있습니다.
응답 패턴 분석을 통한 기계적 응답 감지
응답자가 실제 문항 내용을 읽지 않고 기계적으로 답변하는 경우를 감지하는 것도 중요합니다. 가장 명확한 신호는 연속적으로 동일한 응답을 선택하는 패턴입니다. 10문항 이상 연속으로 같은 번호를 선택하거나, 전체 문항의 80% 이상이 동일한 응답인 경우는 의심스럽습니다.
특정 패턴의 반복도 기계적 응답의 징후입니다. 1-2-3-4-5 또는 5-4-3-2-1과 같이 순서대로 선택하거나, 1-5-1-5-1-5와 같은 지그재그 패턴을 보이는 경우입니다. 이런 패턴들은 응답자가 문항 내용과 관계없이 규칙적으로 답변하고 있음을 나타냅니다.
극단값에 과도하게 집중하는 패턴도 주의해야 합니다. 7점 척도에서 1점이나 7점에만 집중하거나, 반대로 중간값인 4점만 일관되게 선택하는 경우입니다. 또한 응답의 표준편차가 지나치게 작거나 특정 숫자만 반복적으로 선택하는 무작위성 부족도 불성실 응답의 신호가 될 수 있습니다.
논리적 일관성 검증
설문조사에서는 같은 개념을 다른 방식으로 묻는 역문항들을 포함하는 경우가 많습니다. "나는 운동을 좋아한다"라는 정문항에 5점을 주었다면, "나는 운동하기 싫다"라는 역문항에는 1점을 주어야 논리적으로 일관됩니다. 만약 두 문항 모두에 5점을 준다면 이는 문항을 제대로 읽지 않았거나 이해하지 못했음을 의미합니다.
상식적인 모순도 중요한 검증 지표입니다. "담배를 피우지 않는다"고 답한 응답자가 "하루 흡연량" 질문에 구체적인 수치를 기입한다면 이는 명백한 모순입니다. 마찬가지로 연령과 경력의 불일치, 소득과 지출 관계의 비현실성 등도 체크해야 할 항목들입니다.
교차검증을 위해 설문 초반부와 후반부에 유사한 문항을 배치하는 경우도 있습니다. 같은 개념을 묻는 문항들 사이의 일관성 점수를 계산하여 차이가 2점 이상 나는 경우를 의심해볼 수 있습니다. 또한 현실적 제약조건을 위배하는 응답들, 예를 들어 25세인데 군복무를 1980년에 했다고 답하거나, 남성인데 임신 경험이 있다고 답하는 경우들도 걸러내야 합니다.
문항 난이도별 검증 시스템
설문조사에는 다양한 난이도의 문항들이 포함됩니다. 가장 기본적인 인구통계학적 정보에서 오류를 보이는 경우는 특히 주의해야 합니다. 출생연도와 나이가 일치하지 않거나, 성별과 관련된 문항에서 모순을 보이는 경우, 직업과 소득수준이 극단적으로 불일치하는 경우 등입니다.
주의 집중도를 측정하는 문항들도 유용합니다. "이 문항은 3번을 선택하세요"와 같은 직접적인 지시문항이나, "2+2=?"와 같은 간단한 계산 문항을 통해 응답자가 실제로 설문에 집중하고 있는지 확인할 수 있습니다. "하늘은 파란색이다"나 "일주일은 7일이다"와 같은 상식적 문항도 효과적입니다.
간접적인 주의 검사로는 "나는 이 설문에 거짓으로 답하고 있다"나 "나는 지금 잠을 자고 있다"와 같은 자기모순 문항들을 활용할 수 있습니다. 이런 문항들에 동의한다고 답하는 경우는 명백히 불성실한 응답으로 볼 수 있습니다.
종합적 평가와 필터링 기준
개별 지표들을 종합하여 최종적인 필터링 결정을 내려야 합니다. 주요 기준으로는 위에서 언급한 기준들 중 2개 이상에 해당하는 경우, 핵심 문항에 무응답이 있는 경우, 응답 신뢰도에 대한 자가평가가 낮은 경우, 응답 시간 기준을 미달하는 경우, 논리적 모순이 2회 이상 발견되는 경우 등이 있습니다.
응답 신뢰도 자가평가는 설문 마지막에 "본 설문에 성실히 응답했습니까?"나 "응답 내용이 본인의 의견을 잘 반영합니까?"와 같은 질문을 통해 측정할 수 있습니다. 5점 척도에서 3점 미만으로 답한 경우는 다른 지표들과 함께 검토해볼 필요가 있습니다.
연구의 핵심이 되는 종속변수나 주요 독립변수 측정 문항들에 무응답이 있는 경우도 신중하게 고려해야 합니다. 단일 핵심문항 누락은 경고 수준이지만, 2개 이상 누락되거나 특정 영역 전체가 누락된 경우는 제외를 검토해야 합니다.
필터링 적용 시 주의사항
불성실 응답 필터링을 적용할 때는 몇 가지 중요한 원칙을 지켜야 합니다.
첫째, 단일 기준만으로 판단하지 않아야 합니다. 여러 지표를 종합적으로 고려하여 신중하게 결정해야 합니다.
둘째, 전체 응답의 15% 이상을 제거하지 않는 것이 좋습니다. 과도한 필터링은 표본의 대표성을 해칠 수 있습니다.
셋째, 제거 사유를 명확히 기록하고 문서화해야 합니다. 연구의 투명성과 재현성을 위해 어떤 기준으로 어떤 응답들을 제외했는지 상세히 기록해야 합니다.
넷째, 필터링 기준의 타당성을 지속적으로 검토해야 합니다. 조사 주제와 대상에 따라 적절한 기준이 달라질 수 있습니다.
마지막으로 분석 전후의 결과를 비교하여 필터링이 연구 결과에 미치는 영향을 확인해야 합니다. 만약 필터링 후 결과가 크게 달라진다면, 필터링 기준이 적절했는지 재검토가 필요할 수 있습니다.
예외 상황에 대한 고려도 중요합니다. 고령 응답자의 경우 더 많은 시간이 필요할 수 있고, 설문 이해도나 문화적 배경에 따른 차이도 있을 수 있습니다. 또한 의도적인 오류와 단순한 실수를 구분하여 처리하는 것도 필요합니다.
이 가이드에서 제시한 필터링 방법들은 현재 많은 조사 기관에서 활용되고 있는 검증된 방법들입니다. 특히 온라인 조사가 보편화되면서 이런 체계적인 품질 관리의 필요성이 더욱 커지고 있습니다.
그러나 AI와 자동화 기술의 발전으로 새로운 형태의 불성실 응답도 등장하고 있습니다. 예를 들어 챗봇을 이용한 자동 응답이나, 더 정교하게 설계된 패턴 응답들이 나타날 수 있습니다. 따라서 기존의 규칙 기반 필터링뿐만 아니라 머신러닝을 활용한 이상 패턴 감지 기법들도 개발될 필요가 있습니다.
독립신문