공공데이터 오기입 문제와 검색 품질에 대한 고민과 해결
관리자·
안녕하세요.
사이트 오픈 후 공공데이터의 수업시간 오기입 이슈로
검색결과 품질이 좋지 않음에 대해 많은 고민이 있었고
지금도 고민입니다.
단발성 과목 및 진로 과목에 대한 평균 단가 제외.
원격 학원 등의 낮은 가격을 어떻게 처리할지에 대한 고민.
여러 고민들 중에 가장 큰 고민은 역시나
공공데이터포털 데이터에 오기입된 데이터 이슈입니다.
오기입된 정보는
수업시간 오기입이 가장 많습니다.(90%)
나머지는 수업 수강료(10%) 오기입입니다.
특히나 수업시간은 실제 수업시간 입력이 아니라
예를 들어 하루에 3시간씩 20일이면
3600분이 입력되어야 하는데
하루 전체시간 * 일수 28,800분이 입력되는 식입니다.
오기입된 수업시간으로 인한
여러가지 신뢰도 이슈를 해결하기 위해
여러 로직을 적용했지만 Raw Data가 잘못되었기에
원했던 100%에 완벽하진 않지만
80%에는 근접한 것 같습니다.
이제 이 글 작성 전의 검색 결과보다
검색 품질이 나아졌을겁니다.
앞으로도 계속해서 검색 품질을 높여보도록 하겠습니다