arrow_back목록으로

공공데이터 오기입 문제와 검색 품질에 대한 고민과 해결

관리자·

안녕하세요.

 

사이트 오픈 후 공공데이터의 수업시간 오기입 이슈로 

검색결과 품질이 좋지 않음에 대해 많은 고민이 있었고

지금도 고민입니다.


단발성 과목 및 진로 과목에 대한 평균 단가 제외.

원격 학원 등의 낮은 가격을 어떻게 처리할지에 대한 고민.

여러 고민들 중에 가장 큰 고민은 역시나

공공데이터포털 데이터에 오기입된 데이터 이슈입니다.

오기입된 정보는 

수업시간 오기입이 가장 많습니다.(90%)
나머지는 수업 수강료(10%) 오기입입니다.

 

특히나 수업시간은 실제 수업시간 입력이 아니라 
예를 들어 하루에 3시간씩 20일이면 

3600분이 입력되어야 하는데 

하루 전체시간 * 일수 28,800분이 입력되는 식입니다. 


오기입된 수업시간으로 인한 

여러가지 신뢰도 이슈를 해결하기 위해

여러 로직을 적용했지만 Raw Data가 잘못되었기에 
원했던 100%에 완벽하진 않지만 

80%에는 근접한 것 같습니다.

이제 이 글 작성 전의 검색 결과보다 

검색 품질이 나아졌을겁니다. 


앞으로도 계속해서 검색 품질을 높여보도록 하겠습니다

arrow_downward