일상

데이터 분석가와 협업할 때 엔지니어의 역할

데이터 분석가들이 데이터를 통해 프로세스 혁신 및 마케팅 전략을 결정하는 등의 과학적 의사결정을 지원 가능하도록 하는 근간에는 중단 없이 데이터가 수집되어 처리 시스템이 처리할 수 있도록 저장소에 모아 넣는 작업이 뒷받침되어야 한다.

데이터 수집 및 적재, 전처리(이하, 데이터 전처리)는 데이터 분석이라는 큰 목적 안에서 가볍게 여기기 쉽지만 데이터 분석 시 원하는 데이터를 정확하게 그리고 효율적으로 서비스할 수 있으려면 대부분의 데이터 전처리 과정에 많은 주위와 노력을 들여야 한다.

하지만 데이터 전처리 과정에서 데이터 엔지니어에게만 모든 역할을 맡긴다면 결과가 좋게 나올 수 없기에 분석가와의 의사소통이 매우 중요하다.

때문에, 분석에 적절한 데이터를 만들기 위해서 데이터 엔지니어는 전체적인 과정에 대해 면밀히 설계 및 구현하고 잘 정리된 문서나 기타 작업 진행에 대한 내용을 알려 줄 수 있는 도구들을 활용하여 분석가에게 이에 대한 정보를 전달하고 분석가가 좋은 결과를 도출할 수 있도록 지원해야 한다.

일반적으로 아래 세 가지를 알려 주어야 한다.
데이터가 어디에 저장되어 있는지 : 분산 파일 시스템이든, 네트워크 드라이브든, 데이터베이스든 어떤 곳에 저장되어 있는지 알려주어야 한다.
데이터가 어떻게 저장되어 있는지 : 파일이면 헤더는 어디에 저장되어 있고 각각이 무슨 의미를 갖는지, 데이터베이스면 어떤 테이블에 있으며 스키마 정보는 어떻게 되는지 등을 알려 줘야 한다.
데이터를 가져갈 수 있는 방법은 무엇인지 : 데이터베이스면 연결정보, 파일이면 위치 정보, 분산 파일 시스템이면 사용 방법에 대해 설정된 사항들을 알려주어야 한다.

출처: www.puzzledata.com/blog190702/

'일상' 카테고리의 다른 글

[독서] 시작의 기술  (0) 2023.01.01
데이터 엔지니어가 하는 일  (0) 2020.09.07
재밌게 보고 있는 기술 블로그들  (2) 2020.07.29
ML 프로젝트와 데이터 엔지니어링  (0) 2020.07.28
Eventually Consistency를 읽고  (1) 2020.07.27