전체 글

    데이터 엔지니어가 하는 일

    데이터 엔지니어, 대학원을 나오지 않아도 가능할까요? 멘토님, 안녕하세요. 저는 데이터 엔지니어 분야에 관심이 많습니다. 그래서 독학으로 데이터 분석을 공부하려 합니다. 데이터 엔지니어는 전문 분야이기에 석박사 수준이 되어야 취업이 되는 � www.itdaa.net

    데이터 분석가와 협업할 때 엔지니어의 역할

    데이터 분석가들이 데이터를 통해 프로세스 혁신 및 마케팅 전략을 결정하는 등의 과학적 의사결정을 지원 가능하도록 하는 근간에는 중단 없이 데이터가 수집되어 처리 시스템이 처리할 수 있도록 저장소에 모아 넣는 작업이 뒷받침되어야 한다. 데이터 수집 및 적재, 전처리(이하, 데이터 전처리)는 데이터 분석이라는 큰 목적 안에서 가볍게 여기기 쉽지만 데이터 분석 시 원하는 데이터를 정확하게 그리고 효율적으로 서비스할 수 있으려면 대부분의 데이터 전처리 과정에 많은 주위와 노력을 들여야 한다. 하지만 데이터 전처리 과정에서 데이터 엔지니어에게만 모든 역할을 맡긴다면 결과가 좋게 나올 수 없기에 분석가와의 의사소통이 매우 중요하다. 때문에, 분석에 적절한 데이터를 만들기 위해서 데이터 엔지니어는 전체적인 과정에 대..

    [웹 개발] 얼굴 인식 기반 실시간 출결 관리 프로젝트

    진행 기간 1차) 2020.04.23~2020.06.24 2차 개선) 2020.08.01~2020.08.20 전체 코드(v2) youjeongsue/Face-recognition-service-for-lecture Face recognition을 활용한 수업보조 프로젝트입니다(React, Django). - youjeongsue/Face-recognition-service-for-lecture github.com 프로젝트 기능 주요 기능은 다음과 같다. ip 카메라를 활용한 수업 화면 송출 실시간 얼굴 인식 및 시각화(수업 화면에 box 표시) 출석 체크 얼굴 box 클릭 시 해당 학생의 정보 제공 구조 스마트폰 카메라로 찍고 있는 화면을 웹에 송출함과 동시에 화면의 프레임을 모델 서버로 보내서 얼굴을 ..

    [웹 개발] AWS 클라우드 기반 저장소 서비스

    진행기간 2020.03.01~2020.06.18 전체 코드 youjeongsue/khuloud 클라우드 컴퓨팅 수업시간에 진행한 AWS 저장소 서비스 프로젝트 입니다. Contribute to youjeongsue/khuloud development by creating an account on GitHub. github.com 프로젝트 구조 기능 필수 기능 로그인/로그아웃 회원가입 S3 등 AWS를 활용한 파일 CRUD 개인 저장소 추가 기능 공유 저장소(맴버 추가, 삭제) 휴지통(soft/hard delete, 복원) 중요 문서함 최근 문서함 회원정보 수정 확장자 별 아이콘 데모 데모 영상 회고

    [데이터 중심 애플리케이션 설계] 6장 파티셔닝

    * 이 글은 [데이터 중심 애플리케이션 설계]를 공부하며 기록을 남긴 것입니다. 파티셔닝==샤딩 샤딩: 데이터셋이 매우 크거나 질의 처리량이 매우 높을 때, 데이터를 파티션으로 쪼개어 저장하는 방법 레코드, 로우, 문서 등을 단위로 삼아 여러 파티션에 나눠 저장한다. 목적: 데이터와 질의 부하를 노드 사이에 고르게 분산시키는 것. 파티셔닝을 하면 대용량 데이터셋이 여러 저장소에 분산되고, 질의 또한 여러 프로세스로 분산되어 병렬 처리까지 가능해진다. 즉, 확장에 용이해진다. 복제와 파티셔닝을 함께 적용 -> 각 파티션의 복사본을 여러 노드에 저장함으로써 내결함성 보장 파티셔닝을 하는 방법 파티셔닝은 데이터와 질의 부하를 고르게 분산시킨다는 목적이 있는데, 그렇지 못하고 특정 파티션에 작업이 몰리면 파티셔..

    [데이터 중심 애플리케이션 설계] 5장 복제

    *이 글은 [데이터 중심 애플리케이션 설계]를 공부하며 기록을 남긴 것입니다. 노드 간 변경을 복제하기 위한 세 가지 알고리즘 복제 : 네트워크로 연결된 여러 장비에 동일한 데이터의 복사본을 유지하는 것 복제 서버(replica) : 데이터베이스의 복사본을 저장하는 각 노드 단일 리더(single-leader) 다중 리더(multi-leader) 리더 없는(leaderless) 리더 기반 복제(master-slave 복제) 리더 기반 복제가 작동하는 방식 클라이언트가 쓰기를 할 때 리더에게 요청을 보냄 리더는 로컬 저장소에 새로운 데이터를 기록함 리더가 새롭게 데이터를 기록할 때마다, 데이터 변경을 복제 로그(replication log)나 변경 스트림(change stream)의 형태로 슬레이브에게 보..

    재밌게 보고 있는 기술 블로그들

    요즘 기술 블로그를 재미있게 본다. 다른 개발자분들의 경험과 생각을 보면서 정말 많이 배우고 있다. 특히 흠시님께서 작성하신 1번 링크의 글을 보고 아주 공감했었다. 데이터 엔지니어라는 목표에 더욱 불이 붙는 느낌이었다. 열심히 준비하는 중이다! 1. https://dailyheumsi.tistory.com/205 [취준생의 데이터 분야의 커리어 고민 3] 엔지니어가 되자 저번 글에 이어 이번에는 '엔지니어' 가 되기로 한 계기와, 준비하는 과정을 적어보려고 한다. 고민 시리즈 마지막 글이 될 듯. 추천 시스템의 기억 예전에 추천기술팀에서 인턴 할 때, 데이터 분 dailyheumsi.tistory.com 2. https://www.ridicorp.com/blog/2016/12/26/fantasy-ser..

    ML 프로젝트와 데이터 엔지니어링

    “실무에서 Deep Learning 프로젝트를 하다 보니, 느낀 점은… 우리가 Lab 에서 논문쓰고 있는게 아니기 때문에, Deep Learning 자체는 알려진 State of Art 접근 방식 및 해당 알고리즘의 가장 잘 알려진 github 구현체를 가져다 쓰면 되기 때문에, 큰 진입 장벽이 아니었다는 거구요. 오히려 진입 장벽은 A 부터 Z 까지..그리고 AI 의 Serving Layer 까지 그 전체를 아우르는 큰 시스템이 하나로 잘 엮이게 묶는 것이었습니다. 거의 Engineering Art 에 가깝구요… Model 하이퍼 파라미터 튜닝하는것보다, 그 모델을 다수의 동접의 사용자들에게 에러없이 동접을 버티며 Serving 하고, 그 반응이 다시 모델에 input 으로 들어가며, 운영 중 무중지로..