Ingest Pipeline

탐사차에서 발생하는 자료를 1차 이주권 개인 데이터센터로 입고

홈페이지 운영 중에는 파일이 계속 생깁니다. 방문자가 올린 첨부, 운영자가 자체 생산한 사진·영상, 외부에서 가져온 방대한 자료, 성인 전용 자료, 사이트 캡쳐 이미지, 기사 원고, 서버 로그, 백업 압축파일, 스마트폰에서 들어온 자료를 모두 입고 큐에 넣습니다.

입구가 여러 개여도 내부에서는 하나의 파일 입고 규칙을 써야 합니다. 파일 ID, 원본명, 저장 경로, 해시, 출처, 상태가 기본 골격입니다.
웹 업로드

웹 업로드

홈페이지 첨부와 관리자가 올린 파일을 검증 후 큐에 등록합니다.

자료 출처

자료 출처

자체 생산, 외부 수집, 개인 보관, 성인 전용 자료를 입고 단계에서 구분합니다.

폴더 감시

폴더 감시

탐사차 서버의 inbox 폴더에 들어온 파일을 자동 입고합니다.

캡쳐·로그

캡쳐·로그

사이트 캡쳐, HTML 스냅샷, 접속 로그, 오류 로그도 자료로 취급합니다.

중복 방지

중복 방지

SHA-256 해시, 파일 크기, 원본 URL로 중복 저장을 줄입니다.