Search & Index

대용량 저장소 안의 자료를 다시 찾는 기술

자료가 1차 이주권 개인 데이터센터에 많이 쌓이면 폴더 구조만으로는 찾을 수 없습니다. 홈페이지 글, 캡쳐, 영상, 문서, 로그, 사진, 외부 자료, 성인 전용 민감 자료를 파일명, 본문 텍스트, OCR 결과, 태그, 날짜, 위치, 탐사차 서버, 프로젝트, 공개 등급 단위로 색인해야 합니다.

검색은 편의 기능이 아니라 1차 이주권 개인 데이터센터가 실제로 쓸 수 있는 장비가 되는 조건입니다.
텍스트 색인

텍스트 색인

파일명, 제목, 설명, OCR 본문, 문서 본문, 게시글 본문을 검색 대상으로 둡니다.

필터

필터

날짜, 카테고리, 공개 상태, 성인 전용 여부, 민감 등급, 소유자, 출처, 처리 상태로 좁힙니다.

유사 자료

유사 자료

해시, 파일 크기, 이미지 지문, URL 정규화로 중복과 유사 파일을 찾습니다.

지식화

지식화

파일을 홈페이지, 게시판, 개인 기록, 탐사차 운용 기록과 연결해 맥락을 만듭니다.