작동 방식
1. OCR 텍스트 추출
Tesseract OCR은 48개 언어를 지원하며 각 단어에 대한 신뢰도 점수를 제공하여 이미지에서 읽을 수 있는 모든 텍스트를 추출합니다.
2. PII 감지
추출된 텍스트는 Microsoft Presidio의 NLP 엔진에 의해 분석되어 이름, 이메일, 전화번호, 신용카드 등 25개 엔티티 유형을 감지합니다.
3. 스마트 수정
감지된 PII는 픽셀 좌표로 다시 매핑되어 단색 사각형으로 덮입니다. 필요에 맞게 6가지 채우기 색상 중에서 선택할 수 있습니다.
지원되는 이미지 형식
JPEG / JPG
가장 일반적인 사진 형식
PNG
무손실, 투명도 지원
TIFF
고품질 스캔 문서
BMP
비압축 비트맵 이미지
WebP
최신 웹 형식
GIF
단일 프레임 지원
감지 가능한 엔티티 유형
모든 25개 표준 Presidio 엔티티 유형이 OCR 텍스트 추출을 통해 이미지에서 작동합니다.
인명
이메일 주소
전화번호
신용카드 번호
IBAN 코드
IP 주소
물리적 주소
날짜 및 시간
SSN, 여권, 운전면허증
조직 이름
알아두면 좋은 사항
텍스트 기반 PII만
OCR이 읽을 수 있는 텍스트를 감지합니다. 얼굴, 번호판, QR 코드 또는 손글씨는 감지하지 않습니다.
이미지 품질 중요
해상도가 높고 텍스트가 명확할수록 더 나은 결과를 얻을 수 있습니다. 저대비 또는 작은 텍스트는 놓칠 수 있습니다.
처리 시간
일반적인 이미지는 크기와 복잡성에 따라 3-20초 내에 처리됩니다.