工作原理
1. OCR文本提取
Tesseract OCR从您的图像中提取所有可读文本,支持48种语言,并对每个单词进行置信度评分。
2. PII检测
提取的文本由Microsoft Presidio的NLP引擎分析,以检测25种实体类型——姓名、电子邮件、电话号码、信用卡等。
3. 智能删除
检测到的PII被映射回像素坐标,并用实色矩形覆盖。选择6种填充颜色以满足您的需求。
支持的图像格式
JPEG / JPG
最常见的照片格式
PNG
无损,支持透明度
TIFF
高质量扫描文档
BMP
未压缩的位图图像
WebP
现代网页格式
GIF
单帧支持
可检测的实体类型
所有25种标准Presidio实体类型通过OCR文本提取在图像上工作
人名
电子邮件地址
电话号码
信用卡号码
IBAN代码
IP地址
物理地址
日期和时间
社会安全号码、护照、驾驶执照
组织名称
注意事项
仅限基于文本的PII
检测OCR可以读取的文本。无法检测面孔、车牌、二维码或手写。
图像质量很重要
更高的分辨率和更清晰的文本会产生更好的结果。低对比度或小字体可能会被遗漏。
处理时间
典型图像处理时间为3-20秒,具体取决于大小和复杂性。