仕組み
1. OCRテキスト抽出
Tesseract OCRは、48の言語をサポートし、単語ごとの信頼スコアを持つ、画像からすべての読み取り可能なテキストを抽出します。
2. PII検出
抽出されたテキストは、Microsoft PresidioのNLPエンジンによって分析され、25種類のエンティティタイプ(名前、メール、電話番号、クレジットカードなど)を検出します。
3. スマート赤action
検出されたPIIは、ピクセル座標にマッピングされ、単色の長方形で覆われます。ニーズに合わせて6つの塗りつぶし色から選択できます。
サポートされている画像形式
JPEG / JPG
最も一般的な写真形式
PNG
ロスレス、透明性をサポート
TIFF
高品質のスキャン文書
BMP
非圧縮ビットマップ画像
WebP
モダンなウェブ形式
GIF
単一フレームのサポート
検出可能なエンティティタイプ
すべての25の標準Presidioエンティティタイプは、OCRテキスト抽出を介して画像で機能します
人名
メールアドレス
電話番号
クレジットカード番号
IBANコード
IPアドレス
物理アドレス
日付と時刻
SSN、パスポート、運転免許証
組織名
知っておくべきこと
テキストベースのPIIのみ
OCRが読み取れるテキストを検出します。顔、ナンバープレート、QRコード、手書きは検出しません。
画像の品質が重要
高解像度で明瞭なテキストは、より良い結果をもたらします。コントラストが低いまたは小さなテキストは見逃される可能性があります。
処理時間
典型的な画像は、サイズと複雑さに応じて3-20秒で処理されます。