ทำไมต้อง Regex ไม่ใช่ AI?
เพื่อความสอดคล้องตามกฎระเบียบ คุณต้องการผลลัพธ์ที่สามารถอธิบายและทำซ้ำได้ แนวทางที่กำหนดได้ของเรามอบสิ่งนั้น—ไม่มีกล่องดำ ไม่มีความประหลาดใจ
การเปรียบเทียบโดยละเอียด
| Aspect | ใช้ Regex (เรา) | ใช้ AI/ML |
|---|---|---|
| การทำซ้ำได้ | ผลลัพธ์ที่เหมือนกัน 100% | ผลลัพธ์อาจแตกต่างกัน |
| การตรวจสอบได้ | อธิบายได้อย่างเต็มที่ | กล่องดำ |
| ข้อมูลการฝึกอบรม | ไม่จำเป็น | ต้องการชุดข้อมูลขนาดใหญ่ |
| การเบี่ยงเบนของโมเดล | ไม่มี—รูปแบบคงที่ | เสื่อมสภาพตามเวลา |
| ประสิทธิภาพ | รวดเร็ว คาดการณ์ได้ | แปรผัน ขึ้นอยู่กับ GPU |
| ค่าใช้จ่ายในการคำนวณ | ต่ำ (เฉพาะ CPU) | สูง (มักต้องการ GPU) |
| ความสอดคล้องตามกฎระเบียบ | แสดงได้ง่าย | ยากที่จะพิสูจน์ |
การทำงานของการจับคู่รูปแบบ
แต่ละประเภทเอนทิตีมีรูปแบบ regex ที่ถูกสร้างขึ้นอย่างรอบคอบซึ่งตรงกับรูปแบบเฉพาะ
ที่อยู่อีเมล
[a-zA-Z0-9._%+-]+@[a-zA-Z0-9.-]+\.[a-zA-Z]{2,}ตรงกับรูปแบบอีเมลมาตรฐาน: local-part@domain.tld
หมายเลขบัตรเครดิต
\b(?:4[0-9]{12}(?:[0-9]{3})?|5[1-5][0-9]{14}|...)\bตรงกับ Visa, Mastercard, Amex และรูปแบบบัตรอื่น ๆ ที่มีการตรวจสอบ Luhn
IBAN เยอรมัน
DE[0-9]{2}\s?[0-9]{4}\s?[0-9]{4}\s?[0-9]{4}\s?[0-9]{4}\s?[0-9]{2}ตรงกับรูปแบบ IBAN เยอรมันที่มีช่องว่างตามต้องการ
สร้างขึ้นเพื่อความสอดคล้อง
เมื่อผู้ตรวจสอบถามว่า "ทำไมถึงตรวจจับสิ่งนี้?" คุณต้องการคำตอบที่ชัดเจน แนวทางที่ใช้ regex ของเรามอบสิ่งนั้น
- GDPR มาตรา 25: ความเป็นส่วนตัวโดยการออกแบบด้วยการประมวลผลที่อธิบายได้
- ISO 27001: กระบวนการที่มีเอกสารและทำซ้ำได้
- Audit Trail: การตรวจจับแต่ละครั้งสามารถติดตามไปยังรูปแบบเฉพาะ
ตัวอย่างการตอบกลับการตรวจสอบ
Q: ทำไม "john.smith@company.com" ถึงถูกทำเครื่องหมาย?
A: ตรงกับรูปแบบอีเมลที่ตำแหน่ง 45-68 ด้วยความมั่นใจ 0.95 รูปแบบ: การตรวจสอบรูปแบบอีเมลมาตรฐาน
สัมผัสการตรวจจับที่กำหนดได้
ทดลองการตรวจจับ PII โดยใช้ regex ฟรีด้วย 200 โทเค็นต่อรอบ