2016年11月1日 星期二

DLP 14.5 新功能 Form Recognition (表單偵測)

一開始聽到此功能,我的腦海立即浮現此畫面

https://blogger.googleusercontent.com/img/b/R29vZ2xl/AVvXsEiAz2TN5oSi1LzGUzP77Ucg_q3CH8Xl8AgjYt6hC_UaQcxotC9JF7ChwoN40UsgH5YIzfLP66p8faPIpPSjEPvIb16fqzDSKGkh6dS16p-30ig9UXj7X7Fq2RQe9If4h4Qzsjwxk5ldb5M/s320/cfc2357e5064749458e6d103b8e0d30f.jpg

好吧,開始記錄一下此功能重點

可支援的偵測種類有: Form Recognition is available for

Network Monitor
Network Prevent for Email
Network Prevent for Web
Network Discover.
It is not available for Endpoint or any cloud detectors -------馬ㄉ  居然不支援端點

可支援”偵測”的表單檔案格式倒是不少  (不是學習喔!!)
Symantec Data Loss Prevention can detect forms in the following image file types:

  • PDF
  • JPEG (.jpg, .jpeg)
  • PNG
  • TIFF (single page or multi-page, .tif or .tiff)
  • Bitmap (.bmp, .dib)

啟動方式  (還滿搞笑的)     Enabling the Image Extractor plug-in (14.6 版之後預設為啟動)

  1. On each detection server running Form Recognition detection rules, navigate to System > Servers and Detectors > Overview > Server/Detector Detail - Advanced Settings.
  2. Remove "ImageExtractorPlugin" from the ContentExtraction.DisabledPlugins  field.
  3. Click Save.
  4. Restart the detection server to apply your changes.

 


限制事項

1. 將所需要偵測的檔案打包成ZIP檔後 上傳
2. 原廠建議 為了不影響效能,所有的表單加總不要超過500張
3. 建議少點Profile且每個Profile包含多些表單,也不要建立一堆Profile,然後每個Profile只有一點表單
4. PDF 解析度建議200 DPI 以上
5.表單內容盡量要有足夠的文字、表格或圖表,太單調的表單容易造成誤判
6. 每個表單內容不要太相似,不然也容易造成誤判
7. 每個表單內容應平均分佈,太集中或太鬆散都會造成偵測困難  <----這有點難控制
Each form should have content evenly distributed across the page. Forms with clustered content and sparse areas are more difficult to match.
8.表單背景應為白色或亮色,避免暗色系
9. 如果要偵測的表單有多頁,需分拆成多個檔案
10. ZIP 檔內只能有PDF檔,不能有其他檔案或資料夾
11. 要偵測的表單 應為空白表單,不可用已填寫內容的
12. If your form includes several pages of un-fillable boilerplate, you only need to add the
      fillable pages to your gallery archive. 自己翻譯
13. 從設定看來,只會針對附件進行偵測


實測

匯入原始表格供DLP學習,步驟如下:


將提供給DLP學習的空白PDF表用zip打包起來  並匯入DLP
其中的Fill Threshold 是設定此表偵測的相似度 (用過按鍵精靈寫外掛的 就知道此功能)


匯入後可看看Useable Forms Count 的數量,如果是0 代表你匯入的DPF無法被DLP學習


此次匯入的表如下



手寫一些資料上去後,用Email寄出  看DLP是否可以偵測到............
哈哈 還真的可以



那麼,非制式化表格呢?  例如圓形表格     要玩就玩大一點…………

人體穴道圖!!!


很不幸的,DLP無法學習此圖
此功能感覺跟OCR 還是有點差距,而且無法學習太過怪異的表單
希望之後版本可針對此功能進行加強

沒有留言:

張貼留言