伊帕皮鲁斯升级”黑色标记器”匿名化模块,应用于PDF产品

Photo of author

By Global Team

文档人工智能公司伊帕皮鲁斯宣布升级其敏感信息去识别模块“BlackMarker”,作为附加功能提供给PDF流媒体查看器“StreamDocs”和PDF转换解决方案“PDF Gateway”。

“BlackMarker”通过自动检测PDF文档中的敏感信息并进行掩码处理,然后删除原始数据来阻止信息泄露风险。通过此次升级,系统不仅能够自动识别和处理电话号码、居民登记号码、电子邮件等结构化数据,还可以识别和处理人名、地址等非结构化个人信息。

去识别化精度的提高得益于结合规则基础和词典基础模型的人工智能去识别技术,该技术基于大量的人名和地名数据库。用户上传文档后,系统会自动进行文本预处理,然后对所有结构化和非结构化个人信息进行去识别化。

伊帕皮鲁斯还增强了用户定制功能。掩码方式可以设置为文本或特殊字符,并且可通过服务器基础的批量处理方式快速处理大量文档。无需额外的高性能GPU,即可实现AI级别的性能,从而降低成本负担。

伊帕皮鲁斯副总裁金正雅表示:“在普通GPU环境中提供AI去识别化水平的精度,能够同时实现成本节约和信息保护效果。”

在PDF查看器“StreamDocs”中,用户可以上传文档后,通过搜索、指定、自动识别三种方式应用去识别化。处理后的文档无需下载,可以通过网络链接安全共享。

图片描述
使用PDF流媒体查看器“StreamDocs”中的“BlackMarker”直接在查看器中确认文档并对必要部分进行去识别处理(资料来源 = 伊帕皮鲁斯)

在PDF转换解决方案“PDF Gateway”中,用户在将各种文档如韩文和MS Office文档转换为PDF的同时,也可以自动去识别个人信息。通过API定制化,可以实现对机构名称、名词、正则表达式等特定数据的自动掩码。

图片描述
在PDF转换服务器“PDF Gateway”中应用“BlackMarker”附加功能去识别化的文档示例。自动识别并删除电话号码、电子邮件等结构化个人信息,以及姓名、地址等非结构化个人信息(资料来源 = 伊帕皮鲁斯)

伊帕皮鲁斯表示,正在与美国、日本、欧洲的海外子公司合作,不断开发和改进电子文档解决方案的功能和性能。

Leave a Comment