通元微 指静脉、指纹、人脸识别算法公司
 工作时间
周一至周日 :7:30-24:00
 联系方式
客服热线:400-xx6-8888
 工作时间
周一至周日 :7:30-24:00
 联系方式
客服热线:400-xx6-8888
总机0592-5056576
产品咨询159-6026-0605
 工作时间
周一至周日 :7:30-23:30
 联系方式
客服热线:400-xx6-8888
邮箱:abc@qq.com

信息技术 生物特征识别性能测试和报告 第1部分:原则与框架 GB/T29268

目 次


前言

1   范围

2   符合性

3   规范性引用文件

4   术语和定义

  4.1 生物特征数据

  4.2 人机交互

  4.3 测试中的人员

  4.4 评价类型

  4.5 生物特征识别应用

  4.6 性能测量

  4.7 数据结果曲线

  4.8 统计术语

5   通用生物特征识别系统

  5.1 通用生物特征识别系统概念图

  5.2 通用生物特征识别系统的构成

  5.3 通用生物特征识别系统的功能

   5.4 注册、验证和辨识过程

   5.5 性能测量

6   策划与评介

7   数据收集

8   分析

9   记录的保存

10  编制性能结果报告


前 言



GB/T 29268《信息技术  生物特征识别性能测试和报告》分为下列7个部分:

——第1部分:原则与框架;

——第2部分:技术与场景评价的测试方法;

——第3部分:模态特定性测试;

——第4部分:互操作性性能测试;

——第5部分:生物特征识别门禁系统的场景评价;

——第6部分:性能评价的测试方法;

——第7部分:卡上生物特征识别比对算法测试。

本部分为GB/T 29268的第1部分。

本部分按照GB/T 1.1-2009给出的规则起草。

本部分使用翻译法等同采用国际标准ISO/IEC19795-1:2006《信息技术  生物特征识别性能测试和报告  第1部分:原则与框架》。

与本部分中规范性引用的国际文件有一致性对应关系的我国文件如下:

——GB/T 27025- 2008测试和校准实验室能力的通用要求(ISO/IEC 17025,IDT)

请注意本文件的某些内容可能涉及专利。本文件的发布机构不承担识别这些专利的责任。

本部分由全国信息技术标准化技术委员会(SAC/TC 28)提出并归口。


引 言


本部分只涉及与生物特征识别系统和设备的科学性相关的“技术性能测试”,技术性能测试的目的是确定系统和设备的错误率和响应速度,其目的是了解和预测生物特征识别系统在实际应用中的错误率和吞吐率。错误率包含错误接受率和错误拒绝率,同时也包括整个测试集的注册失败率和特征采集失败率。吞吐率是指单位时间内能够处理的用户数,取决于计算速度和人机交互的速度。这些测试普遍适用于所有的生物特征识别系统和设备。基于特定设备的技术性能测试,例如指纹扫描仪的图像质量测试不在本部分考虑范围内。

技术性能测试仅仅是生物特征识别测试的一个形式。其他类型的测试不在本部分考虑范围内,包括:

——可靠性、可用性和可维护性;

——安全保密性,包括易受攻击性;

——符合性;

——安全性;

——人的因素,包括用户可接受性;

——性价比;

——隐私法规的遵守情况。

上述其他类型的测试方法及哲学问题正被一个成员广泛的国际团体所考虑。

本部分的目的是规范执行技术性能测试的最适合的要求和最佳的科学操作。这是非常必要的,因为从过去20年的生物特征识别设备测试技术文献的一个简短的总结可以看出各种测试协议中存在着一些冲突和矛盾。即使是同一个组织进行的多次尝试,每次尝试都使用了不同的方法。不但因为不同的测试目标和测试数据对应不同的测试协议,还因为没有能够建立标准的测试协议。

生物特征识别技术的性能测试可以分为三种类型:技术、方案或行为的评估。每个类型的测试需要不同的协议,并产生不同类型的结果。即使是一个同一类型的测试,由于存在多种的生物特征识别设备、传感器、供应商的操作说明、数据采集方法、应用程序和测试人员集合,导致无法产生准确统一的测试协议。本标准的其他部分将不同的开发和测试协议提供特定建议和要求。而本部分的理念和原则是广泛适用于各种测试条件的。


信息技术

生物特征识别性能测试和报告

第1部分:原则与框架


1 范围


GB/T 29268的本部分:

——规定一般生物特征识别系统性能测试的原则,包括预测错误率和识别速度以及比较性能和性能是否符合特定要求;

——规定生物特征识别系统的性能指标;

——规定测试方法、数据记录和结果报告的要求;

——提供一个开发的框架和测试协议的描述,以帮助避免由于不适当的数据搜集或程序分析导致的测试结果偏差,以及帮助在同样代价下实现最佳的领域性能估计,和改进对测试结果的适用范围的理解。

本部分适用于以测试实验为基础的生物特征识别系统和算法的性能测试。该测试分析系统输出匹配得分和决策结果,而不涉及系统的算法或潜在的使用人群的生物特征分布情况。

由于用户刻意避免被生物特征识别系统所识别而产生的错误不在本部分讨论范围内(例如,主动假冒者)。


2 符合性


为了符合本部分规定,生物特征识别性能测试应按照本部分的要求进行规划、执行和报告。


3 规范性引用文件


下列文件对于本文件的应用是必不可少的。凡是注日期的引用文件,仅注日期的版本适用于本文件。凡是不注日期的引用文件,其最新版本(包括所有的修改单)适用于本文件。

ISO/IEC 17025  测试和校准实验室能力的通用要求(General requirements for the competence of testing and calibration laboratories)


4 术语和定义


下列术语和定义适用于本文件。


4.1 生物特征数据

4.1.1

样本 sample

通过生物特征传感器获取的生物特征信息或者数据。

示例:

人脸图像、指放图像、虹膜图像和语音等。

注:在更加复杂的系统中,样本可能由多个数据组成,例如10个手指指纹记录、不同角度的人脸图像捕捉和左右眼虹膜图像对。


4.1.2

特征 feature

从样本中提取出的、用于代表该样本的特定的数字化信息。

示例:

特征点坐标和主成分系数。


4.1.3

模板 template

模型 model

系统中存储的注册用户/的特征及相关信息。

注:参考模板包括用户提交的理想样本的生物识别特征。更普遍的是,存储的参考模型将是一个代表该用户生物识别特征功能的潜力范围。在本部分中,通常使用包含“模型”的“模板”。


4.1.4

匹配得分 matching score

相似得分 similarity score

比对的输入结果,代表参与比对的两个生物特征的相似程度。相似度的数值通常也称为相似得分,或者比对得分。

注1:匹配或不匹配由该得分是否超过判定阈值来决定。

注2:从当前样本中抽取的特征越接近于存储的模板,相似得分越高。


4.1.5

验证决策 verification decision

判定用户在系统中的可能身份。


4.1.6

候选列表 candidate list

在一次辨识尝试中,可能是对象的注册身份标识的集合(或由预选算法产生的集合)。


4.1.7

辨识决策 identification decision

判定用户在系统中可能身份的候选列表。


4.2 人机交互

4.2.1

呈现 presentation

用户身体某部分的一个生物特征样本的提交。


4.2.2

尝试 attempt

提交给系统一个(或一序列)生物特征样本。

注:一次尝试的结果可能是生成一个注册模板、一个比对得分(或一系列得分)或者一次可能的采集失败。


4.2.3

过程 transaction

用户以注册、验证或辨识为目的的一个尝试序列。

注:有三种过程,注册序列,产生一次注册或注册失败;验证序列,产生一个验证决策;辨识序列,产生一个辨识决策。


4.2.4

本人尝试 genuine attempt

一个用户与其对应模板进行的尝试。


4.2.5

零效欺骗尝试 zero-effort impostor attempt

在一次识别过程中,假冒者提交自身的样本并且声称其身份为系统中注册的其他的人。


4.2.6

主动欺骗尝试 active impostor attempt

在识别过程中,尝试者采用伪造或复制的样本对所存储的他人样本进行匹配,或者尝试者本人修改自身的生物特征。

注:主动欺骗尝试同零效欺骗尝试的错误率是有区别的。主动欺骗尝试中方法和技巧的定义均不属于本部分的范围。


4.2.7

呈现影响 presentation effects

用户固有生物特征提交给传感器过程中的各种变化因素。

示例:

人脸识别中的光照和姿态因素;指纹识别中的指纹方向和皮肤损坏因素等。在许多情况下,基本生物特征和呈现特征之间的变化可能并不能明确区分(例如人脸识别中的表情识别或者说话者身份鉴别系统中的音高变化)。


4.2.8

通道影响 channel effects

在传导和传输过程中,由于采样、噪声和传感器及传输信道的频率响应特性等引起的信号改变的因素。

4.3 测试中的人员

4.3.1

用户 user

给系统呈现生物特征样本的人。


4.3.2

测试对象 test subject

与评估过程且其生物特征样本用于注册或比较的用户。


4.3.3

测试人员集 crew

为一次评估聚集在一起的测试对象的集合。


4.3.4

目标人群 target population

最终使用生物特征识别系统的人的集合。


4.3.5

管理员 administrator

执行测试或注册的人。


4.3.6

操作员 operator

实际系统中执行具体操作的人。

示例:

传递注册数据的工作人员或监视验证或辨识过程的工作人员。


4.3.7

观察员 observer

记录测试数据或监督测试人员的工作人员。


4.3.8

实验员 experimenter

负责定义、设计和分析测试的人。


4.3.9

测试组织 test organization

主持测试进行的功能实体。

4.4 评价类型


4.4.1

技术评价 technology evaluation

用事先收集好的测试数据或指定的测试人员集的样本对使用同样生物特征模态的一个或多个算法进行的离线评价。


4.4.2

场景评价 scenario evaluation

对原型系统进行的模拟真实应用的点到点评价。


4.4.3

操作评价 operational evaluation

在某种应用环境针对特定的目标人群对一个完整的生物特征识别系统进行的性能测量。


4.4.4

在线 online

在提交图像或信号的同时执行注册或比对的过程。

注:在线检测,生物样本有可以立即丢弃的优势,节省了存储的需求,并且系统采用与通常不同的运作方式。不过,建议尽可能收集图像或信号。


4.4.5

离线 offline

提交图像或信号的过程与注册或比对的过程是分开的。

注1:离线注册采集的图像或信号集和匹配得分的计算允许更好地控制尝试和模板图像以任何交易方式使用。

注2:技术测试将始终涉及数据存储,如离线处理。然而,在场景和业务测试中,在线交易可能对测试人员来说更为 简单——该系统采用通常的运作方式,尽管建议,图像或信号的存储并不是绝对必要的。


4.5 生物特征识别应用


4.5.1

验证 verification

检验用户是否为其所声明的身份。对于未知身份的X,其声称身份为A,将X与数据库中的身份为A的生物特征进行比对,如果满足系统设定的条件,则验证接受,否则验证拒绝。

注:用户声称身份的形式可能会是名字、个人识别号、刷卡或者其他唯一的身份标识。


4.5.2

辨识 identification

通过查询数据库中的生物特征,与输入的生物特征进行比对来确定输入生物特征对应的来知人身份的或其候选列表。


4.5.3

闭集辨识 close-set identification

将属于目标集的待识别人确定为目标集中某个身份的过程。


4.5.4

开集辨识open-set identification

将待识别的人确定为目标集中的某个身份或目标集以外的人的过程。


4.6 性能测量


4.6.1

注册失败率failure-to-enroll rate

FTE

注册失败的用户在总注册用户中所占的比例。

注:观测到的注册失败率是由注册的测试人员来衡量的。预测/预期的注册失败率将适用于整个目标人群。


4.6.2

采集失败率failure-to-acquire rate

FTA

在辨识或验证的尝试中,采集不到样本或样本质量无法达到要求的比例。

注:观测到的采集失败率有别于预测/预期的采集失败率(前者可用于估计后者).


4.6.3

错误不匹配率false non-match rate

FNMR

正确的尝试样本被错误地判为不匹配的比例。

注:测量/观测到的错误不匹配率有别于预测/预期的错误不匹配率(前者可用于估计后者)。


4.6.4

错误匹配率 false match rate

FMR

零效攻击尝试样本被错误地判为匹配的比例。

注:测量/观测到的错误匹配率有别于预测/预期的错误匹配率(前者可用于估计后者)。


4.6.5

错误拒绝率false reject rate

FRR

在验证识别过程中,真实者被错误判为拒绝的比例。


4.6.6

错误接受率false accept rate

FAR

在验证识别过程中,冒充者被错误判为接受的比例。


4.6.7

(正确)辨识率 (true-positive) identification rate

识别率 identification rate

在辨识过程中,用户被系统正确辨认的比例。

注:识别率依赖于(a)注册数据库的大小,(b)匹配得分的判别阈值以及返回的匹配识别数目。


4.6.8

错误拒绝辨识率 false-negative identification-error rate

FNIR

在辨识过程中,注册用户被系统错误辨识为其他注册用户的比例。

注:错误拒绝辨识率=1-正确辨识率。


4.6.9

错误接受辨识率 false-positive identification-error rate

FPIR

在辨识过程中,非注册用户被系统辨识为某个注册用户的比例。

注1:错误接受辨识率依赖于(a)注册数据库的大小,(b)匹配得分的判别阈值以及返回的匹配识别数目。

注2:闭集空间需要所有用户进行注册,因此要获得错误接受辨识率是不可能的。


4.6.10

预选算法 pre-selection algorithm

在辨识过程中,用来减少匹配次数的某种算法。


4.6.11

预选错误 pre-selection error

当来自同一用户的同一生物特征样本,并且其相应的注册模板不在预选候选子集中,<预选算法>错误发生。

注:在分块预选中,当注册模板和来自同一用户的同一生物特征的子序列样本放置在不同的分区,预选错误发生。


4.6.12

渗透率 penetration rate

<预选算法>平均选择出的待选模板数量的度量。


4.6.13

识别排名 identification rank

在识别系统返回的前k个结果中,用户在该结果中的最小k值。

注:识别排名依赖于注册数据库的大小,应表述为“n个样本中的k选率”。


4.7 数据结果曲线


4.7.1

检测错误权衡曲线 detection error trade-off curve

DET曲线

ROC曲线的一种变形,两个坐标绘制的错误率曲线(错误接受率为x轴,错误拒绝率为y轴)。

注:DET曲线的例子如10.6.2所示的图3。


4.7.2

接受者操作特性曲线 receiver operating characteristic curve

ROC曲线

以判别阈值函数为参数,以错误接受率(如被接受的假冒者尝试)为x轴,以对应的正确接受率(如被接受的本人尝试)为y轴而绘制的曲线。

注:ROC曲线的例子如10.6.3所示的图4。


4.7.3

累积匹配特性曲线 cumulative match characteristic curve

CMC曲线

一个辨识测试任务中的图形化结果展示方式,x轴记录辨识排名,y轴记录正确识别率达到或低于排名的正确辨识概率。

注: CMC曲线的例子如10.6.4所示的图5。


4.8 统计术语


4.8.1

方差 variance

V

描述统计数据分布范围的量。

注1:如果E(X)是随机变量X的分布的平均数,则其方差V(X)= E[(X-μ)2],其中=μ=E[X]。

注2:如果已知方差,那么这个方差说明的是估计值与真实值间的接近程度。


4.8.2

置信区间 confidence interval

描述参数x的下限估计值L和上限估计值U,并且x处于L和U之间的概率为一给定的值(如95%)。

示例:

如果[L,U]是参数x的95%的置信区间,那么概率(x∈E [L,U]) =95%。

注:测试集越小,置信区间越大。


5 通用生物特征识别系统


5.1 通用生物特征识别系统概念图


由于存在众多不同的应用和技术,给出一般的生物特征识别系统的概括模型是很困难的。但是,在所有的系统中,有些元素是常见的。生物特征样本是由传感器从用户获得的。传感器输出的信息传送到处理器,处理器提取出独特但可重复的样本后,丢弃其他信息,该样本作为一个模板保存在数据库中,或和已有的一个或多个数据库中的模板进行比对,以便确认是否有匹配。最终依据模板与模板或模板与特征之间的相似度给出身份判别。

图1说明了一般生物特征识别系统的信息流以及组成系统的各个子系统:数据采集子系统、数据处理子系统、存储子系统、比对子系统和决策子系统。此图说明了系统的注册过程、辨识过程和验证过程。应指出的是,在任何真正的生物特征识别系统,这些概念的组件可能不存在或可能不直接对应的物理组件。例如,质量控制可以放在分割之前或者特征提取之后。

7.jpg

图1 通用生物特征识别系统的构成


5.2 通用生物特征识别系统的构成


5.2.1 数据采集子系统


数据采集子系统采集图像或者通过生物特征传感器采集用户的生物特征。该系统输出图片或生物特征信号作为生物特征样本。


5.2.2 传输子系统(不包含在概念图中)


传输子系统(不一定显示存在于生物特征识别系统)在各个子系统之间传送信息。样本、特征或模板可能使用标准的生物特征数据交换格式进行传输。生物特征样本可能在传输之前被压缩和/或加密,并在使用前被解压缩和/或解密。一个生物特征样本可能在传输信道中由于噪声或压缩解压缩过程产生信息损失。建议在传输和存储中使用加密技术来保护生物特征数据的真实性、完整性和可信性。


5.2.3 信号处理子系统


信号处理子系统从生物特征样本中提取显著的特征。该处理可能包括从生物特征信号中定位用户的生物特征(通常此过程称为分割)、特征提取和质量控制,确保提取的特征是可识别和可重复的。质量控制拒绝接受样本时,信号采集子系统可能会采集新的样本。

在注册过程中,信号处理子系统通过提取到的生物特征创建一个模板。通常注册过程要求通过多个特征产生一个模板。有时模板也只包含一个特征。


5.2.4 数据存储子系统


数据存储子系统把模板保存在注册数据库中。每个模板与注册用户的其他信息一一对应。应指出的是,在被存储在数据库中之前,模板可能被转换为生物特征识别数据交换格式。模板可能存储在生物特征采集设备中,或一个便携式存储媒介如智能卡,或在个人电脑或本地服务器,或一个中央数据库中。


5.2.5 比对子系统


在比对子系统中,生物特征同一个或多个模板进行比对后,相似度将被传送到决策子系统中,相似度表明了特征与模板之间的拟合程度。在某些情况下,特征可能和模板采用相同的存储形式。在验证模式下,输入的特征仅和被声称的库中的模板进行比较,输出一个相似度。在辨识模式下,一些或全部的库中模板将同输入的特征进行比较从而产生多个相似度。


5.2.6 决策子系统


决策子系统使用多个相似度或一个相似度,对验证或辨识的结果提供一个决策。

在验证模式下,特征与模板是否匹配是由它们之间的相似度是否超过指定门限决定的。此决策模式可以允许进行多次尝试,确认用户是否为其所声称的身份。

在辨识模式下,当某些相似度超过指定的门限时,或者某个相似度是所有相似度中最大的k个时,确认对应的注册身份为可能的辨识决策。

注:从概念上讲,如果把多种模态的样本、模板、得分当作一个样本、模板、得分并在决策时采用融合的方式,多模态

生物特征识别系统和单模态生物特征识别系统具有相同的处理方式。


5.2.7 管理子系统(不包含在概念图中)


管理子系统负责管理生物特征识别系统的总体策略、执行和应用,以及有关法律、司法和社会的限制和要求,说明性的例子包括:

——在数据采集后给用户提供反馈信息;

——要求用户提交其他信息;

——存储和转换生物特征模板或生物特征交换数据;

——根据决策系统或相似度的结果提供最终的决策;

——设置门限值;

——配置生物特征识别系统的采集装置;

——控制工作环境和非生物特征识别技术数据的存储;

——为最终用户提供隐私保障措施;

——与其他系统进行交互。


5.2.8 接口(不包含在概念图中)


生物特征识别系统可能会通过API函数接口、硬件接口或者协议接口与外部应用程序或系统连接。


5.3 通用生物特征识别系统的功能


5.3.1 注册


注册过程中,系统为使用者生成相应的注册模板并将其存储在系统中。

这个过程一般包括:

——数据采集;

——分割与特征提取;

——质量评价(如果不合格则重新采集);

——模板生成(可能使用多个特征),可能转换为生物特征识别数据交换格式;

——测试注册是否成功(或模板是否可用) ;

——若初始注册不合格,可能允许重复注册尝试(视注册策略而定)。


5.3.2 验证


身份验证是验证某使用者的真实身份是否与其声称的身份一致(如“我是已经注册的×")。验证的结果可以是接受或者拒绝。如果不是接受错误声明(错误接受)或者是拒绝正确声明(错误拒绝),输出的验证结果被认为是错误的,值得注意的是,某些生物特征识别系统允许一个用户注册多个特征(例如,一个虹膜系统可能允许最终用户注册左右眼两个虹膜图像,而指纹系统可能最终用户注册两个或两个以上的手指作为备份,以防一个手指受伤的情况)。

验证一般包括以下步骤:

——数据采集;

——分割与特征提取;

——质量评价(如男不合格则重新采集);

——比对输入与其声称的身份的对应模板;

——判断相似度是否超过确定的门限;

——根据决策策略和比对得分判断是否匹配。

示例:

在一个允许三次尝试的验证系统中,采集失败与错误匹配的任意三次组合会导致一个错误拒绝。如果在三次尝试中,有一个样本被接受并且与声称的身份的模板错误匹配,就会产生一个错误接受。


5.3.3 辨识


身份辨识的过程是试图确定某使用者是否已经注册在系统中,如果是则确定其身份。辨识提供一个可能为空或只包含一个辨识用户的候选列表。当待辨识用户已注册,并且其注册的身份在候选列表中,识别过程被认为是正确的。如果已注册的待辨识用户不在候选列表中(错误拒绝辨识),或者未注册的待辨识用户产生一个非空的候选列表(错误接受辨识)。

身份辨识通常包括以下步骤:

——数据采集;

——分割与特征提取;

——质量评价;

——特征提取(如果不合格则重新采集);

——比对输入特征及系统中的待比对模板;

——基于是否有相似度最高的k个和/或相似度是否超过门限判断是否有匹配上的身份;

——根据决策策略和输出的一组比对得分做出辨识决策。

注1:在全自动系统中,被标定的待辨识用户很可能与具有最高相似得分(提供超出特定阈值)的模板一致。当有人工操作员时,系统可能会为操作者提供一个包含前r个匹配项的候选列表以便决策。通过人工操作员判断可能的匹配项,从而确定系统的实用性能指标不在本部分的范围内。

注2:如果所有的待辨识人员均在一个已注册过的辨识系统中,永远不会出现错误接受这样的辨识错误。在已知识别闭集的退化情况下,性能测量通常以正确识别率的大小来衡量,该正确识别率与系统返回的候选列表大小相关。


5.4 注册、验证和辨识过程


上述生物特征识别功能取决于每一个用户的具体情况。在系统策略允许的情况下,该过程可能包括一次或多次的尝试(见图2)。例如,系统策略允许最多三次尝试验证,那么工作过程可能是一次成功尝试、第一次失败尝试和第二次成功尝试、或者前两次失败尝试和第三次成功尝试。

每个尝试可能包含多次数据采集,这取决于样本质量、传感器操作以及采集次数限制和超时设置。例如:一次注册过程可能需要采集几次生物特征样本。生物特征验证系统通常使用一个样本序列来进行一次尝试。例如:

a) 在一系列样本中找到最佳匹配的样本;

b) 不断采集样本直到出现一个匹配样本或超时;

c) 直到出现一个满足质量要求的样本或者超时。

q..jpg

图2 采集、尝试和识别


5.5 性能测量


5.5.1 错误率


验证决策和辨识决策的错误是由匹配错误(即错误接受和错误拒绝)或样本采集错误(即注册失败错误和采集失败错误)引起的。这些基本错误组合形成最终识别错误取决于所需的比较次数、验证中所声称身份的真假、以及最终决策策略,例如系统是否允许多次尝试。

注:虽然生物特征识别系统的性能历来是由错误率——错误接受率和错误拒绝率所衡量的,但这些错误率在不同的文献中的定义存在矛盾。大规模辨识系统的相关文献中,往往把输入的样本错误匹配到另一个用户的模板的情况定义为“错误拒绝”。在访问控制方面的文献中,把这种情况定义为“错误接受”。错误的匹配率和错误的不匹配率一般不宜与错误接受率和错误拒绝率等同使用。错误匹配率和错误不匹配率用比对的次数计算,而错误接受率和错误拒绝率用识别系统给出接受和拒绝的次数计算。此外,错误接受和错误拒绝应包括错误采集。


5.5.2 响应速度


响应速度是指单位时间内能够处理的用户数。此项指标适用于所有的生物特征识别系统与设备。

足够的响应速度是任何生物特征识别系统的重要性能指标。在访问控制系统中,响应速度通常是由用户交互过程中能够采集到达到质量要求的生物特征的时间所决定。在身份辨识系统中,响应速度通常由提交的样本与数据库中待比较的模板进行比对的时间所决定。因此,系统类型的不同,导致人机交互速度和计算机处理速度成为影响响应速度的主要因素。对计算机处理速度的测量准则在相关的计算机标准中有详述,故在此不做考虑。对人机交互速度的测量需要精确定义交互的开始和终止。这个定义应在进行测试前给出并附在测试报告中。测试报告还应包含人机交互的简短操作清单。


5.5.3 性能评价类型


测试生物特征识别系统涉及到了测试数据的采集,这些测试数据包括注册在系统中的样本和用在验证或辨识中匹配得分的样本。测试数据可以是在线实时采集的或者离线存储于数据库中的。

a) 在对技术的评价中,对所有算法使用同一个标准测试集。测试数据由一个“通用的”传感器进行收集,即一个传感器采集样本,所有算法都是用同样的样本进行测试。然而,在这个测试集上的表现是取决于该测试集的采集环境和采集对象的。在测试之前可能会分发一部分数据用来对算法进行优化调整,但实际参与最后测试的数据应是不包含已分发的数据的。测试通常是利用脱机数据进行的。由于测试集是固定的,所以对技术的评价结果是可重现的;

b) 在对方案的评价中,测试是在模拟真实使用的情况下对整个系统进行测试。每个参与测试的系统都有各自的传感器,它们采集到的数据是略有不同的。因此如果将多个系统进行比较,宜要求它们的传感器所处的环境及测试对象是相同的。根据每个设备的存储能力不同,这种测试可能是离线和在线测试相结合的。测试结果只在可严格重现测试场景的情况下方可重现;

c) 在对实际操作的评价中,根据系统的存储能力不同,离线测试可能是不可实现的。一般来说,实际操作测试由于各种因素的影响导致了测试环境具有不可重现性。因此,“绝对真实”是难以确认的,特别是当系统在没有管理员、操作员或观察员监督的情况下运行的测试。


6 策划评价


6.1总则


作为测试的第一步,以下事项应首先确定:

a) 待评价的系统、应用、环境;

b) 待评价的指标;

c) 测试数据库的构建方法(即确定评价的类型:技术评价、方案评价还是实际操作评价?)。

这些事项是测试协议的基础,同时决定了测试环境控制、测试对象选择和测试规模大小。

注:评价类型的选择可能会由以下因素决定,例如:对测试样本数据库的技术评价,或者对已安装系统的可用性的操作评价,也有可能在某些情况下三种测试类型将依次进行,有可能在最终部署的生物特征识别系统上逐步缩小其模式和系统来依次进行三种评价。


6.2 本标准其他部分的使用


不同的系统和应用程序可能在测试方法上存在差异,原因包括:

a) 环境差异;

b) 用户群差异(例如:用户习惯不同);

c) 生物特征模态差异(例如:不同环境采集不同模态的特征,行为特征和生理特征方面的差异);

d) 对所感兴趣的性能度量差异(例如:验证、开集辨识和闭集辨识的指标差异);

e) 可用数据的差异(带有预选功能的验证系统不会给出所有样本间的相似度;但是丢弃的样本不能被当作未参与测试,可以把被丢弃的样本认为是和任何模板匹配的相似度都非常低);

f) 辨识系统中数据的其他问题(例如:用户没有提交身份信息)。

本部分中给出了测试生物特征识别系统性能的操作和报告方法的基本原则。其他部分给出更具体的指导和对特定测试类型、生物特征模态、目标应用、或评价目的评价。


6.3 确定系统信息


在测试前为了更好地规划以采集到合适的数据,下列系统信息应确定:

a) 系统是否记录日志?若否,这些信息应被测试对象、操作员或观察员手工记录。

b) 系统是否每次都保存样本图像或特征?若相似度是在离线状态下计算的,则这一点是非常必要的。

c) 系统返回相似度还是仅仅返回接受或拒绝?若是第二种情况,则只能产生DET曲线(见7.2.3)。若是第一种情况,系统参数和测试规模中是否还有其他有用信息?

d) 是否提供SDK( software development kit,软件开发包)?离线产生真实者与攻击者的相似度需要使用SDK来进行下列处理:

1) 注册样本产生注册模板;

2) 从测试样本中提取特征;

3) 计算特征和模板之间的相似度。离线计算相似度得分的代码宜同在线系统的代码是同样的。这有利于调节参数。

e) 测试系统是否需要修改?修改是否有利于性能提升?

f) 系统是否生成独立的模板?若模板不独立,则对攻击者的数据采集或产生样本的程序是不同的(见7.6.2.6和7.6.3.2)。

g) 系统使用的算法是否是在线更新模板的?若是,需要考虑测试次数与系统性能改进的关系和攻击者对性能的影响(见7.4.4和7.6.1.4)。

h) 目标程序对图像质量和匹配决策门限有什么要求?这些设置将影响提交样本的质量和错误率。

i) 预期的错误率是否已知?可以借助此信息来确定测试规模的大小(参见附录B. 1)。

j) 在对应的测试类型中,哪些因素可以影响系统性能?这些因素需要被控制(见6.4)。

k) 性能与测试数据库大小是否相关?这是辨识系统普遍存在的问题,在某些验证系统中也存在此问题,例如批量注册的情况或在验证过程中嵌入了一对多查询的情况。

注:在对方案和操作的测试中,对设备调整和系统性能优化(包括质量阈值和决策阈值的设置)都必须在数据采集前进行。严格的质量控制可能会导致错误匹配和错误不匹配降低,但将有较高的采集失败率。若匹配结果呈现给用户,则决策阈值也需要恰当设置,因为积极或消极的反馈会影响用户的行为。供应商可以给出关于环境和各种设置的最佳推荐值。


6.4 控制影响性能的因素


6.4.1 生物特征识别系统的性能高度依赖于应用、环境和测试对象。附录C提供了一个用户、应用和环境及系统等影响测试对一种或多种生物特征识别系统性能的因素的清单。如何将这些因素加以控制,应在收集数据前确定好。


6.4.2 影响测试性能的因素,应按照明显到不明显分为四个档次来控制:

a) 把因素纳入实验体系(例如:作为自变量),这样可能可以看到影响的效果;

b) 把因素控制变成实验条件的一部分(在测试实验过程中保持不变) ;

c) 把因素左右随机量排除在实验外;

d) 忽略掉对结果影响微不足道的因素。忽略掉这些因素能够使测试实验变得简单。

这可能会涉及一些系统的初步测试,以确定哪些因素最重要,哪些可以完全忽略掉。在确定应控制哪些因素时,可能会有内在有效性(如在研究中记录的独立变量的性能差异)和外在有效性(在目标应用中真正具有代表性的性能结果)之间的矛盾需要平衡。

示例:

假设需要比较两个系统的性能并担心监管员的能力或个性差别影响测试结果,可以采取以下方式控制这一因素:

a) 设计实验来衡量不同监管员之间的差别,就像衡量系统差别一样;

b) 只适用一个监管员,或者用脚本详细规定测试人员与监管员、系统的交互,尽可能使其在所有实验中的行为保持一致;

c) 随机分配所有监管员监管的注册过程,从而避免出现系统偏差;

d) 如果有证据表明,不同的监管员带来的系统性能差异很小,则实验可以忽略这个因素。


6.4.3 对于技术测试来说,可以使用通用的测试人员和应用程序,确保系统进行的测试既不太难也不太容易。


6.4.4 对于场景测试来说,对不同的系统应使用特定的测试人员和应用程序,以模拟系统在真实世界使用的情况。


6.4.5 在操作测试中,实验者应尽可能少的控制环境和测试人员。


6.4.6 在规划测试时需要注意,样本注册的时间和识别时的时间的间隔是很重要的。较长时间的间隔会使识别变得困难,这是由于“模板老化”问题造成的。由于生物特征自身特性、其表现以及传感器的原因,导致识别错误率随间隔时间而增加。在收集测试数据库时,样本应具有一定的时间间隔,如果不知道这个时间间隔,仅仅分开是可行的。一个经验原则是根据生物特征的模态来确定时间间隔。

示例:

对于指纹识别,两三个星期就足够了。眼睛结构变化的可能更快,时间间隔几天就可以。考虑到理发会导致身体整体方面发生变化,脸部图像的时间间隔应至少达到一或两个月。

注:在设计具体的测试时,不管是测试用户习惯(用来提升得分)还是模板老化(导致得升降低),都需要覆盖一段时间的多个样本。除非样本老化或者习惯变化不是随时间变化而变化的,否则会没有办法来消除这些影响。


6.5 测试对象的选择


6.5.1 注册和识别功能都需要有信号或图像输入。这些样本来自一个测试人群。如果有必要使用人工生成的样本或特征(包括对真实数据进行修改得到的),应报告并评价人工方法,对合成或产生的方法进行说明。人工数据与非人工数据产生的结果应分别单独报告,混合人工数据与非人工数据的结果应报告混合数据集的细节。

注:使用人工生成的图像将提高技术评价的内部有效性,因为所有的影响性能的独立变量都是被控制的。但是,外部有效性将会降低。同时这样的数据库还会使测试偏向于是用了类似生成方法的生物特征识别系统。


6.5.2 参与测试的人员中不应包括用来训练或调整生物特征识别系统的人。


6.5.3 参与测试的人群的人口统计学分布应接近于真实使用时的人群的分布。如果测试对象是在真实使用的潜在用户中随机抽取的,就会满足这个条件。


6.5.4 招募测试人员的过程可能会给测试带来偏差。例如具有异常特征、在职员工或者残障的人可以根据在人口中的分布来选择部分代表,而强烈反对使用生物特征识别系统的人不可能参与测试。可能需要不均匀的选择测试人员以使尽可能多的代表各种人员。但仍有很多未知的问题影响系统性能。目前对于生物特征识别系统性能的人员自身影响因素的研究非常差,所以测试对象分布逼近真实应用人群分布将永远是一个大问题。


6.5.5 注册与识别通常是在不同时段进行的,相差几天、几周、几个月或几年。时间间隔主要取决于最终应用时的情况。在这个测试周期内,难以保证测试人员集的稳定性,宜预测到会有某些测试对象参与注册后没有参与识别。


6.5.6 对于最终应用形式是对用户公开的系统的测试,测试组织者应指导和鼓励测试人员,使他们的行为与最终应用中的表现一致。如果参与测试的人员觉得无聊,测试可能会产生偏差,所以要避免出现这种情况。


6.5.7 对于最终应用形式是对用户隐蔽的系统的测试,测试对象最好表现为对采集样本的过程不知道。这可以通过在一个时段被动收集数据来实现,利用RFID标签来确定识别是否正确,而不需要用户自行输入。


6.5.8 在可能的情况下,测试对象应充分了解数据收集的程序,知道原始数据是如何使用和传播的,并被告知会有多少阶段使用数据以及这些阶段的持续时间。测试对象的知情权不应被忽视。每个测试对象都应签署同意书,并且测试者应保证同意书的内容。

注:在某些类型的测试中,例如隐蔽收集数据的操作测试,告知测试对象这些信息可能是不切实际的,或者会影响测试对象的行为而导致测试结果的偏差。


6.6测试规模


6.6.1 概述


测试规模是指在测试中测试对象的数目和尝试测试的次数(以及其他如每个人采集的手指、手和眼睛的数目)。测试大小将影响如何准确地测量错误率。测试越大,结果准确性可能越高。如附录B.1中描述的规则3和规则30可以用来计算所需实验精度的对应尝试测试次数的下限。但是这些规则是过分乐观的,因为这些规则的前提是错误率是由单一源引发的变化。这并不符合生物特征识别技术的一般情况。100 个人每人取10个样本,与从1000个人中每人取1个样本在统计上是不一样的,结果的可靠性也不一样。

注:随着测试规模的增加,估计数的方差减小,但是比例因子依赖于选择哪个变量。例如,用户可能选择不同的错误率(参见参考文献[16]),如使用可变比例因子1/测试样本数来替代1/尝试次数。附录B中详细讨论了这一因素的影响。


6.6.2 对每个用户进行多次识别


6.6.2.1 测试可能会对每个用户进行多次识别。在这种情况下每个用户的多次识别应包含以下几种:

a) 年龄跨度、行为习惯和其他系统性的变化;

b) 对具有模板更新功能的系统的测试;

c) 对不同用户具有不同错误率的系统进行扩展测试;

d) 在测试计划制定时,确定如何测试每次识别的尝试次数与测试性能之间的关系。

注:如果测试成本和测试对象招收的困难都不用考虑,那么理想的测试可能有很多测试对象,使每个对象郡进行单独的识别,这将使识别之间具有独立性。然而,在现实生活中,重复使用测试对象显然要比每次招收新的测试对象容易得多。此外,每进行一次尝试,实际上测试对象都会有额外的改变使得测试结果有轻微的改善。这种多次尝试将表现出一定的相关性,然而,通常在较少的情况下,使用较少测试对象产生同等测试次数的测试将会比使用较多测试对象产生的同等测试次数的测试具有更小的不确定性。


6.6.2.2 测试中每个测试对象的识别的次数和频率应与目标应用保持一致。如果改变识别模式对最终错误率影响不大,那么测试计划对此也可以有所改变。

注:用户的行为可以随着测试进行中测试结果的反馈而改变,使他们熟悉设备或系统。例如:第一次尝试,用户的失败率可能会比后面的尝试高。因此,测试中观察到的错误不匹配率是依赖于测试协议中指定的用户的尝试模式的。一般来说,错误率不仅取决于测试对象人群,还取决于测试对象可能合理的尝试识别的方式。对测试对象的多次尝试进行平均可以改善这种情况。但是改变每个测试对象的尝试次数和方式,可能会影响他们的行为模式而最终显著影响测试到的错误率。

示例:

对在用户不熟悉设备和系统的应用情况的测试中,允许用户进行多次识别是不恰当的。


6.6.3 测试规模建议


测试对象的人数对测试精度的影响应远远超过总尝试次数对精度的影响。

a) 测试人群应尽可能的大。在实际应用中应考虑人员的聘用和跟踪的成本;

b) 对每个测试对象应收集足够多的样本,使总的尝试次数超过附录B的规则3或规则30规定的适当原则。如果可能,应收集不同时期的样本,或从不同手指、眼睛或手收集样本(额外收集的样本仍然可以正常使用1)),这样做可以减少由同一个人采集样本带来的样本间的不独立性;

1) 示例:在指纹系统中使用小指可能就是一种非正常使用方式,由此而产生的错误率也会有所不同[17]。同样的,在右手手型识别系统中将左手反转使用也是不适宜的。

c) 一旦测试数据集建立并被分析后,应评价测试使用此数据集的测试结果不确定性,以确认测试规模是否够大。

注:递减规律适用于——由应用环境或者测试主体选择错误导致的测试规模到达某一数值,该数值超过测试人群规模和测试次数。


6.7 多重测试


6.7.1 由于收集数据的成本非常高,所以用一个数据集进行多次尝试时可取的。对技术的测试允许这样做。在当前图像标准——指纹(参见参考文献[18])、人脸(参见参考文献[19])、虹膜(参见参考文献[20])和声音(参见参考文献[21])适用于多种生物特征识别设备的情况下,用于模式匹配算法的离线测试的一个测试数据集可以为多个供应商提供的设备进行测试。这样做实际上消除了数据采集子系统与数据处理子系统的影响。由于这两个子系统通常不是完全独立的,所以这样做是存在问题的。例如,数据处理子系统中的质量控制模块可能会要求数据采集子系统重新采集数据。此外,即使存在数据标准,数据质量也受不同的人机交互和用户手册的影响。因此,使用一个标准化数据集的离线的算法测试可能无法给出一个整体系统性能的表现,也可能使测试偏向某些系统。

6.7.2 一个测试人员通过多种不同的设备或每次尝试的不同场景,使得多种系统的场景评价可同时进行。但是,这种方法是需要仔细考虑后方可使用。一个可能的问题是,测试项目从一个设备移动到另一个设备而产生适应性。为了平衡设备因素的影响,每个测试项目宜随机进行。另一个潜在的问题发生在两个设备理想行为之间的冲突。例如,某些设备工作最好的状态是移动图像,有些则是固定图像。这种冲突可能会导致在测试中因采用某个或多个设备使得测试图像质量低。


7 数据收集


7.1 数据收集错误的预防


7.1.1 收集到的生物特征或图像样本被称为是数据库。特征或样本对应的用户信息被称为是元数据。无论是数据库还是元数据都可以由于人为因素而在收集数据过程中产生错误。收集过程中的错误率可能很容易就超过生物特征识别装置的错误率。因此,收集数据的过程应非常谨慎,以避免在数据库(数据错误)和元数据(标签错误)中产生错误。


7.1.2 常见的数据库错误原因如下:

a) 测试对象使用数据采集系统时发现错误(系统无法感知错误的存在),例如在扫描指纹时,手指方向上下颠倒;

b) 在用户输入身份后,一直没有采集到适合的数据,用户就离开了。


7.1.3 常见的元数据错误原因如下:

a) 身份编码分发错误;

b) 身份编码输入错误;

c) 使用了错误的身体部分,例如:要求采集食指指纹时,用了中指。


7.1.4 数据收集软件要尽可能的减少键盘输入,并由多个数据采集工作人员仔细检查输入的数据,并且应内置冗余数据。工作人员应熟悉系统的正确操作和可能出现的错误及相应的防范措施。为了避免一些由于超范围而引起误采集的因素,事先应制定一些客观的标准。任何在不正常情况下收集的数据以及影响因素都应被数据采集工作人员记录下来。


7.1.5 即使有预防措施,一些数据收集的错误仍可能会出现,这将使测试结果的不确定性增加。在错误的数据成为既成事实后,对数据库或元数据的更正应在采集系统中完成,而不应依赖于被测试的生物特征识别算法。在这方面,可以保存样本图像和/或识别日志的系统相比于手动记录所有细节的系统而言,可以提供更多的信息用来更正错误。


7.1.6 数据采集工作人员不宜手动或自动丢弃收集的样本,除非该样本不符合一些正式的、实现制定的标准。被丢弃的样本的数量应上报。

示例:

丢弃面积小于6.25px2的指纹图像。


7.2 数据和细节采集


7.2.1 自动收集的数据将取决于生物特征识别系统的执行情况。以评价为目的的数据收集系统应会自动记录所有的注册、验证或辨识的尝试,包括身份验证是声称的身份、匹配的细节和质量得分,并且可能,也保存样本图像或特征。这会带来以下好处:

a) 注册样本和匹配得分可以利用供应商提供的SDK离线计算,这样可以获得完整的注册样本与输入特征间的交叉匹配得分矩阵,从而得到更多的攻击者得分;

b) 收集到的图像可以用来评价算法的改善,或者评价其他算法;

c) 从记录的图像或日志中可能找到潜在的测试数据库或元数据的错误;

d) 与手工记录测试情况相比,自动记录日志可以最小化人为因素的错误。


7.2.2 有很多生物特征识别系统不提供这种理想运行模式的功能。在供应商配合的情况下,有可能使其满足一个记录标准,但是应注意,系统性能不应受到记录日志的影响。例如,记录测试图像可能会降低系统速度,影响用户交互时间。如果样本图像或特征无法保存,注册和识别都应在线进行,并且手工记录结果。这需要测试工作人员更加密切谨慎的监督测试,以确保记录的结果都是正确的。


7.2.3 有些系统不返回匹配的得分,仅仅返回在当前设置下的匹配或不匹配的决策。在这种情况下为了绘制DET曲线,宜在一定的安全设置下收集或产生合法数据和攻击数据。供应商可能在一定范围内调整设置。系统设置的改变将会参数化的影响决策门限从而改变DET曲线。在线测试中,为了正确的计算错误率,每个用户宜在各自的设置下进行识别。

注:某些测试协议中允许在真实识别时逐步放宽门限,直到得到匹配决策,在假冒攻击时逐步收紧门限,直到得到拒绝决策。这种测试协议不符合本部分,因为多次尝试的结果影响了决策门限的改变。


7.2.4 数据采集计划可能需要包括一个机制,使测试对象的样本及其他信息可以在系统中单独访问并删除。否则编辑数据库工作将是费时并易错的。


7.3 注册


7.3.1注册过程


7.3.1.1 每个测试对象宜仅注册一次,虽然一次注册可能会产生一个以上的模板(例如:每个指纹或多姿态人脸图像构成的多重模板)。在

注册过程中进行多次尝试可以得到一个较好的注册率,要小心重复注册。


7.3.1.2 在注册的同时,可以进行一些实际测试,以保证在后续的识别中能够采集到足够质量的样本,并且使测试对象熟悉系统。这个测试中产生的匹配得分不宜作为真正的比较记录(除非特殊要求注册后立即识别的系统)。


7.3.1.3 如果可能,注册样本应被记录下来。


7.3.2 注册条件


7.3.2.1 注册条件应同最终应用的注册条件一致。注册环境的类型(参见参考文献[22])将决定测试结果的实用性。应遵循供应商的建议,并且应注意测试环境的细节。在说话人识别中噪声环境应引起特别注意。在人脸、眼睛、手或手指等使用光学成像的系统中,环境光噪声应引起特别注意,特别是直接照射传感器和身体被采集部分的环境光。照明条件宜尽可能满足系统要求。注意,在充满噪声的环境中得到的测试结果将不适用于其他环境。


7.3.2.2 所有的注册过程都应在同样的条件下完成。许多数据收集工作由于协议或设备的变化已无法在二次收集时重现2)。应控制系统变量和传输中的条件,使这种影响全部测试对象,也不是随机影响测试对象。


7.3.2.3 随着测试的进展,注册过程的监督员可能获得额外的系统工作的知识,这可能会影响其后的数据注册工作。为了防止这种情况,注册程序和人工干预的标准应事先确定,并对监督员提供适当的培训。


7.3.3 注册失败和错误报告


7.3.3.1 生物特征识别系统可能会拒绝某些注册人员的尝试。具有质量控制模块的多重模板系统将拒绝接受差异巨大的多重图像;单模板系统将拒绝接受单一的质量差的图像。如果允许调整接受标准,调整应遵循供应商的建议。允许多次注册尝试的系统中,应用最多允许的尝试次数或尝试时间进行注册。所有的质量得分和注册都应被记录。注册失败用户的报告或补救措施都应事先计划好。


7.3.3.2 注册失败的测试对象比例应包含在报告中。如果可能,注册失败的原因也应记录和报告(例如:无生物特征,某个样本无法被采集,或注册算法异常,或者无法成功的在实践测试中验证)。


7.3.3.3 并不是所有质量控制都是自动的。在某些实现确定的标准下,当出现不恰当事件时,实验者可能需要干预注册。例如采集了错误的用户手指、手或眼睛,身份输入错误,该数据应被删除。但这种情况应记录下来。


7.3.3.4 在数据编辑阶段可能需要删除异常值,但造成的性能的影响应引起充分的注意。不能够仅仅因为模板是一个异常值而删除模板。


7.4 真实过程


7.4.1 测试数据的采集环境,包括噪声,应接近于真实应用情况。测试的环境应符合整个采集过程。测试对象的动机,以及他们的训练和对系统的熟悉程度,也应符合真实应用时的情况。

注:在技术测评中,真实应用应被设想为对于待测算法既不是太难也不是太容易的。


7.4.2 数据采集过程应控制系统变量和传输中的条件,使这种影响全部测试对象,也不是随机影响测试对象。如果影响是在所有用户中起作用的,那么在测试阶段也应保证同样的数据采集和传输的条件。系统变量和传输条件在注册和识别时发生的变化将导致测试结果发生偏差。若系统变量和传输中的条件随机影响测试对象,应保证在注册和测试环节这些影响没有相关性。



7.4.3 在理想情况下,测试对象在注册和识别中间使用系统的频率应同真实应用中保持一致。然而,不一定由于测试成本的原因而导致不一致的发生。放弃任何的临时使用系统,但允许在测试数据采集之前重新熟悉系统,是一种较好的选择。


7.4.4 对于具有模板更新功能的系统,临时使用系统可能会使系统模板发生变化。因此熟悉系统的临时使用应在数据收集之前进行,并且记入结果报告。


7.4.5 抽样的测试计划应保证在测试中没有一个小团体被频繁抽中,但具有代表性的用户除外。


7.4.6 应非常谨慎的防止数据输入错误,并记录任何不寻常的周围情况。尽可能的减少测试对象和测试工作人员的按键次数。滥用系统可能会导致数据损坏。测试工作人员应尽力劝阻这些行为。但是,不得从测试库中删除数据,除非系统外部校验对系统的误用是有效的。


7.4.7 用户有时无法提供一个可用的、可被系统管理员或质量控制模块接受的样本。若系统不记录这种情况,测试工作人员应对此进行记录。采集失败率的测量是依赖于质量控制标准设定的。同注册一样,质量控制设置应遵从供应商的建议。

2) 著名的例子是在国王语录[23]中的“伟大的分离”。大概是在录音过程的中途,录音设备不得不临时拆卸,其中原因已无人记得。后来按照原始的接线图对录音设备进行组装。尽管如此,频率响应特性发生了轻微的改变,产生了数据的分离,加大了以数据为基础的算法的科学分析的复杂性。

注:质量门限值(和决策门限值)可能会影响用户——严格的门限使用户更加注意自己的行为,宽松的门限使用户行为草率。数据库本身可能因此不像设想的那样是与门限无关。


7.4.8 测试数据不管是否能够匹配到一个注册的模板上,都将被添加到测试库中。有些供应商的软件不记录没有匹配上的情况。这种情况下,错误不匹配率将会误差性的严重偏低。若发生这种情况,不匹配的错误应由专人记录。只能够因为独立于匹配得分的已定因素才可以排除测试数据。


7.4.9 所有尝试,包括采集失败的情况,都应予以记录。除了实际原始图像数据应被记录,每个样本的质量评价细节,和在线测试的匹配得分都应被记录。


7.5 已注册用户的辨识识别


7.5.1 注册用户的辨识识别的采集和记录应与真实验证的情况类似。所记录的结果应包含候选人名单标识符。如果可能还应记录质量得分或匹配得分。


7.5.2 辨识过程可能会产生脱机识别过程。 通过类似与对数据库中的每个模板进行一次验证的过程,来进行辨识。然而在一般情况下,会有预选算法来减少模板匹配算法的运行。

注:为了确定预选算法的性能,每次识别过程所预选的模板的数量宜设法记录下来(参见附录D)。


7.6 假冒攻击识别


7.6.1 概述


7.6.1.1 假冒攻击可以在线或离线进行。

a) 在线假冒攻击时测试对象提交样本与其他人的注册的模板进行比对;

b) 离线攻击包括模板比对、特征提取(包括从真实身份者的特征提取和未注册者的特征提取)。离线计算允许在所有的样本和特征间进行完整的交叉匹配。


7.6.1.2 测试的类型通常决定了在线攻击还是离线攻击。

a) 在对技术的评价中,假冒攻击通常是离线分析的。然而,偶尔可能会有假冒攻击数据库用来代替,或者和交叉匹配的假冒攻击一起,进行离线分析;

b) 对方案的评价中,最适当的方法取决于系统能否保存真实验证的样本。如果是这样,交叉匹配可能会产生更多的假冒攻击;

c) 对操作的评价中,假冒攻击的得分可能无法直接获取。如果系统保存了样本图像或提取的特征,可以离线计算假冒攻击的得分。如果不保存,则可以通过在线测试方式得到得分。假冒攻击的测试对象越多越好,每次攻击随机选择一些非自身的模板,而不是使用少量测试对象来攻击大批非自己的模板。在某些情况下,可以使用模板间的匹配来模拟假冒攻击。

7.6.1.3假冒攻击不能在同一用户的不同样本间进行。某些生物特征识别方式,用户可能会提出不同的样本间比较,例如食指中的任意几个指纹间匹配、左右眼匹配等。为了提高单一测试对象的不同样本的独立性,测评可能允许注册一个以上的手指、手或者不同的眼睛到不同的身份。但是,同一用户的不同样本的比对不等同于不同用户间样本的比对,并且不能够算作假冒攻击。

示例:

同一个人提取的不同的手指指纹将拥有相同数量的指纹嵴,比不同人的指纹更容易匹配上。


7.6.1.4 对于具有模板更新功能的系统,在进行假冒者攻击时应关闭这个功能。若无法关闭,则假冒攻击实验应在所有真实匹配实验完成后进行。


7.6.2 在线攻击


7.6.2.1 在线假冒攻击应让每个用户随机选择一定数量的非自身的模板进行无影响的尝试,而不应事先指定一个被攻击的集合。不同用户之间应进行独立的随机选择。

注:从不同生物特征数据库选择样本进行攻击测试是不推荐的。


7.6.2.2 假冒者攻击的得分应被记录下来,连同攻击者和被攻击者的真实身份。由于假冒攻击可能被当作真实验证,要小心结果可能会被记录在正确识别集合中。


7.6.2.3 假冒攻击应和真实验证在同样条件下进行。

进行的是一个真实还是假冒的实验。


7.6.2.4 如果测试对象事先知道这是一次假冒攻击测试,那么他的行为可能会有所改变,特别是基于行为的生物特征识别系统。因此,为了避免刻意或者潜意识的行为变化,测试对象不应被事先告知当前进行的是一个真实还是假冒的实验。


7.6.2.5 假冒攻击测试可能在所有测试对象注册完之前进行。虽然这种情况第一个注册的用户可能会被进行更多次数的攻击,但这对最终错误率的计算不会带来偏差,就像通常情况下的测试对象没有考虑他们生物特征质量的注册一样。


7.6.2.6 对于注册模板不独立的系统,参与攻击测试的测试对象不应被注册到数据库中(除了闭集测试的情况)。可以选择一个测试对象子集进行攻击测试,这个子集内的测试对象均不注册到系统中。


7.6.3 离线攻击


7.6.3.1 概述


7.6.3.1.1 离线攻击比对同在线比对具有相同的基本方式:

——随机挑选两个非同一用户的模板与特征进行比对;

——对每个真实的样本,随机挑选若干非自身的注册模板来进行比较(对每个样本独立选择与其对比的模板);

——做一个完整的交叉比对,每一个样本都同所有非自身的模板进行比对。


7.6.3.1.2 离线匹配得分应从供应商提供的同系统中相同的SDK中获得。一个模块从注册样本中创建模板,另一个模块从测试样本中提取特征。这两个模块的代码有时是相同的。第三个模块将返回任何一个样本和模板比对的得分。如果时间允许,应进行完整的交叉比对。这些假冒攻击不是统计独立的,但这种方法在统计上是无偏的,并且比随机选择假冒者更有效(参见参考文献[24])。


7.6.3.1.3 许多生物特征识别系统在一次尝试中采集和处理一系列的样本,例如:

a) 采集一段时间的样本,选取最佳匹配的样本;

b) 不断采集样本,直到匹配上或者系统超时;

c) 不断采集样本,直到获得质量足够的样本或系统超时;

d) 当第一个样本的匹配得分非常接近决策门限时,再采集第二个样本。

在这种情况下,使用单一的样本进行假冒攻击测试是不合适的。在第一种情况中,保存的样本将是最佳匹配的样本。然而,在假冒攻击中都是基于与模板最匹配的样本。要确认单一的交叉匹配是否合适,以下两个问题是应解决的:

——保存的样本是否取决于模板的比对?

——如果是,这是否对匹配得分的产生有重大影响?

如果这两项问题的答案都是肯定的,那么整个样本序列都应被保存下来以进行离线分析,或者假冒攻击的得分应在线产生。


7.6.3.2 模板不独立情况下的离线假冒攻击


7.6.3.2.1 对于模板不独立的系统,无偏的假冒攻击得分可以用“杰克刀”方法来创建注册模板。“杰克刀”方法是去掉一个测试对象后注册整个测试集。被去掉的测试对象用来做未知的攻击者,将他与所有注册模板进行比对。这种注册过程将在每个测试对象上进行重复,这样就可以得到完整的假冒攻击得分集。


7.6.3.2.2 测试人员可以随机的被分为是攻击者和注册者。离线注册不受攻击测试对象的影响,从而离线测试的错误匹配得分不受注册的测试对象的影响。这种使用数据的方式,比杰克刀的方式使用效率要低。


7.6.3.3 使用模板间比对的离线假冒攻击


注册模板间的交叉匹配有时可能会提供假冒攻击的得分。这可能是有用的,例如:在操作评价中,识别过程中的样本或特征可能没有被保存。每个注册的模板都可以和除了自己以外的其余模板进行比对。通常情况下不使用模板间的交叉比对的方法,除非:

a) 注册与验证要求相同的用户输入(例如:都是用单一特征);

b) 注册与验证使用相同的算法来提取特征和编码;

c) 注册与验证使用相同的质量控制模块。

如果这些要求得不到满足,模板间的交叉匹配可能会导致偏差的假冒得分估计。参考文献[22]不管模板是从最佳的注册模板中选择的还是随机选择的,都会存在这种偏差。目前没有办法能纠正这种偏差。


7.7 非注册用户的辨识识别


7.7.1 估计错误接受率和辨识错误率都要求测试对象没有注册在系统中。这些测试对象不应是注册失败的测试对象。


7.7.2 所有的辨识尝试都应被记录下来,连同对象的标识符,由此产生候选辨识名单列表和匹配得分(如果有)。对注册用户和非注册用户的辨识应在同样的条件下进行。


7.7.3 辨识识别可以收集不同规模的测试集的记录来确认识别性能与数据库大小的关系。


7.7.4 如果注册和注册用户被辨识的样本都被保存,那么非注册对象的辨识可以使用“杰克刀”方法离线的进行。去掉一个测试对象后注册整个测试集,然后系统试图在余下的测试集中辨识该被删去的测试对象。对每个测试对象来说,该过程重复执行。考虑到存储数据的充分性,在7.6.3.1.3中的假冒者比对也适用于这种情况。


8 分析


8.1 概述


8.1.1 如果测试人员是目标人群的代表,每个测试对象都有一个注册模板,并参与相同数量和模态的识别,则可以得到错误率的最佳估计。


8.1.2 当测试人员不是目标人群的代表(例如,对于已知问题的过度代表),或者,所处理的测试对象在总体中不具有代表性(例如,检测对象所处理的事物高于或低于平均值),此时,加权可以适当纠正这种失衡。当通过加权比重来估计错误率的时候,这种加权的方法应记录下来。当对一类用户进行加权时,这类观测对象的错误率也宜予以记录。

示例:

如果测试对象验证或辨识时尝试的次数不同,每个测试对象的误差应是测试对象所尝试数目的反比加权,因为,一个简单的比例可能导致系统的重要用户的估计错误率或需要重复试验验证的估计错误率的偏差。


8.1.3 对个体、一类人群(如男人和女人的不同误差率)、或是一类生物特征识别案例(如不同手指的误差率)的误差率的度量是很有用的。

a) 这类个体指标可能有内在的相互关系,可以据此来判断这类人群是具有更好或更差的代表性;

b) 当最佳估计是加权比重的时候,一个人或一类人的指标是必要的;

c) 个体错误率的范围可以用来评价性能的不确定性。


8.1.4 如果把注册、采集和验证的误差用原因或用注册、采集、分配过程的每个具体步骤来分类,那么,我们就有可能测定不同原因或处理的不同阶段所导致的错误率。


8.2 基本性能指标


8.2.1 注册失败率


8.2.1.1 注册失败率是系统不能完成注册过程的人数的比例。注册失败率应包括:

——无法提取所需生物特征的;

——注册时,样本质量不合格的;

——在测试注册是否适用的过程中,产生的新的模板不能做出可靠的匹配结果的。

注1:可为不同的生物特征识别案例(如不同的手指)确定注册失败率,比如,大拇指和食指的不同注册失败率。

注2:在技术评价中,分析是基于已有的测试数据库,因此,获取图像样本是没有问题的。虽然如此,仍然会注册失败。例如,图像样本的质量太差而不足以提取待征。


8.2.1.2 应用在预定的注册策略下不能注册的测试人群的比例或加权比例来估计目标人群的注册失败率。


8.2.1.3 注册失败率取决于注册策略管理下的注册样本的质量门限、确定注册是否适用的决定门限、以及一次注册过程所允许的进行注册的次数和时间。注册策略应同已观察到的注册失败率一起被表述。

注:注册时更严格的质量门限会增加注册失败率,但会提高匹配程度。

8.2.1.4 在系统里不能注册的用户不能计入注册失败率或匹配误差率。


8.2.2 采集失败率


8.2.2.1 采集失败率是指系统未能获取或找到一个质量足够的样本而无法进行验证的比例。采集失败率包括:

——不能提取或获取生物识别特征(例如,暂时的生病或受伤导致的无法提取);

——分离或提取特征失败;

——或者所分离或提取出的特征不满足质量控制的门限。

注1:不同的处理过程都需要确定一个采集失败率。例如,计算出没有一次能够提取出质量足以进行匹配的样本的那个过程的比例。

注2:在技术评价中,分析基于已有的测试数据库,因此,不存在样本采集失败。文献中的采集失败率已知。还有一个采集的问题,比如,当样本的质量不足以提取出特征的情况应计入采集失败率中。


8.2.2.2 采集失败率应用已记录的真实的情况的比例或加权比例来评价。这些情况包括由于提交失败(无法捕捉图像)、无法分割、无法提取特征或不能保证质量导致的无法完成。


8.2.2.3 采集失败率取决于样本质量门限,同时也取决于样本提取的时间和样本提交的次数限制。这些设定应同已观察到的采集失败率一起被记录。

注:为样本的获取限定更严格的质量门限会增加采集失败率,但是会提高匹配性能。


8.2.2.4 在未能获得原始样本或者原始样本未达到质量门限的时候,系统不进行比对计算从而不会产生匹配得分。这类采集失败率不应计入错误匹配和错误不匹配的错误率中,但是应计入错误接受率和错误拒绝率中。采集失败率、误匹配率以及误不匹配率应在相同的质量准入门限下计算。


8.2.3 错误不匹配率


8.2.3.1 错误不匹配率是指从真实用户采集到的样本被错误的没有匹配到相同的用户模板上。


8.2.3.2 错误不匹配率是指已被传给比对子系统的,生成的相似度得分低于匹配决策门限的真实用户的比例或加权比例。


8.2.3.3 错误不匹配率取决于匹配决策门限,并且应与已观察到的相同门限下的误匹配率(或在ROC或DET曲线中绘制的相同门限下的错误匹配率)一起被引用。


8.2.3.4 在测试对象经过多重测试的评价中,说明误匹配率是如何随着测试人员变化的是非常有必要的。这可以通过对每个测试对象进行的每一次尝试的每一个误差计算来完成,然后绘制一个直方图来表现每一个测试对象的误差率。当测试对象的误差率越来越高时,调整测试对象。


8.2.4 错误匹配率


8.2.4.1 错误匹配率是零效欺骗企图中,被错误判为匹配到非自身的识别尝试的比例。

注:在零效欺骗的测试中,测试个体提交了他们自身的生物识别特征,他们成功通过他们自身模板的验证。在动态签名识别的情况下,例如,仿冒者在零效欺骗企图中会签署他们自己的名字,在这类情况下,仿冒者可以轻易的模仿所需的生物识别特征。然而,超出了本部分的范畴。


8.2.4.2 错误匹配率是指记录的已上传给比对子系统的仿冒者所占的比例或加权比例,相似度得分大于或等于匹配度决策门限。


8.2.4.3 错误匹配率取决于匹配决策门限,并且应与已观察到的相同门限下的错误不匹配率(或在ROC或DET曲线中绘制的相同门限下的错误不匹配率)一起破引用。


8.2.4.4 如果测试对象已经被注册,而且他们的注册模板影响到了系统中其他注册用户的模板;或比对算法使用这种(或其他)注册模板进行了自更改。因此,使用这种测试对象模板的仿冒攻击就会被误认,这种情况不宜计入错误匹配率。7.6.2.6和7.6.3.2有关于如何处理这些情况的详细描述。

示例:

以所有注册用户的图像来创建基本图像数据库人脸识别系统,以及语音识别系统是两个模板所依附的系统的实例。


8.2.4.5 相同的生物识别特征(例如,一个人的食指和中指,或同卵双胞胎)的得分分布是不同的。 因此,源于相似的遗传基因的比对不应计入错误匹配率。


8.2.4.6 在每一个测试对象或每一个测试模板都有几个仿冒者的情况下进行评价,明确错误匹配率是如何随着测试对象和已存储的模板的变化而变化是非常有用的。这包括对每个测试对象和每个测试模板的冒名顶替者计算。可以绘制直方图来表现每个测试对象的错误率,以及测试对象是如何随着错误率的增长而增长的。

示例:

一个人脸识别系统会认可一种“黄金脸”,而错误匹配主要发生在这种脸上。描述测试对象方差的柱状圈可以很好的表现这个漏洞。


8.3 验证系统的性能指标


8.3.1 概述


在重复测试的测试过程中,对于误接受率和误拒绝率的初次估计可以从DET曲线中得出。然而,这类估计没有考虑到连续测试之间的相关性以及相同用户的比较关系,不是十分准确。因此,这类性能指标可以在测试识别过程中用特定策略的多重尝试直接得到。


8.3.2 错误拒绝率


8.3.2.1 错误拒绝率是指在真实的验证过程中被错误的否定的比例。验证过程是由一次或多次真实尝试所组成,尝试次数依赖于系统策略。


8.3.2.2 错误拒绝率用记录在案的、被错误的否定的真实验证事件的比例或加权比例来估量。它包括因采集失败率以及匹配误差而被拒绝的那些验证过程。

示例:

如果由一次独立的验证、一次采集失败或一次错误不匹配组成的验证过程导致了一个错误拒绝,那么错误拒绝率由公式(1)表示:

   FRR=FTA +FNMR× (1- FTA)  …………(1)

式中:

FRR ——误拒绝率;

FTA ——采集失败率;

FNMR ——错误不匹配率。


8.3.2.3 错误拒绝率依赖于决策策略、比对门限和质量控制门限。错误拒绝率的报告应包含上述细节及在相同的评价体系中估算的错误接受率(或在ROC或DET曲线中绘制的相同门限下的错误接受率)。


8.3.3 错误接受率


8.3.3.1 错误接受率是指在无影响冒充攻击尝试中被错误接受的比例。 验证过程是由一次或多次冒充攻击尝试所组成,尝试次数依赖于系统策略。


8.3.3.2 错误接受率用被错误接受的、记录在案的、 未经真实测试的虚假测试的比例或加权比例来估量。

示例:

一个验证过程由一次独立的测试组成,那么,一个错误接受需要所提交的样本符合质量标准(即不存在采集失败)并且存在错误匹配。那么,误匹配率用公式(2)来表示:

    FAR= FMR× (1-FTA)     ..................... (2)

式中:

FAR ——误接受率;

FMR ——错误匹配率;

FTA ——采集失败率。


8.3.3.3 错误接受率取决于系统策略、匹配决策门限、样本质量控制门限。错误接受率应同以下具体信息一起被记录:在相同的评价体系中估算的错误拒绝率(或是在ROC或DET曲线中绘制的相同标准下的错误拒绝率)。


8.3.4 广义的错误拒绝率和广义的错误接受率


不同系统有不同的注册失败率,所以,有必要使用广义的错误拒绝和广义的错误接受率使注册、样本提取和匹配误差联系起来。这种一般化的方法应用于估计中。一个典型的一般化运用是,将注册失败当做是:注册完成,但是注册之后的模式识别过程失败。这种广义的运用方法应被提倡。

示例1:

考虑这样一种方案评价,其中未注册的对象没有进一步参与,且验证过程仅进行一次独立的测试。在这种情况下,

如果:

a) 两个测试对象都进行了仿冒尝试,并且仿冒者已经进行了注册;

b) 提交的样本并没有被质量控制体系拒绝(即没有采集失败发生);

c) 存在错误匹配。

广义上的错误拒绝发生在:

a) 测试对象没有注册;

b) 不能提取提交的样本;

c) 存在错误匹配。

广义上的错误接受和错误拒绝率将由公式(3)、(4)给出:

GFAR=FMR×(1- FTA) ×(1-FTE)^ 2          …………(3)

GFRR = FTE+(1- FTE) ×FTA+(1-FTE) ×(1- FTA) ×FNMR   .............(4)

式中:

GFAR ——广义误接受率;

GFRR ——广义误拒绝率;

FMR ——错误匹配率;

FNMR ——错误不匹配率;

FTE ——注册失败率;

FTA ——采集失败率。

示例2:

在技术评价中,注册模板源于不会引起注册失败的图库图像,测试特征源于不会造成采集失败的图像。在这种情况下,广义的错误接受率和错误拒绝率应由公式(5)、(6)给出:

GFAR=FMR× (1-FTA) ×(1- FTE) ………...(5)

GFRR=FTE+ (1- FTE) ×FTA+ (1- FTE) ×(1- FTA)x FNMR  …………..(6)


8.4  (开集)验证系统性能指标


8.4.1 概述


闭集系统的识别率的一阶估计和开集系统的错误拒绝率和错误接受率都可以从DET曲线上得到。然而这种估计不能包含非独立用户的比对,因而可能非常不准确。因此至少在小型数据库,在辨识识别应直接获得性能指标。对于大规模识别系统(超出测试规模)性能的评价可能需要通过识别率的一阶估计和小规模数据库识别性能来推测。推测的模型应包含在报告中。

示例:

使用单一生物特征样本并在样本数为N的数据集上测试的(识别系统的)识别能力可以用公式(7)、(8)来近似,使用该公式推测性能需要提供在测试数据上观测到的识别错误率。

 FNIR= FTA+(10FTA)X×FNMR    ………(7)

 FPIR= (1-FTA) ×(1- (1-FMR)^ N)  ……..(8)

式中:

FPIR ——错误接受辨识率;

FNIR ——错误拒绝辨识率;

FTA ——采集失败率;

FMR ——错误匹配率;

FNMR ——错误不匹配率;

N     ——数据库中样本的数量。

注:在识别系统使用预选的情况下,使用预选算法的性能指标可扩展上述模型的性能。


8.4.2 辨识率


排名为r的(正确)识别率是指系统中注册的用户在(多次)辨识测试中能被识别(为第r名)的比率,此时返回的候选列表中应包含此用户的正确标识符。当使用单个识别排名时,宜指明所用数据集的规模。

示例:

“对于包含250个样本的数据库,首选识别率为95%”。


8.4.3 错误拒绝辨识和错误接受辨识率


8.4.3.1 错误拒绝辨识率是指注册用户的辨识过程返回的候选列表不包括用户正确的身份。


8.4.3.2 错误接受辨识率是指非注册用户的辨识过程返回了非空的候选列表。

注:错误拒绝辨识率随系统中注册人数的增加而增大。


8.4.3.3 开集辨识的性能可以用特定数据库上的ROC曲线或者DET曲线进行表示。

注:对于包含1个样本的数据库,这些曲线显示(1对1)的验证性能。


8.4.3.4 开集系统的全面的辨识性能,随着注册数据库的增长,固定的错误接受率对应的识别率随之下降,因此宜调整其门限以适应注册数据库的增长。作为另一种选择,可以用一组DET曲线来刻画错误接受率和错误拒绝率之间的关系,附录E中的图E.1给出了一个示例。


8.5 闭集辨识


8.5.1 首选r识别率是指正确识别结果位于返回的前r名比对结果中的概率。单点识别排名的报告宜与数据库大小直接相关,宜同数据库大小一同报告。

示例:

"对于包含250个样本的数据库,首选识别率为95%”。


8.5.2 衡量闭集系统辨识性能的主要指标是累积匹配特性曲线,该曲线绘制了(正确)识别率关于排名r的函数关系。

注:附录F提供了有效生成CMC曲线中各数据点的推荐算法。

8.5.3 CMC 曲线的一个缺点是其依赖于注册数据库的大小。正因为如此,不同数据库大小对应的首选识别率值的曲线宜包含在结果报告中。


8.6 DET/ROC曲线


8.6.1 DET曲线应通过只有一个注册模板和一个测试样本的真实尝试和仿冒攻击的匹配得分得出。每次尝试产生一个比对得分。真实尝试和仿冒攻击的得分将会分别进行排序,孤立点应进行检测以确定是否是标记错误。在测试中去除任何记录都是不宜的。

注:仿冒攻击和真正尝试的得分直方图可以用来指导,但是不能用来绘制DET曲线。因此,我们对于如何从识别数据中创建直方图不提出任何建议,虽然这是一个受到持续关注的研究领域。由此产生的直方图将直接为真实尝试和冒充攻击提供最佳估计。


8.6.2 DET(ROC)曲线是由一系列真实尝试和仿冒攻击的比对得分得到的。得分在一定范围内发生变化。DET(ROC)曲线是参数化绘制的。每个点(x,y)对应一个不同门限的错误匹配率和错误不匹配率,错误匹配率是指仿冒攻击的相似得分超过门限参数的比例,错误不匹配率是指真实尝试的相似得分低于门限参数的比例。曲线的坐标应是错误匹配率为横轴,错误不匹配率为纵轴。坐标可以是对数形式的。

注:附录F提供了从DET/ROC曲线中有效获取数据点的推荐处理方法。


8.6.3 DET(ROC) 曲线也可以用来表示错误接受率和错误拒绝率之间的关系。错误接受率和错误拒绝率是依赖于错误匹配率、错误不匹配率和采集失败率的。同时还依赖于系统策略。一次识别过程中的多次尝试将产生一个新的比对得分。类似的,DET(ROC)曲线也可以表示辨识错误率。


8.7 估计的不确定性


8.7.1 对性能的估计受到系统误差和随机误差的影响。随机误差包括引起测试对象和样本变化的自然因素。系统误差包括测试程序中的偏差。例如,测试对象无法完全代表测试人群的某些类型。性能的误差是无法避免的,因此应有一个对评价结果不确定性的估计。附录B提供了一些估计不确定性的方法。


8.7.2 随机误差产生的不确定性不会随测试规模的增加而增加,其影响通常可以从数据采集的过程估计出来。某些系统误差的影响也有可能估计出来。例如,检查测试对象代表性的不足可以通过整体错误率与测试对象集合错误率之间的关系确定。可以在不同的测试环境条件下重复检查性能试验以确定测量误差是否对环境的微小变化敏感。


9 记录的保存


9.1 为了评定一项评价是否依照本部分的规定来操作的,记录的保存应与ISO/IEC 17025中的要求保持一致。记录应包括:

a) 原始的样本图像(如果采集到除非数据量太大而不可能实现);

b) 如果没有采集样本图像;那么,每个注册时所用的模板,以及进行进一步验证识别所需的特征数据应被存储(如果这可能);

c) 匹配得分以及生物特征识别系统所输出的决策结果;

d) 用于推导工作指标和不确定性的方法;

e) 负责注册管理以及负责管理识别过程的数据采集的人员的身份;

f) 以及创建查询索引的充分信息。


9.2 应保留充分的信息以用于:

a) 使评价能够在尽可能接近原始状态的情况下重现;

b) 如果可能,尽量确认是哪些因素导致结果的不确定性。


9.3 记录(无论是手写的还是电子版的)都应很好地保护,以避免原始测试数据的丢失或改变。如果必须要做出更改,那么原始数据的备份以及所做的更改的记录都应被保存。


9.4 在发生错误的地方(例如,数据采集过程中),记录中应同时记录下原始的错误数据以及修正值。


10 编制性能报告结果


10.1 基本指标


以下基本性能指标对于任何生物特征识别系统都是适用的,当可以提供时,应给予报告:

a) 注册失败率;

b) 采集失败率;

c) 错误匹配率以及相应的错误不匹配率(最好在临界值的范围之内);

d) 在合适的地方,用直方图来表现个体误差率是如何随着测试对象的变化而变化的。


10.2 验证系统指标


验证系统的性能应用如下的指标来报告:

a) 若有可用的注册失败率,则用注册失败率;若没有,则应提供一个注册失败率未知的声明;

b) 若有可用的采集失败率,则用采集失败率;若没有,则应提供一个采集失败率未知的声明;

c) 错误通过率和错误拒绝率(最好在临界值的范围之内);

d) 在适当的地方,使用广义错误接受率和相应的广义错误接受率(最好在临界值的范围之内);

e) 在适当的地方,用柱状图来表现不同测试对象之间的个体错误率。


10.3 识别系统指标


开集的识别系统性能应用如下指标来表述:

a) 若有可用的注册失败率,则用注册失败率;若没有,则应提供一个注册失败率未知的声明;

b) 若有可用的采集失败率,则用采集失败率;若没有,则应提供一个采集失败率未知的声明;

c) 假阳性识别误差率及相应的假阴性识别误差率(最好在临界值的范围之内);

d) 数据库的大小;

e) 用几个DET或ROC曲线可以表现相应不同大小的模板数据库、返回不同数量的标识符;

f) 在适当的地方,用柱状图来表现不同测试对象之间的个体误差率。


10.4 闭集验证系统指标


闭集识别系统性能应用如下指标来表述:

a) 累积匹配特征(CMC)曲线;

b) 数据库大小。


10.5 记录测试细节


性能报表(如DET曲线、注册失败率和采集失败率、以及分区渗透和误差率)取决于测试类型、应用程序和抽样人群。为了让这些标准能被正确的解释,宜提供如下的附加信息:

a) 测试系统的细节。该细节应包括比生物特征识别元件更多的内容,比如,用户界面的该因素就会影响性能;

b) 评价的类型:

——技术评价:所用文献的详细资料;

——方案评价:测试方案的细节;

——操作评价:实际操作的细节;

c) 评价的规格:

——测试对象的数量;

——手指、手、眼睛等测试对象用以注册的(生物特征识别元件的)数量;

——测试对象进行访问的次数;

——对每次访问时每个测试对象(或测试对象的手指等)所进行的处理的次数;

d) 全体测试人员的人口统计数据(年龄、性别等);

e) 测试环境的详细信息;

f) 注册与对注册进行处理之间的时间间隔;

g) 数据搜集过程中所使用的质量门限及决策门限;

h) 潜在的影响性能的因素是如何被控制的详细信息(参见附录C);

i) 测试步骤的详细信息,例如,判断注册失败的准则。

j) 全体测试人员在使用系统时的训练水平、精通程度、以及适应能力的详细信息;

k) 反常案例以及未分析的数据的详细信息;

l) 评价的不确定性以及评价方法;

m) 宜解释一下对本部分的指导方针的一些背离。有时,有必要对一个方面进行折中以实现另一个方面。例如,在指纹采集设备上使用手指的顺序随机化可能导致用户混淆以及更多的标示错误。


10.6 结果的图形表示


10.6.1 概述


10.6.1.1 在决策门限范围内的生物特征识别系统的匹配和/或决策性能宜通过绘制ROC或DET曲线来表现。在ROC和DET曲线中,两者只取其一,而不是一起用。


10.6.1.2 轴的数值范围(最小值和最大值的标记,对数刻度的使用)的选择宜清楚的表现所要表现的结果,并且宜在同一份报告的不同曲线图之间取得一致。若必须通过改变缩放比例来保证清楚明晰,则应对变化刻度上的数字有所记录。


10.6.1.3 为了对比不同系统的性能,决策错误DET或ROC(错误拒绝率和与之相对的错误接受率)表现了匹配误差、提取图像的误差、直方图区间划分带来的影响以及注册误差的共同影响,它比表现基础误差率的曲线图更加有用。


10.6.2 DET曲线


10.6.2.1 DET曲线(见图3)可以用来绘出匹配误差率(错误不匹配率与错误匹配率相比)、决策误差率(错误拒绝率与错误接受率相比),以及开放系统的识别误差率(错误拒绝识别率与错误接受识别率相比)。


10.6.2.2 可使用对数轴使得图像得以更清楚明晰的展开。在对数轴下,观察到的N次试验中零误差的误差率应被标记为0值,以5/N或更小的值为最小刻度。

注:这些DET曲线与图4中的ROC曲线是相同数据绘制的。

5.jpg

图3 DET曲线示例集


10.6.3 ROC曲线


10.6.3.1 ROC曲线(见图4)是一个传统的总结诊断、检测以及模式匹配系统性能的表现方法。ROC曲线是门限独立的,允许不同的系统在相类似的条件下进行比较。ROC曲线可以用来表现比对算法的性能,终端到终端的验证系统的性能,以及开集辨识系统的性能。


10.6.3.2 横轴用对数坐标能够更好的观察系统性能。在对数图的情况下,零错误的n次试验中观察到的错误率可能被绘制为0.5/N,或者如果试验次数更多则会被绘制成更小比例的数值。


10.6.4 CMC曲线


对于闭集辨识软件来说,运行结果常常配以累积的匹配特征曲线(见图5)。这些曲线图被看做一个k函数,一个测试对象的标识符包括在前面返回的k标识符中。

注:这些ROC曲线与图3中的DET曲线是相同数据绘制的。

1.jpg

图4 ROC曲线示例集

注:本示例摘自FRVT2002[11,图10]。图示表明了在37437个人脸模板的数据库中的识别率。

2.jpg

图5 CMC曲线示例集


附录A

(资料性附录)

评价类型的差异


评价类型的差异见表A.1。

表A.1 评价类型差异表



技术

方案

操作性

测试对象

生物特征识别组件(匹配或者提取算法)

生物特征识别系统

生物特征识别系统

真实值

已知,受采集数据误差和数据库里的交叉数据的影响

已知,受采集数据误差和测试者不主动配合的影响

依赖可利用的控制和设备去获取数据来源于真正的用户还是假冒者

测试管理者所控的用户行为

测试期间不适用;当记录生物特征识别数据时可认为可控,否则认为不可控

可控(除非用户行为是一个独立的变量)

不可控

用户是否能有实时的结果反馈

结果的可重复性

可重复(测试数据库固定)

准可重复(若测试方案和人数可控)

不可重复

物理环境的控制

当记录生物特征识别数据时可认为可控,否则认为不可控

可控和/或可记录

不可控,理论上可记录

用户交互记录

测试期间不适用;或可在记录生物特征数据时记录

记录

注册时记录;或者验证/识别时可记录

典型结果记录

生物特征识别组件或组件的多版本间的对比(例如,匹配或者提取算法,或传感器),确定关键的性能因素

生物特征识别系统的对比,确定关键的性能因素;测量模拟性能

在一个可操作性的环境里测量性能

典型的指标

大部分性能指标(不是端对端的吞吐量);大部分的错误率;有利于对某些难以将测试用户进行集中的大规模身份识别系统的性能进行测试

可预测的端对端的吞吐量,FMR,FNMR,FTA,FTE,FAR,FRR

端对端的吞吐量;可靠地测试FAR和FRR之间的可靠性需要一些真实值的知识

约束条件

恰当的测试数据库,例如可通过一个或多个传感器采集,其中采集到的数据的身份是已知或未知

可操作性,设备系统

可操作性,设备系统;典型的只有确定率是已知的

测试人数

记录的数据

现场

现场

注:虽然在某些情况下表格中内容存在例外情况,这表格中内容是大体、基本的特性和差别。


附录B

(资料性附录)

测试规模和不确定性


B.1 置信区间和假设测试规模为独立同分布的比较


B.1.1 规则3


规则3(参见参考文献[22,28-30])提出这样一个问题“当输入N个独立同分布的对照时,通过统计方法可以得到的最低错误率是多少?"。此值为错误率p,表示在N次尝试中0错误的概率,比如随便举一个例子,概率为5%。对于95%的置信水平,有:

p≈3/N

示例:

对于300个独立样本进行测试,反馈的结果是零错误,这意味着在置信度为95%下的错误率是1%或者更低。

注1:对于90%的置信水平有p≈2/N;

注2:如果每一个真实的用户使用一个不同的用户,以及没有两个攻击者使用相同的用户,那么独立同分布(i.i.d.)的假设是有可能达到的。对于n个测试对象,这会存在n个真实的用户和n/2个攻击者。但是,所有提交的样本特征和已经注册的模块之间的交叉比较会产生更多的攻击,另外,根据参考文献[24],尽管攻击间存在依赖性,这种比较会得到更低的不确定性。因此,或许除了在可操作性的测试中,为了得到i.i.d.的假设而将数据限定为每用户一个攻击是没有多大的好处的。


B.1.2 规则30


规则30表明的是为了得到90%的置信度(检错率在观察错误率的±30%之内),至少会得到30个错误(参见参考文献[13])。所以,举一个例子,如果在3 000个独立真实的测试中存在30个错误不匹配的差错,那么我们可以说检错率在0.7%至1.3%的置信度为90%。这条规则是直接从独立的二项分布得到的,同时也可以应用于考虑性能的评价期望。

示例:

假如性能目标是1%的错误不匹配率和0.1%的错误匹配率。这条规则意味着有3000个真实用户测试和30000个攻击。但值得注意的是,关键假设是这些测试之间是独立的。这意味着需要3000个真实用户和3000个攻击者。一个可供选择的做法就是重复利用测试集中一个更少的集合去对独立性进行折中,同时也对统计显著性的损失做准备。

注:这个规则可以推广到不同比例的误差范围。比如为了得到90%的置信度,检错率在观察值的±10%以内,且至少需要260个错误。而为了得到同样的置信度,检错率在观察值的±50%以内,且至少需要11个错误。


B.1.3 为了支持要求的错误率所要进行的比较次数


B.1.3.1 为了支持要求的错误率所要进行的统计上独立的比较次数如图B.1所示。举一个例子,在N次独立攻击比较中没有错误匹配可以支持具有95%置信度、要求为3/N的错误匹配率,而30个错误则可以支持41/N的要求。

注:当要求的错误率为1%或者更低时,这张图片提供了一个合理的近似。

4.jpg

图B.1 在N次独立比较中接收(或拒绝)一个要求的错误率的95%的置信区间


B.1.3.2 为了保证统计的独立性,在所有比较中的攻击者和攻击模板需要不一致,而且需要均匀随机地从目标总体抽取。因为N次独立的比较需要2N个志愿者,所以这种做法不太可能有效地得到低的错误匹配率。


B.1.3.3 尽管可供选择的交叉比较方法不能保证统计的独立性,但是这种方法是经常采用的。假设有p个人,对于其中每一对(无序)的交叉对比可能表现出一个低的相关度。与完全独立相比,在相同的比较次数下,支持一个错误匹配率的置信水平会由于这些p(p-1)/2的错误匹配尝试的相关性而降低。


B.2 将性能测量的方差看作一个测试规模的函数


当测试集增大时,估计的方差将会减少,但是缩放比例因子取决于方差的来源。

a) 若每一个测试的目标进行多次真实测试,则观察到的错误不匹配率的方差由以下原因形成:

——测试目标的方差,与1/(测试目标的数目)成比例;

——真实用户的冗余方差,与1/(真实用户的数目)成比例;

b) 若测试目标进行多次尝试,以及攻击测试是以离线的方式生成的,且生成方式是通过真实用户与从一个不同的用户集合中注册的模板进行交叉比较,则观察到的错误匹配率的方差由以下原因形成:

——测试目标的方差,与 1/(攻击测试目标的数目)成比例;

——攻击模板的方差,与 1/(攻击模板的数目)成比例;

——真实用户样本的方差(除了测试目标的方差),与1/(真实用户测试的数目)成比例;

——已生成的攻击测试的冗余方差,与1/(攻击测试的数目)成比例。

注: Doddington et al参考文献[16]阐述生物特征识别系统能够有“山羊”、“羔羊”和“狼”。“山羊”拥有一个显著高

于总人数的个人错误不匹配率,“羔羊”是那些导致不成比例的错误匹配共享的模板,而“狼”是那些尤其在给定错误匹配的情况下成功的样本。这意味着,对于错误不匹配率,测试目标方差的组成部分是非零的;另外,对于错误匹配率,测试目标和模板的组成部分也为非零。


B.3 性能测量的方差估计


B.3.1 概述


本章提供公式和方法去获取性能测量的方差。由于方差是对不确定性的一种统计估计,所以可以将其应用于置信区间的估计。这些方程的适用性依赖于以下关于匹配错误分布的假设:

——测试人员应足以代表目标人群。若测试人员是从目标人群里随机抽样的话,则可以满足这条假设。

——不同目标的测试之间是独立的。但这不总是真的。用户的行为会因看到其他人的做法而受到影响。但是,与一个测试目标的多次尝试间相关性相比,测试目标之间的相关性是很小的;

——测试与阈值之间是独立的。否则,当使用数据采集时的阈值时,误差率的估计会出现偏差;

——错误率在人群中各不相同。不同的目标可能有不同的个人错误不匹配率,以及对不同的目标可能有不同的个人错误匹配率;

——观察错误的个数不会更少。如果没有发生观察错误,那么方程的结果是零方差,但是此时规则3会起作用。


B.3.2 观察错误不匹配误差的方差


B.3.2.1 错误不匹配率——每个测试目标单次尝试


在这种情况下,当每一个测试目标进行单次尝试时:

1..jpg        

式中:

n ——已注册的测试目标的数目;

ai ——第i个测试目标的错误不匹配的次数;

p^ ——观察的错误不匹配率;

V^(P^) ——观察的错误不匹配率的估计方差。

注1:这种估计方法的推导可以参看很多的统计教科书(例如参考文献[31])。

注2:这些方程有时会错误地应用于目标进行了多次尝试的情况。将测试的次数取代测试目标的个数n是不合理的。

注3:当每一个测试目标进行一次尝试时 ,这些方程可以近似地估计出错误-获取和错误-注册率的方差。


B.3.2.2 错误不匹配率——每一个测试目标多次尝试


在这种情况下,当每一个目标进行相同数目的测试时,近似估计可由下列方程得到(参见参考文献[31]):

       2..jpg

式中:

n ——注册的测试目标个数;

m ——每一个测试目标测试的次数;

ai ——第i个测试目标的错误不匹配的次数;

p^ ——观察的错误不匹配率;

V^(P^) ——观察的错误不匹配率的估计方差。

注1:当m=1时,该估计与方程(B.1)、(B.2)叙述的一样。

注2:当每一个测试目标进行多次尝试时,这些方程可以近似地估计出错误-获取率的方差。


B.3.2.3 错误不匹配率——每一个测试目标进行不同次数的尝试


有时候会出现这样一种情况:每一个目标测试的次数不一样。一些目标可能没有完成固定的测试次数。获取失败也会导致错误不匹配率的计算过程丢失测试次数。假设测试的次数和个人成功率的差异不存在相关性,那么近似的计算公式如下:

3...jpg              

式中:

n ——注册的测试目标个数;

mi ——第i个测试目标测试的次数;

ai ——第i个测试目标的错误不匹配的次数;

p ——观察的错误不匹配率;

V^(P^) ——观察的错误不匹配率的估计方差。

注1:本方差的方程(参见参考文献[31])是一个可用的近似形式。

注2:当所有的mi相等时,得到与方程(B.3)和(B.4)一致的形式。

注3:有时候不同的成功率会修正测试目标不同频率的使用:例如,被拒绝的测试目标可能会有额外的识别测试;或者由于习惯的作用,那些经常使用系统的人会得到更好的性能。在这种情况下,方程(B.5)和(B.6)就不能直接使用,结果导致由一小部分经常使用但非典型的用户支配了整个系统。


B.3.3 观察错误匹配率的方差


在这种情况下,当构造出交叉比较的全集之后,观察错误匹配率的方差可由式(B.7)、(B.8)获得:

4..jpg

式中:

n ——测试目标个数(或是注册模板的数目);

m ——每个测试目标的样本数;

bij ——第i个测试目标错误地匹配到第j个测试目标的样本数(且bii=0);

ci ——对第i个测试目标得到模板错误匹配的次数C..jpg

di ——用第i个测试目标错误匹配的个数D..jpg

q ——观察的错误匹配率;

Vq) ——估计的错误率的方差。

注:估计方程的第二行(如果m=1)是由Bickel在参考文献[24]中有关于此式的实验证明。


B.4 置信区间的估计

B.4.1 一般性


B.4.1.1 通过显著的大规模试验,中心极限定理(参见参考文献[31])表明观察错误率近似为正态分布。但是,由于我们处理的比例接近于0%,且在总人群里估计的方差不是归一化的,所以除非测试目标的数量非常大,否则总会存在一些偏差的。


B.4.1.2 在正态性的假设下,在观察错误率上的100(1-α)%置信区间可由式(B.9)得到:

5...jpg

式中:

z() ——标准正态累积分布的反函数。例如,在均值为0的方差为1的标准正态曲线下从-∞到z(x)的面积为x。对于95%的置信区间,z(0.975)的值为1.96;

α ——置信区间不包括真实错误率的概率;

p ——表示观察错误率;

Vq)——估计的错误率的方差。


B.4.1.3 应用上面方程的时候,观察错误率的置信区间经常会包含负值——但负的错误率是不可能的。这是由于观察错误率的分布是非正态的。在这种情况下,非参数的方法,例如:bootstrap可以用来估计置信区间(参见参考文献[32-34])。


B.4.2 利用bootstrap方法估计方差以及置信区间


B.4.2.1 Bootstrap 这种估计方法不需要假设观察错误率的分布以及试验之间的依赖性。分布以及依赖性能够从数据本身推断出来。利用从原始数据中有放回的采用,可以构建bootstrap样本,此时就可以从这些样本估计出错误率。如果构建大量的这样的bootstrap样本,那么就能得到估计器的经验分布。通过这种方式,就能估计出置信区间和不确定性。


B.4.2.2 下面以错误匹配率的估计阐述整个过程,假设我们有 n个测试目标,每个测试目标与剩余的n-1个测试目标进行m次匹配测试。如果x(v,a,t)定义的是测试目标v和模板t的第a次匹配测试。估计错误匹配率的数据集X包含了一共mn(n-1)次交叉比较X={x(v,a,t) |t≠v∈{1,...,n},a∈{1,...,m}}。每一个从X得到的bootstrap样本的构建必须从原始数据中复制结构和依赖性。这个过程如下:

a) 有放回地采样n个测试目标:v(1),…,v(n)。(有放回地采样意味着链表里可能多次出现同一个元素);

b) 对于每一个采样v(i)抽出放回n-1个非自身的模板:t(i,1),…,t(i,n-1);

c) 对于每一个采样v(i)抽出放回m次尝试目标的测试:a(i,1),…,a(i,m);

d) 那么bootstrap抽样的过程为:

Y={(v(i),t(i,j), α(i,k) |i∈{1,…,n},j∈{1,…,n-1}α∈{1,…,m}}

利用这种方法生成很多bootstrap样本,然后对于每一个样本生成一个错误率。错误匹配率的bootstrap值的分布可以近似作为观察错误匹配率的分布。


B.4.2.3 Bootstrap值允许直接用来构建100(1-α)%的置信区间:选择L(下限)和U(上限)使得只有a/2的bootstrap值小于L以及a/2的bootstrap值大于U。对于95%的置信区间,至少需要1000个bootstrap样本,而对于99%的置信区间,至少需要5000个bootstrap样本。


B.4.3 子集采样


B.4.3.1 一种更深入推断观察错误率的区间就是将收集的测试数据分成不相交的用户子集,然后对每一个子集生成DET曲线。例如:

FRVT2002(参见参考文献[11])评价就是采用这种方法去生成误差椭圆。


B.4.3.2 取得误差椭圆的基本做法如下:

a) 利用T个测试目标收集性能结果;

b) 将测试人群分为M(例如M=10)份不相交的子集,大小为N=T/M;

c) 计算每一个子集的DET曲线;

d) 假设一个阈值t;

1) 对于每一个子集i=1,….,M,在阈值上寻找xi=(FRMi,FNMRi);

2) 计算样本均值m=sum(xi)/M和样本方差Σ=sum(xi-m)(xi-m)T/(M-1);

3) m和Σ/squrt(M)提供了在阈值t中对FRM和FNMR观察的估计分布(在全体测试人群中测试)。假设在正态分布的情况下,这些信息可以用来决定m周围的95%的置信椭圆;

e) 在下一个阈值t中重复这个过程。


附录C

(资料性附录)

影响性能的因素


C.1 一般性


本附录列出一些已经被发现会影响性能的用户和环境的因素。在数据采集评价阶段需要对这些因素加以控制和记录。

在评价的计划阶段,对于每一个潜在的影响因素,应考虑以下几点:

a ) 什么样的控制(如果有)需要去降低(确定)对性能的作用? 这可能要对所有的测试者设定固定的条件,或者利用随机性使得对用户和测试的作用是均匀分布的;

b) 什么假设和原因致使无法控制一个特别的因素? 举一个例子,一个影响测试场景的因素可能会以同样的方式影响目标程序。在另外一种情况,初步调查显示对于有关设备,一个特别的因素的影响可能会达到最小;

c) 什么信息需要在评价过程中记录:

1) 能够有助于确定任何一个因素的显著性(或不显著性);或者

2) 能够识别导致过度偏差的结果的特殊情况。

如果一个问题与可识别参与者子集有关,那么它可能比较子集和剩余参与者的错误率图形。

这样的一览表可以包含在报告的结果里。

这些列出的因素通常只对生物特征识别方式的一个子集产生影响。例如,光照变化只会影响基于光学的系统(例如:基于人脸、指纹、视网膜、虹膜或者静脉成像的系统),而声学噪声会影响基于声音的系统(例如:语音识别系统)。一些生物特征识别装置会以控制任何问题的影响的方式运作。同样地,这份列表中可能不全包括所有的观测问题。

当问题出现的时候,这种影响经常会导致样本的质量降低,从而使错误注册、错误获取或错误不匹配率上升。但是,也会存在噪声或有问题的图像允许虚假的匹配,从而导致错误匹配率的上升。


C.2 因素列表


C.2.1 人口统计


需要考虑的人口因素包括:

——年龄,小孩(变化快)和老人(可测量的微小的创伤等生物特征需要更长时间愈合)更倾向会比普通人有更多的错误不匹配和错误获取次数;

——种族,性别和职业。 某个人的生物特征质量(对于某个特定的生物特征识别系统)可能依赖于他的种族,性别以及职业。如果使用不同种族或性别的混合,针对某个特定的目标人群的生物特征识别系统可能会表现得差一些。


C.2.2 应用


需要考虑的应用因素包括:

——注册和识别的间隔时间。模板年龄变化导致的用户的生物模式和呈现的方法的改变,会由于注册模板的创立和验证识别之间的时间间隔而发生变化。对于某些形式,注册之后间隔很短时间去测试,此时用户的外貌和行为改变得很少,这时候的识别性能会远远好于那些数周或数月后去识别的性能;

——当日的时间。行为和生理学特性会在1天中改变;

——用户熟悉程度。如果用户对系统很熟悉,他们更会站在正确的位置,和了解那些恰当的动作去抵消许多出现的识别问题;

——用户目的。用户会由于生物特征识别事务的重要性而表现得不一样。


C.2.3 用户生理学


需要考虑的生理因素:

——胡须:能够影响人脸识别系统;

——秃顶;

——残疾,疾病;例如:

•     截肢:不能够使用基于手或手指的系统;

•     关节炎:难于使用基于手或手指的系统;

•     失明:不能够使用基于虹膜或视网膜的系统,同时也会影响其他系统中位置的选择;

•     青肿:对脸部或手部图像有暂时的影响;

•     感冒或喉炎:对声音有暂时的影响;

•     拐杖:难于平稳的站着;

•     肿胀:对脸部或手部图像有暂时的影响;

•     轮椅:对于那些坐轮椅的用户系统构架的高度可能不对;

•     医疗条件的变化:比正常的年龄影响还快速;

——睫毛:长的睫毛可能会使可见的虹膜区域更少;

——手指甲:影响手和手指的定位;

——指纹条件,例如:

•     深度和脊间距;

•     干燥、龟裂或潮湿;

——高度:非常高或非常矮(或者是那些坐轮椅的)用户可能难于找到正确的位置;

——虹膜颜色强度;

——肤色:能够影响系统正确定位人脸或虹膜。


C.2.4 用户行为


需要考虑的用户行为因素包括:

——方言、口音和母语:能够影响语音系统;

——表达、语调和音量:影响语音系统;

——脸部表情;

——语言字母表:影响手写签名系统;

——念错或误读短语:将影响语音系统;

——运动:某些系统要求目标静止,而某些系统反而因目标的运动工作得更好;

——姿势和定位,例如:

•     面对镜头,侧面和有角度;

•     头部倾斜:影响人脸和虹膜系统;

•     位移和旋转:影响指纹和手系统;

•     距离摄像头的距离;

•     太高、太低、太偏左或太偏右;

——先前活动,例如:

•     喘气:将会影响语音系统;

•     流汗:将会影响指纹系统;

•     游泳:手指皱缩将会影响指纹系统;

——压力、紧张、情绪或分心。


C.2.5 用户的外貌


需要考虑的用户外貌因素包括:

——绷带或胶布:可以改变或掩盖部分的手、脸或指纹;

——着装:

•     帽子、围巾和耳环:能够影响基于人脸的系统;

•     袖:能够阻碍基于手的系统;

•     鞋跟高度:明显地改变了用户的高度;

•     裤子、衬衣和鞋子:影响步态的识别;

——隐形眼镜:有模式的隐形眼镜会影响虹膜的识别;

——化妆品:将会暂时地影响人脸的外貌;

——眼镜,太阳眼镜:能够部分遮挡人脸或虹膜;

——假指甲:能够改变基于手或手指系统的定位;

——发型和颜色:将会暂时地改变人脸的外观;

——戒指;

——纹身。


C. 2.6 环境的影响


需要考虑的环境影响因素包括:

——背景:

•     颜色、杂乱、含有人脸或阴影:能够影响人脸检测系统的性能;

•     噪声和其他声音:能够改变基于语音系统的信号记录,也能够影响用户听清指示的能力;

——光照水平、方向或反射:可能影响基于摄像头的系统;

——天气:

•     温度和湿度:比如影响指纹的干燥或潮湿程度,也会影响静脉和热图像的可见度;

•     下雨或下雪:湿头发将会影响人脸的外观。


C.2.7 传感器和硬件


需要考虑的传感器和硬件因素包括:

——污迹,冗余的印刷:

•     摄像机镜头;

•     压盘;

——焦距;

——传感器质量:麦克风的质量(语音系统)和摄像机的质量(图像系统);

——传感器的变化:

•     相同传感器的不同实例可能表现出轻微不同的差别。不同型号或不同类型的传感器的差别更大。

——传感器的磨损;

——传感器的替换;

——传输通道:传输通道能够在信号上添加噪声。不同的测试间添加的噪声不一样。例如,用于电话的路由和网络可能会不一样,而且质量可能依赖于负载。


C.2.8 用户界面


需要考虑的用户界面包括:

——反馈:性能能够依赖于用户的反馈。例如,他们是否能看到提交的指纹,从而使他们改变指纹的表观去获取一个质量更好的生物特征识别样本?

——指示;

——监督者:由于监督者的差异和变化,在注册、用户训练和用户测试的过程会存在差异。


C.3 报告示例


C.3.1 手指位置


观察:扫描器上的指导者似乎能将手指放在算法允许的偏差之内。

控制:无。

记录:不适用。


C.3.2 光照


观察:由于日夜的变化光照也会发生变化,比如会导致注册和识别的问题。

控制:在室内做实验,排除自然光而用恒定的光照。

记录:不适用。

观察:散射光会导致虹膜的反光。

控制:修改单元,使得传感器抵御外来光源。

记录:不适用。


C.3.3 眼镜


观察:在人脸识别系统X上用戴眼镜的人注册被发现是不可能的。

控制:当人们使用这个系统时,可以要求他们将眼镜去掉。

记录:记录带眼镜的人数,所以可以将此数据包含在错误注册率的图表中。


C.3.4 压盘上的污垢


观察:在压盘上累积的油会降低指纹系统的性能。

控制:定时清理系统(说明清洁时间表)。

记录:系统清理的时刻。


C.3.5 天气


观察:潮湿的手指会导致注册或识别的问题。

控制:假设典型情况是没有天气条件的存在。

记录:试验时温度和湿度。


附录D

(资料性附录)

预选


D. 1 预选算法性能


D.1.1 识别系统的全部测试需要评价在用的任何一个预选算法。这些算法的目的在于减少识别的候选模板的数目。输入一个样本,应用分区(binning)或不分区(bin-less)初选技术可以预先从整个模板数据库里选出一个子集来,然后输入的样本就只需要与初选的子集进行对比即可。


D.1.2 分区,或者有时候称为“排他分类法”,是一种初选方法。这种方法事先将模板数据库分若干个子集,然后将输入样本同样的隔开,此时它只需和同一个子集里的模板进行比较即可。除了分区处理,还有被称为不分区(bin-less)的初选技术,例如“连续分类”(参见参考文献[35-39])。


D.1.3 但是从整个模板集合进行预选过程会导致预选误差。当一个注册的模板不在候选的初选子集里,而这个模板又和输入样本拥有同一个用户同样的生物特征时,此时就会产生一个初选误差。(例如:在分区处理中,当一个注册的模板和一个后来的拥有同样一个人相同生物特征的样本被分在不同的非对应划分时,就会产生错误。)


D.1.4 初选算法的性能应按以下方式报告:

a) 初选错误率,输入样本相应的注册模板不在将和输入样本比较的初选子集里的真实测试比例;

b) 呈现率,需要搜索的数据库比例(例如:将整个数据库大小所划分的预选子集的平均大小)平均超过所有真实的测试。


D.1.5 可以利用离线测试所收集到的资料得到第二个普及和初选错误率。对于资料里的每一个真实测试样本:利用提供的算法在所有的注册模板中运行初选算法;记录初选的候选数目;计算初选误差(初选候选子集里不包含所要进行测试的目标)。初选错误率等于所有的初选错误次数除以测试人数。呈现率等于在全部真实测试样本中的平均预处理候选数目除以注册的样本数。


D.1.6 经常地,预处理算法会有数个可调节的参数。一般地,预处理子集的平均大小越小(或者在分区处理算法里数据库的划分越多),呈现率就会越低,但预选错误出现的概率就越大。这些相互竞争的参数可以用来描述预选错误对呈现率的曲线。


附录E

(资料性附录)

将识别性能看作是数据库大小的函数


图E.1是在公开的数据集上一个人脸识别系统的DET曲线的例子。每一条轨迹与一个特定人数N相关。虽然错误正样本识别错误率会随着1-(1-FMR)∧N(对小的FMR可近似认为N×FMR,即与N是线性关系)增长,但这个模型是假设样本间是独立的。这里展示的DET曲线完全是由经验得到的,在这种情况下,这个模型看起来是对的。那些轨迹形成了在某个固定FMR阈值上做识别的难处的强大表现。

3.jpg

图E.1 DET曲线例子

图E.1显示了将错误-负样本识别-错误率看作是对注册人数为1、4、16、62、260、1111和3000时的错误-正样本识别-错误率的函数。N=1,即在库里要识别的个数为1,退化为鉴定的情况。


附录F

(资料性附录)

生成ROC、DET以及CMC曲线算法


F.1 生成ROC和DET曲线算法


一种高效地生成DET或ROC曲线上的点的算法建议如下:

a) 对真实相似值升序排序:s1<s2<s3<…<sk

b) 对每一个真实相似值统计其出现的频率:g1,g2,g3,…,gk;

c) 统计落在每一个区间(-∞,s1),[s1,s2),[s2,s3),…,[sk,∞)攻击得分的数目;

d) 依次对每一个真实相似值(sj)进行处理;

1) 统计大于等于sj的攻击得分的数目:h..jpg

2) 除以总体的攻击数目,那么此值可看作是给定这个相似得分阈值下的错误匹配率;

3) 统计小于sj的真实得分的数目:g..jpg

4) 除以真实测试的数目,那么此值可看作是给定这个相似得分阈值下的错误不匹配率。


F.2 生成CMC曲线算法


一种高效地生成数据点的过程描述如下(假设每人一模板)。

a) 确定每一次尝试的识别等级如下:

1)对这次尝试查找其真实相似值;

2) 对这次尝试统计其真实相似值的数目(对非自身模板和自身模板):

i) 大于真实得分值:x;

ii) 等于这个真实得分值:y;

3) 如果(y=1),那么此测试有识别等级(x+1),否则,其识别等级定义的范围为(x+1),…,(x+y);

b) 对于每一个等级r(感兴趣的):

1)统计小于或等于等级r的数目。那些有等级范围的测试是通过在等级r或更小的这些值的得分上统计的。

2) 通过除以总的测试次数将给出在注册数据库里最相似的r个模板中,对于某个测试样本真实模板/模型出现的概率。这个对于r的概率最终显示在CMC图形上。


参 考 文 献


[1] Fejfar,A.and Myers,J.W.The testing of three automatic identity verification techniques.Proceedings of the International Conference on Crime Countermeasures,Oxford,July 1977.

[2] Davies,D.W.and Price,W.L.Security for computer networks,Wiley,1984.(Sections 7.10&7.11 review several performance evaluations)

[3] Holmes,J.P.,Wright,L.J.,and Maxwell,R.L.A performance evaluation of biometric identification devices.Sandia report SAND91-0276,June 1991.

[4] Bouchier,F.,Ahens,J.S.,and Wells,G.Laboratory evaluation of the iriscan prototype biometric identifier. Sandia report SAND96-1033,April 1996.

[5] Rauss,P.,Phillips,P.J.Hamilton,M.K.,and DePersia,A.T.FERET(face recognition technology)

[6] Roethenbaugh,G.ICSA biometric certification.Biometirc industry product buyer’s guide,ICSA,1998,27-31.

[7] BIOIS:Comparative study of biometric identification systems:Public final report.Study by Fraunhofer-IGD for BSI(German Information Security Agency) and BKA(German Federal Police Agency),May 2000.

[8] Blackburn,D.,Bone,M.,and Phillips,J.Facial recognition vendor test 2000.February 2001.

[9] Mansfield,A.J.,Kelly,G.P.,Chandler,D.J.,and Kane,J. Biometric product testing final report. Report for CESG and Biometrics Working Group,March 2001.

[10] Maio,D.,Maltoni,D.,Cappelli,R.,Wayman,J.L.,and Jain,A.K.FVC2000:Fingerprint verification competition. IEEE Trans. PAMI,2002,24(3),402-412.

[11] Phillips,P.J.,Grother,P.,Michaels,R.J.,Blackburn,D.M.,Tabassi,E.,and Bone,M. Face recognition vendor test 2002 Evaluation Report. NIST IR 6965,2003.

[12] Mansfield,A.J. and Wayman,J.L.(2002)Best Practices in Testing and Reporting Performance of Biometric Devices,Version 2.01,NPL Report CMSC 14/02.

[13] Doddington,G.R.,Przybocki,M.A. Martin,A.F.,and Reynolds,D.A. The NIST speaker recognition evaluation: Overview methodology ,systems,results,perspective. Speech Communication,2000,31(2-3),225-254.

[14] Phillips,P.J.,Martin,A.,Wilson,C.L.,and Przybocki,M. An introduction to evaluating biometric systems,Computer,(Feb 2000),56-63.

[15] Hennessy,J. L. and Patterson,D.A. Computer Architecture: A Quantitative Approach,2nd ed. ,Morgan Kaufman, San Francisco, 1996.

[16] Doddington,G. ,Liggett, W. ,Martin,A. ,Przybocki, M. ,and Reynolds, D. Sheep, goats,lambs and wolves: A statistical analysis of speaker performance in the NIST 1998 speaker recognition evaluation. ICSLP ,November 1998.

[17] Wayman,J. L. Multi-finger penetration rate and ROC variability for automatic fingerprint identification systems. National Biometric Test Center, May 1999.

[18] ISO/IEC 19794-4 Information technology- Biometric data interchange formats- Part 4: Finger image data

[19] ISO/IEC 19794-5 Information technology- Biometric data interchange formats- Part 5: Face image data

[20] ISO/IEC 19794-6 Information technology-Biometric data interchange formats-Part 6: Iris image data

[21] Cox, R. Three new speech coders from the ITU cover a range of applications. IEEE Communications Magazine, 1997, 35( 9-special issue on standardization and characterization of G729 ),40-47.

[22] Wayman,J. L. Technical testing and evaluation of biometric identification devices. Biometrics: Personal identification in networked society, edited by A. K. Jain, et al. ,Kluwer,2000,345-368.

[23] Godfrey, J.,Graff, D., and Martin, A. Public databases for speaker recognition and verification. ESCA Workshop on Automatic Speaker Recognition, Identification and Verification , 1994.

[24] Wayman, J. L. Confidence interval and test size estimation for biometric data. Proceedings of the IEEE AutolD Conference, 1999.

[25] Newman, H. H. , Freeman, F. N. , and Holzinger,J. K. Twins, Chicago University Press,1937. Results on fingerprint similarity between identical twins cited in [31 , table 10. 20. 1].

[26] Daugman, J. and Downing, C. Epigenetic randomness, complexity, and singularity of human iris patterns. Proceeding of the Royal Society Biological Sciences, 2001,268,1737-1740.

[27] Jain, A. K. , Prabhakar, S. , and Pankanti, S. On the similarity of identical twin fingerprints. Pattern Recognition, 2002,35(11),2653-2663.

[28] Louis, T. A. Confidence intervals for a binomial parameter after observing no successes. The American Statistician, 1981 ,35(3) , 154.

[29] Hanley, J. A. and Lippman-Hand, A. If nothing goes wrong, is everything all right? Interpreting zero numerators. Journal of the American Medical Association, 1983,249 (13),1743-1745.

[30] Jovanovic, B. D. and Levy, P. S. A look at the rule of three. The American Statistician,1997,51(2), 137-139.

[31] Snedecor,G.W. and Cochran, W.G. Statistical methods, lowa State University Press, 1967(Sixth edition).

[32] Efron, B. and Tibshirani, R. J. An introduction to the bootstrap,Chapman and Hall,1997.

[33] Diegert, K.V. Estimating performance characteristics of biometric identifiers. Proceedings of Biometrics Consortium Conference, San Jose, CA, June 1996.

[34] Bolle, R.M. , Ratha, N. , K. and Pankanti, S. Confidence interval measurement in performance analysis of biometric systems using the bootstrap. Proceedings of Workshop on Empirical Evaluation Methods in Computer Vision , Hawaii, December 2001.

[35] Maltoni, D.et al, Handbook of Fingerprint Recognition , Springer, 2003.

[36] Lumini, A, Maio, D. and Maltoni, D. ,Continuous versus exclusive classfication for fingerprint retrieval, Pattern Recognition Letters, Vol. 18, No. 10, pp. 1027-1034 , 1997.

[37] Uchida, K. , Kamei, T. , Mizoguchi, M. and Temma, T. , Fingerprint Card Classification with Statistical Feature Integration, Proceedings of the 14th International Conference on Pattern Recognition, Brisbane, Australia, pp. 1833-1839, August 1998.

「38] Cappelli, R. and Maio,D. ,The State of the Art in Fingerprint Classification,in Ratha N. and Bolle R. (Eds. ) Automatic Fingerprint Recognition,Chapter 9,pp. 183-205.

[39] Kamei, T. Fingerprint Pre-selection Using Eigenfeatures for a Large-Size Database,in Ratha N. and Bolle,R.(Eds.). Automatic Fingerprint Recognition,Chapter 13.pp.263-282.





分享到:
                                         让身份验证更加便捷安心!
联系我们
地址:福建省厦门市思明区软件园二期望海路41号405单元
邮箱:contactus@toyonway.com
 工作时间
周一至周日 :7:30-24:00
 联系方式
客服热线:400-xx6-8888
 工作时间
周一至周日 :7:30-24:00
 联系方式
客服热线:400-xx6-8888
总机:0592-5056576
产品咨询:159-6026-0605
 工作时间
周一至周日 :7:30-23:30
 联系方式
客服热线:400-xx6-8888
邮箱:abc@qq.com