信息技术 生物特征识别性能测试和报告 第3部分:模态特定性测试 GB/T29268.3-2012/ISO/IEC TR19795-3:2007前言
GB/T 29268《信息技术 生物特征识别性能测试和报告》分为下列7个部分: ——第1部分:原则与框架; ——第2部分:技术与场景评价的测试方法; ——第3部分:模态特定性测试; ——第4部分:互操作性性能测试; ——第5部分:生物特征识别门禁系统的场景评价; ——第6部分:性能评价的测试方法; ——第7部分:卡上生物特征识别比对算法测试。 本部分为GB/T 29268的第3部分。 本部分按照GB/T 1.1-2009给出的规则起草。 本部分使用翻译法等同采用国际标准ISO/IEC TR 19795-3:2007《信息技术 生物特征识别性能测试和报告 第3部分:模态特定性测试》。 请注意本文件的某些内容可能涉及专利。本文件的发布机构不承担识别这些专利的责任。 本部分由全国信息技术标准化技术委员会(SAC/TC 28)提出并归口。
引言
在生物特征识别性能测试和报告中,需要格外注意每种模态(比如指纹、人脸、虹膜等)的特征差异。这些差异要求在GB/T 29268.1《信息技术 生物特征识别性能测试和报告 第1部分:原则与框架》的一般测试方法中描述。 由于存在多种模态差异,每个被指定模态需要采用特定的测试方法和报告方法,以确保生物识别技术专家与非专业人士均可进行合理准确的测试。 影响评价方法的特征涉及以下内容: ——用户特征,包括假冒者的定义; ——生物模态在实际使用中的限制。 假冒者的特征 对于假冒者的定义需要考虑两个因素:(1)来自同一个体的多种生物特征数据;(2)基于行为模态的假冒者尝试,比如语音或签名。 对于同一个体而言,多种生物特征数据可以被收集到,比如手指(同一个体的十指指纹),虹膜(同一个体的两幅虹膜图像),为此允许或禁止使用这些数据作为假冒者尝试的规则需要清楚的定义。 对基于行为的模态,针对假冒者尝试的错误匹配率(FMR)或错误接受率(FAR)的测试结果可能会受到假冒者是否(或者在什么程度上)去尝试模仿授权用户行为的影响。例如,在FMR或FAR的测试中,假冒者得到授权用户的签名后去手工描摹所得到的测试结果和假冒者仅仅看着签名并模仿所得到的测试结果会有明显的差异。对于这些模态,需要定义假冒尝试程度的标准。 特定应用中的模态特征 一般来说,几乎所有生物特征识别模态均可用于用户授权认证,但是某些模态也可以有多种不同类型的应用,例如人脸识别就广泛应用于各种监控领域。我们能预期用户在一种情况配合,而不能预期在另一种情况也配合。为此,测试方法需要根据模态在实际应用中的方式变化。 这些限制因素可分为两类: ——与用户相关的因素,例如面部表情、眼镜佩戴影响人脸轮廓,隐形眼镜影响虹膜等; ——与外部环境相关且不受算法或系统控制的因素,例如人脸光照变化或语音中的背景噪音。 这些因素本身影响生物特征识别的性能,同时因素的类型与数量在每一种模态中不尽相同。在测试和报告中,这些模态差异需给予考虑。此外,需引入鲁棒性测试,以便评价相关技术对各种环境因素的敏感性或鲁棒性,以免这些因素的变化严重影响观测性能。 本部分主要描述方法中那些与具体模态相关的特征的差异。本部分的目的是,对于一种具体的生物特征识别模态,提出并定义一些方法以确定如何设计并实现一种技术性能测试。
信息技术 生物特征识别性能测试和报告 第3部分:模态特定性测试
1 范围
GB/T 29268的本部分规定了描述表现模态间特定差异的通用方法。本部分的目的则是针对具体的生物特征模态,提出并定义各种方法,以实现特定的技术性能测试。 本部分适用于与模态相关的特定方法。规定了在生物特征识别性能测试和报告中,需要充分考虑如指纹、人脸、虹膜等各种模态间的特性差异。
2 规范性引用文件
下列文件对于本文件的应用是必不可少的。凡是注日期的引用文件,仅注日期的版本适用于本文件。凡是不注日期的引用文件,其最新版本(包括所有的修改单)适用于本文件。
3 术语和定义
GB/T 29268.1界定的以及下列术语和定义适用于本文件。 3.1 影响因子 influencing factors 对性能有影响的因素。 3.2 鲁棒性测试 robustness test 评价特定影响因子对生物特征识别性能影响程度的测试。 3.3 主动伪造尝试 active forgery attempt 假冒者试图通过仿制生物特征样本或故意修改自己的生物特征与其他个体存储的模板进行比对。 3.4 伪造类型 forgery type 假冒者采用的伪造方法类型。 3.5 伪造等级 forgery level 伪造尝试的难度等级。
4 缩略语
ROC 接受者操作特性(Receiver Operating Characteristic) CMR 累积匹配率(Cumulative Matching Rate) CMC 累积匹配特性(Cumulative Match Characteristic) FNMR 错误不匹配率(False Non-Match Rate) FMR 错误匹配率(False Match Rate)
5 模态特定性测试设计
5.1 开发流程 在设计性能评价测试时,宜使用下列测试计划顺序以确保与模态相关的主要因素得以充分考虑,见图1: 步骤1:识别和分析可能影响性能的“影响因子”; 步骤2:考虑并制定测试对象的方案; 步骤3:考虑并制定数据收集的方案; 步骤4:考虑并制定假冒者事务的方案; 步骤5:考虑并制定性能报告的方案。 图1 开发流程 上述顺序假定模态和测试类型(即技术/场景/操作)均已定义。
5.2 可能影响性能的模态特定性因素(步骤1) 很多因素对生物特征识别性能具有极大影响,因此,在测试设计开发流程中,首先宜确定并分析影响性能的因素(影响因子)。如果这些影响因子不同,相同的生物特征识别设备可能产生不同的测试结果,控制、记录并报告影响因子,是执行可重复性性能测试和预测操作性能不可或缺的部分。 在测试过程设计时,对于一个给定的模态,测试设计者宜查明并分析影响测试性能的模态特定性因素,包括那些未知的基于假设影响性能的因素。 在确定影响因子中,设计者宜至少考虑下列事项(可参见GB/T 29268.1-2012的附录C): a) 生物特征识别传感器的质量与特性; b) 数据收集个体的生理及行为特征(基本的历史或人口数据): •常量:性别、种族、职业; •变量: ◆生理特征:年龄、体态或人体数据(身高、体重等)、肌骨异常; ◆习惯/社会因素:吸烟、发型、化妆、眼镜、服饰; c)适用于生物识别设备、传感器的环境因素:比如温度、湿度、光照类型、噪音、传感器位置; d)生物特征的临时改变; e)错误接收受主动伪造尝试的影响,特别是在行为模式中; f)数据收集和信号处理子系统在注册阶段和识别/认证阶段的差异。 本部分第6章将描述“鲁棒性测试”,评价c)中描述的环境因素对模态特定性测试的影响。
5.3 对测试对象的模态特定性方案(步骤2)
5.3.1 针对测试对象的方案 在测试设计开发流程的步骤2中,考虑并制定与测试对象相关的方案及要求。这些策略属于生物和行为特征的范畴。宜考虑的特定对象影响因素包含但不限于下列因素: ——历史或人口数据; ——体态或人体测量数据。 下面的各小节分别描述了各类型评价宜包含的测试对象分布。成员构成与评价类型的关系见表1。下面的各小节将分别提出各评价类型宜遵循的特定细节。 为确保特定对象影响因素的评价数据具有与所考虑人群(普通人群、目标用户等)相类似的分布,宜使用如参考文献[10]中的标准人体测量表,这是适合于估计特定对象的影响限度。对于变动的历史或人口数据,可以采用人口普查或其他数据统计方式。 在进行技术或操作测试时,对普通人群确保一个具有典型分布的一种方法是使用以下关于身材的两个数值:最少应有5%的女性,最多有95%的男性(假定女性的影响程度低于男性)这两个值宜予以报告以适合“普通人群”中的多数男性和女性。 场景测试的分布是比较复杂的,因为测试模拟现实世界的应用,而测试对象代表最终用户。 为确保特定对象影响因素代表最终或未来的应用用户,宜了解特定对象影响程度并将其提供给测试机构。如果该影响程度不可用,测试机构在评价时宜询查模拟环境中关于目标用户的这些影响范围。如果这些信息未提供或者不可用,人体测量表(参见参考文献[10])可为各种种族人群、年龄和职业的人群提供一个度量估计值,可以应用这些数值来进行测试。如果对象特定性影响因素是历史或人口数据,那么这个分布应该与实际情况的分布相似。 表1 测试对象组成与评价类型
5.3.2技术评价 在技术评价中,为保证那些影响性能表现的测试特定对象影响因子能够呈现典型性,测试数据的构成宜反映目标人群(某些情况下是普通人群)的构成。测试设计者制定如下方案和要求: a) 测试对象宜包括普通人群中能够反映对象特定性影响因子的个体; b) 所有反映测试对象特定影响因子的数据均宜记录和报告。 示例:站立式人脸识别应用中的身高因素。 1) 所有测试对象的身高比例分布宜与普通人群(例如5%女性,95%男性的人群)的身高比例分布相似。 2) 高度测量数据宜记录和报告,以确保测试对象由普通人群构成。 5.3.3 场景评价 在场景评价中,为保证那些影响性能的测试特定对象影响因子能够呈现典型性,人员构成宜反映目标用户群,测试设计者宜制定如下方案和要求: a) 测试对象宜包括普通人群中能够反映对象特定性影响因子的个体; b) 所有反映测试对象特定影响因子的数据均宜记录和报告。 示例:站立式人脸识别应用中的身高因素。 1) 所有测试对象的身高比例分布宜与真实场景中目标用户的身高比例分布相似。 2) 身高测量数据宜记录和报告,以确保测试对象与实际应用用户的身高分布相似。 5.3.4 操作评价 在操作评价中,因为人员由实际用户组成,人员的组成可能不在测试设计者的控制之下。除非客户端或设备供应商特别约定,实验设置的评价区域宜设计为容纳普通人口比例(例如5%女性,95%男性)。记录和报告测试对象特定性影响因子分布对确保测试结果的可重复性和充分性是非常重要的。测试设计者宜制定如下策略和要求: a) 测试对象宜包括普通人群中能够反映对象特定性影响因子的个体。 b) 所有反映测试对象特定影响因子的数据均宜记录和报告。 示例:在一个绝大多数都是女性的测试操作环境中,性别是一个影响因子。 1) 由于评价的性质,性别分布无法控制。 2) 为了测试的可重复性、普遍性和有效性,性别数据宜记录和报告,以便了解人员的代表程度。
5.4 与数据收集相关的模态特定性方案(步骤3)
5.4.1 与数据收集相关的方案 在测试设计开发流程的第3步中,数据收集需求宜给予考虑和确定。特定影响因子宜包括(但不限于)如下: ——生物传感器质量及特性; ——环境因素; ——生物特征的临时变化; ——生物特征传感器的影响; ——主动伪造对错误接受的影响(见5.5)。 方案可根据以下评价类型的不同而有所调整。 5.4.2 技术与场景评价 在技术与场景评价中,数据收集特定性的影响因子通常是可控制的。设计者宜制定数据收集特定性的影响因子方案。如果测试人员不能在指定方式下进行数据收集,设计者宜进一步要求记录并提交数据收集特定性的影响因子。 5.4.3 操作评价 在操作评价中,因为设备是由实际用户操作,数据收集特定性的影响因子是无法控制的。记录和报告有关数据收集特定性的影响因子的信息对确保测试结果是可重复的和充分的是十分重要的。测试设计者宜要求记录和报告数据收集特定性的影响因子。 5.4.4 多样例方案 5.4.4.1 概述 在某种模态下,可采集同一测试对象的多个样例,比如10个指纹、2个虹膜、2个以上的静脉和2个手形。连续行为模式如文本相关语音识别,可以从每个测试对象采集许多声纹。 对于某些模态,如指纹,从一个测试对象的不同区域采集的多个样例是具有相关性的。对于这种可能具有相关性的模态,不同样例是否可以用于本人或假冒者尝试的方案宜被定义。 5.4.4.2 示例:指纹 方案如下:(A-1,B-2)代表对象A的1手指与对象B的2手指进行比较,A-1-2代表对象A的1手指的第2枚指纹。 示例1:在确立FNMR的本人测试中,使用同一测试对象的10个手指作为独立的样本是允许的,如(A-1-1,A-1-2)与(A-2-1,A-2-2)。 示例2:在确立FMR的假冒者测试中,使用同一测试对象的不同手指是不允许的,如(A-1,A-2),因为对象A的1手指与2手指不视为独立的。 示例3:在确立FMR的假冒者测试中,可使用(A-1,B-1)与(A-1,B-2),以减少测试成本。 5.4.4.3 示例:语音与签名 在文本相关语音和签名等行为模式测试设计中,有必要考虑认证过程中如何使用文本信息,并且假冒者是否知悉这个文本信息。根据如下示例中的差异,数据收集和报告方案可能有所不同: 示例1:文本相关语音识别的技术评价 本人测试和假冒者测试中,话语都宜基于同一文本。评价中不宜使用含有不同话语的样本。假冒者试验宜记录和报告是否包含男性注册的数据被女性假冒者测试(反之亦然)的案例。 示例2:文本无关语音识别的技术评价 本人测试和假冒者测试中,话语可不基于同一文本。假冒者试验宜记录和报告是否包含男性注册的数据被女性假冒者测试(反之亦然)的案例。 示例3:文本提示语音识别的技术评价 本人测试和假冒者测试中,宜基于用于系统提示的同一文本。宜记录和报告提示文字是如何产生和控制的。假冒者试验宜记录和报告是否包含男性注册的数据被女性假冒者测试(反之亦然)的案例。
5.5 假冒者事务的模态特定性方案(步骤4)
5.5.1 假冒者事务方案 为确保如语音或签名等行为模态评价的准确性,有必要考虑假冒者的努力程度及等级,因为结果可能受到假冒者试图模仿另一个测试对象的行为的努力程度的影响。例如基于行为模态验证的操作性能受假冒者努力程度和假冒者类型的影响。假冒者的伪造尝试至少可以用四种类型描述,见表2。 表2 假冒者伪造尝试的等级
与其他伪造类型相比,随意伪造的FAR较低。在语音识别中,如果假冒者事先听过授权用户的语音,性能可能被影响;如果假冒者模仿授权用户的语音,性能可能进一步被影响;如果假冒者是同性别的兄弟姐妹、双胞胎、父母或子女的关系,错误接受的可能性会进一步提高。在步态识别案例中,如果假冒者有机会看到或实践模仿授权用户的行走方式,也会造成不同的结果。 对行为模态测试,为获得可靠的测试结果,有必要考虑假冒者的努力程度。在规划阶段,宜制订假冒数据收集的策略方案,这些数据收集的决策和方案都必须予以描述和报告。 在技术测试和场景测试中,随意伪造不宜作为测试假冒者尝试的根据;然而在操作测试中,如果假冒者试图模仿注册数据的方式与随意伪造是一致的,则允许随意伪造。因为测试结果很大程度上取决于伪造的类型和程度,报告中宜详细描述事务测试中使用的伪造数据的类型和程度。 5.5.2 示例:签名 在基于签名的认证测试中,考虑假冒者伪造程度的一种方法是使用伪造类型分类,见表3。 表3 签名伪造等级分类
在签名认证中,性能测试宜基于熟练的假冒者尝试。然而实践中,很难从大量假冒者中为每一个测试对象收集熟练的假冒者尝试,一个实际的解决办法是使用相同的字或词来收集每个测试对象的静态和动态的签名数据(如笔轨迹、笔倾角和笔压力等手写文字和笔迹动态特征)。采用这种办法收集的一对数据,如果来源于同一个测试对象可以用于本人尝试;如这对数据来源于不同测试对象,可用于假冒者尝试。根据其事前训练的程度,假冒者尝试可分类为简单、模仿和熟练伪造。宜使用多重签名,因为签名形状和设计对性能的影响非常大。 示例1:签名识别的技术评价 假冒者通常在某种程度上知晓签名内容,并且假冒者的伪造等级宜给予记录和报告。伪造等级见表2和表3。 示例2:签名识别的操作评价 假冒者应知晓用户的全名,因为大多数情况下签名是基于人名。 5.5.3 示例:语音 文本相关语音和文本提示语音,伪造等级亦应给予类似考虑。由于非随意伪造效果在语音识别验证中不是非常明显,仅使用简单伪造就可以构成假冒者尝试。 示例:语音识别的操作评价 发出声音者,无论是本人还是假冒者,都可以使用任何话语。在本人尝试测试中,不宜排除用户忘记或错误地使用话语内容的情况。
5.6 模态特定性报告方案(步骤5)
对于那些主要用于身份识别系统(如监控和自动指纹识别系统)或者其应用经常需要操作人员对结果核准的模态,CMR是一种用来评价系统性能的重要度量方式。 CMR可定义为识别系统成功地将同一个体的两个不同样本特征在某指定的相似性范围内排在同一个等级的概率。 CMR实际上可以看作识别结果中正确的选择被排在某一确定等级内的概率。 这种性能可用描绘CMR随等级变化的CMC曲线图来表示。如图2所示,表示某个感兴趣的人被识别在某给定等级内的概率的CMR值被画在纵坐标轴上,而等级被画在横坐标轴上。此外,基于在测试中使用的数据库规模计算的精度极限可以用来标明评价结果的可信性。如果CMR超过了这个精度极限,则其不再具有足够的统计可信性。一个识别系统相对于影响因子的稳定性可以通过鲁棒性测试得到的CMC变化来表示。CMC变化表明了CMR是如何随影响因子变化的。CMC变化可以用图3表示,图中等级值画在横坐标轴上,这些等级对应了参数在某一指定影响因子变化范围内的改变,而CMR则画在纵坐标轴上。 图2 CMC图
图3 CMC变化
6 模态特定性影响因子评价
6.1鲁棒性测试 本节描述的鲁棒性测试是可选的,鲁棒性测试评价影响因子对模态特定性测试的影响作用。例如在测试设计过程的步骤1中分析的生理、社会和环境影响因子。 一般而言,技术测试不考虑环境因素的影响。然而,有些模态,比如面部或语音可能会被更多的因素影响。为量化这些因素对性能的影响,可使用鲁棒性测试。鲁棒性测试宜同技术测试和场景测试一并进行。 鲁棒性测试可查出哪种因素影响性能,影响程度如何,即性能对各影响因子的改变的敏感程度。 例如在人脸识别系统中,影响人脸识别性能的因素有: ——对象的生理或行为特征: •常量因素:性别、种族、职业。 •变量因素: ◆生理特征:年龄、体态、肌骨异常; ◆习惯或社会因素:吸烟、发型、化妆、眼镜、服饰。 ——生物特征识别设备、传感器或应用的环境因素: •光源 ◆光源类型(标准白炽灯、荧光灯、卤钨灯、反光灯、发光二极管(LED)、阳光等); ◆光源位置变化(如上面、下面、左、右和后面)。 •传感器相对于用户的位置。 总之,通过引入特定场景,上述因素对性能的影响可降低。例如,如果移动指纹位置会降低指纹识别系统的性能,可要求用户将指纹放置在指定的位置进行认证,以提高身份认证性能。 然而,对于人脸识别系统,这种方法并不总是有效。因为人脸识别系统通常无需用户配合,比如监控系统。通过观察,测试者经常需要用到鲁棒性测试。例如,系统用户需要时,可以通过检测不同影响因子的变化导致的系统性能降低,以测试生物特征识别系统性能的稳定性。 生物特征识别系统的鲁棒性可通过ROC曲线描述,见图4。ROC描述了FNMR和FMR错误率随参数变化而变化的情况。 图4 ROC变化 6.2 示例:人脸 将所有环境因素都进行测试是不现实的。在测试前,管理者宜选择相关的环境因素及具体范围。同时,管理者宜描述数据具体的获取条件。与人脸识别系统相关的一些主要的影响因子,见表4。 表4 主要影响因子示例(与人脸识别系统相关)
6.3 其他示例:指纹、虹膜、静脉及语音 当管理员进行其他生物特征模态测试时,管理员应考虑其他因素的影响。指纹识别应考虑湿度、皮肤状况等的影响(见表5);虹膜识别应考虑光照条件、眼镜和眼疾等(见表6);静脉识别应考虑血管形状、手指方向及环境光照等的改变(见表7);语音识别的主要影响因子见表8。 表5 主要影响因子示例(与指纹识别系统相关)
表6 主要影响因子示例(与虹膜识别系统相关)
表7 主要影响因子示例(与静脉、血管识别系统相关)
表8 主要影响因子示例(与语音识别系统相关)
7 新模态的测试设计原则
当出现基于新模态的生物特征识别技术时,宜采取以下流程进行开发测试设计: 首先,按照前面介绍的方法找到影响因子。 然后,制定特定的测试流程。 对超出本部分介绍范围之外的影响因子,宜考虑处理的要求和方法。
参考文献
[1] ISO/IEC JTC1/SC37 N101 指纹识别系统准确度的评价方法(日本标准协会:TR X0053:2002) [2] ISO/IEC JTC1/SC37 N99 人脸识别系统准确度的评价方法(TR X0086:2003) [3] ISO/IEC JTC1/SC37 N102 虹膜识别系统准确度的评价方法(TR X0072:2002) [4] ISO/IEC JTC1/SC37 N555 血管识别系统准确度的评价方法(TR X0079:2003) [5] ISO/IEC JTC1/SC37 N554 语音识别系统准确度的评价方法(TR X0098:2004) [6] ISO/IEC JTC1/SC37 N553 签名识别系统准确度的评价方法(TR X0099:2004) [7] GB/T 29268.1-2012 信息技术 生物特征识别性能测试和报告 第1部分:原则与框架(ISO/IEC 19795-1:2006,IDT) [8] GB/T 29268.2-2012 信息技术 生物特征识别性能测试和报告 第2部分:技术与场景评价的测试方法(ISO/IEC 19795-2:2007,IDT) [9] GB/T 27025-2008 检验和校准实验室能力的通用要求(ISO/IEC 17025:2005,IDT) [10] Pheasant,S.,Bodyspace:Anthropometry,Ergonomics,and the Design of Work. 3rd ed,ed.C.Haslegrav |