论文学习WISDM-02:Cell Phone-Based Biometric Identification

论文原文:点击此处
论文下载:点击此处
论文被引:262
论文年份:2010

本文是WISDM (WIreless Sensor Data Mining) 无线传感数据挖掘实验室的第二篇论文。第二部分描述了数据收集以及将时间序列数据转换为示例的过程,值得借鉴。

Cell Phone-Based Biometric Identification

Jennifer R. Kwapisz, Gary M. Weiss, and Samuel A. Moore

Abstract

Mobile devices are becoming increasingly sophisticated and now incorporate many diverse and powerful sensors.The latest generation of smart phones is especially laden with sensors, including GPS sensors, vision sensors (cameras), audio sensors (microphones), light sensors, temperature sensors, direction sensors (compasses), and acceleration sensors. In this paper we describe and evaluate a system that uses phone-based acceleration sensors, called accelerometers, to identify and authenticate cell phone users. This form of behavioral biometric identification is possible because a person’s movements form a unique signature and this is reflected in the accelerometer data that they generate.To implement our system we collected accelerometer data from thirty-six users as they performed normal daily activities such as walking, jogging, and climbing stairs, aggregated this time series data into examples, and then applied standard classification algorithms to the resulting data to generate predictive models. These models either predict the identity of the individual from the set of thirty-six users, a task we call user identification, or predict whether (or not) the user is a specific user, a task we call user authentication. This work is notable because it enables identification and authentication to occur unobtrusively, without the users taking any extra actions—all they need to do is carry their cell phones. There are many uses for this work. For example, in environments where sharing may take place, our work can be used to automatically customize a mobile device to a user. It can also be used to provide device security by enabling usage for only specific users and can provide an extra level of identity verification.

移动设备正变得越来越复杂,现在集成了许多功能强大的传感器。最新一代的智能手机装有特殊的传感器,包括GPS传感器,视觉传感器(相机),音频传感器(麦克风),光传感器,温度传感器,方向传感器(罗盘)和加速度传感器。 在本文中,我们描述并评估了一个系统,该系统使用基于电话的加速度传感器(称为加速度计)来识别和认证手机用户。 这种形式的行为生物特征识别是可能的,因为一个人的动作形成了唯一的签名,并且这反映在他们生成的加速度计数据中。为了实施我们的系统,我们从36位用户执行正常的日常活动(例如步行,慢跑和爬楼梯)时收集了加速度计数据,将该时间序列数据汇总为示例,然后将标准分类算法应用于所得数据以生成预测模型。 这些模型或者根据36个用户的集合来预测个人的身份,这就是我们称为用户身份的任务,或者预测用户是否(或不是)特定的用户,即我们称为用户身份验证的任务。 这项工作是值得注意的,因为它可以使身份识别和身份验证毫不费力地进行,而无需用户采取任何额外的操作-他们所要做的就是随身携带手机。 这项工作有很多用途。 例如,在可能发生共享的环境中,我们的工作可用于自动为用户定制移动设备。 通过仅允许特定用户使用,它还可以用于提供设备安全性,并且可以提供更高级别的身份验证。

I. INTRODUCTION

诸如蜂窝电话,音乐播放器和便携式计算机之类的移动设备最近已经开始结合各种强大的传感器。 这些传感器包括GPS传感器,音频传感器(麦克风),图像传感器(相机),光传感器,温度传感器,方向传感器(罗盘)和加速度传感器。 由于这些“智能”移动设备的体积小,其强大的计算能力,其发送和接收数据的能力以及它们在我们社会中几乎无处不在的使用,这些设备为数据挖掘研究和应用开辟了令人兴奋的新领域。 WISDM(无线传感器数据挖掘)项目[1]的目标是探讨与从这些功能强大的移动设备中挖掘传感器数据相关的研究问题和应用,该研究是本文的一部分。 在本文中,我们探索了使用其中一种传感器,即加速度计,以完成人体识别和身份验证的生物识别任务。

我们选择基于Android的手机作为WISDM项目的平台,因为Android操作系统是免费的,开源的,易于编程的,并且有望迅速成为手机市场的主导地位。 我们的项目使用了多种类型的Android手机,包括Nexus One,HTC Hero和Motorola Backflip。 所有这些Android手机,以及几乎所有新的“智能”手机和“智能”音乐播放器,包括iPhone和iPod Touch [2],都包含可在三个空间维度上测量加速度的三轴加速度计。 加速度计最初包含在这些设备中,以支持高级游戏并实现自动屏幕旋转,但正如我们在本文中所显示的,该加速度计还可用于其他目的。

在这项工作中,我们使用加速度计数据来识别或验证手机用户。 这些数据是在用户将手机放在口袋里执行正常的日常活动(例如步行和爬楼梯)时生成的。临床研究表明,步态(一个人走路或奔跑的方式)足以区分个体[3],我们的研究证实了这一点。 虽然我们使用加速度计测量用户的动作,但其他研究都集中在用户的视频图像上,这种替代方法也已被证明对识别有效[4]。 尽管先前的工作已经研究了基于传感器的步态识别[5-10],但我们的工作不同之处在于,我们根据用户在多种活动(即不仅是步行)中的移动方式来识别用户,而仅使用市售的放在用户的口袋里智能手机。

一旦获得了每个用户的样本数据,就可以将原始的时间序列加速度计数据汇总为示例,因为大多数分类算法无法直接对时间序列数据进行操作(尽管我们确实计划将来尝试使用马尔可夫模型)。 这些示例中的每一个都与特定的手机用户相关联,从而形成标记的训练数据。 为了识别用户,我们使用此训练数据来构建单个预测模型,以将每个示例与特定用户进行匹配对于用户身份验证,我们为每个用户建立单独的模型,以确定示例来自该用户还是其他人。 使用这样的模型,我们能够预测用户是否是他或她所声称的那个人。

基于手机的生物识别技术提供了广泛的可能应用。 它可用于验证用户身份,从而提​​供设备安全性和防盗保护。 由于其他移动设备(例如笔记本电脑和音乐播放器)也具有加速度计,因此它们也可以使用此机制提供防盗功能。当必须对自己的身份进行身份验证时,此功能还可用于提供额外的安全保护。最后,这种形式的生物特征识别可用于自动个性化移动设备,例如基于手机的生物特征识别的音乐播放器。Jennifer R. Kwapisz,Gary M. Weiss和Samuel A. Moore M可以自动配置特定设置或 在识别设备的当前用户之后选择某些歌曲。

我们的工作做出了一些贡献。 其中一项贡献涉及我们已经收集并继续收集的加速度计数据,我们最终计划将其提供给其他研究人员。 我们还演示了如何将原始时间序列加速度计数据转换为示例,然后可以将其用于常规分类算法。最重要的是,我们表明可以使用常见的(几乎无处不在的)设备执行标识和认证,但仍可以实现高度准确的结果。本文的其余部分的结构如下。 第二部分描述了数据收集以及将时间序列数据转换为示例的过程。 第三节介绍了我们的实验和结果。 第四节介绍了相关工作,第五节总结了我们的结论,并讨论了未来的研究领域。

II. DATA COLLECTION AND TRANSFORMATION

在本节中,我们描述如何收集加速度计数据并将其转换为示例,这些示例可用于构建用于用户标识和身份验证的预测模型。 为了识别用户,我们从该训练数据中构建了一个预测模型,该模型会将每个示例映射到我们研究中的36个参与者之一。 对于用户身份验证,我们为每个用户u建立一个身份验证模型。 为了训练u的身份验证模型,我们将类标签映射到两个值(u或非u),然后生成预测模型。 本节的其余部分描述了将原始时间序列加速度计数据转换为用于这些任务的示例的数据收集过程和汇总过程。

A. Data Collection

为了收集我们监督学习任务的数据,有必要让大量用户在执行某些日常活动的同时携带基于Android的智能手机。 在收集这些数据之前,我们获得了福特汉姆大学IRB(机构审查委员会)的批准,因为该研究涉及对人类受试者的“实验”,并且存在一定的伤害风险(例如,受试者在慢跑或爬楼梯时可能会绊倒)。 然后,我们征集了36名志愿者的帮助,在进行一系列特定活动的同时携带智能手机。 这些受试者被要求在特定时间段内走路,慢跑,爬楼梯和爬楼梯,同时将Android手机放在前裤腿袋中当受试者切换活动时,数据收集停止。 数据是以这种方式收集的,因此也可以用于我们针对活动识别的另一项研究研究,这项任务要求我们预测用户正在执行的活动[14]。 尽管在检查我们的生物特征识别任务时这种情况不太现实,但是我们认为期望用户在短时间内连续执行这些活动中的任何一项(步行,慢跑,爬楼梯或下楼梯)是合理的。

为了收集我们监督学习任务的数据,有必要让大量用户在执行某些日常活动的同时携带基于Android的智能手机。 在收集这些数据之前,我们获得了福特汉姆大学IRB(机构审查委员会)的批准,因为该研究涉及对人类受试者的“实验”,并且存在一定的伤害风险(例如,受试者在慢跑或爬楼梯时可能会绊倒)。 然后,我们征集了36名志愿者的帮助,在进行一系列特定活动的同时携带智能手机。 这些受试者被要求在特定时间段内走路,慢跑,爬楼梯和爬楼梯,同时将Android手机放在前裤腿袋中。 当受试者切换活动时,数据收集停止。 数据是以这种方式收集的,因此也可以用于我们针对活动识别的另一项研究研究,这项任务要求我们预测用户正在执行的活动[14]。 尽管在检查我们的生物特征识别任务时这种情况不太现实,但是我们认为期望用户在短时间内连续执行这些活动中的任何一项(步行,慢跑,爬楼梯或下楼梯)是合理的。

数据收集由我们创建的可在手机上运行的Android应用程序控制。 该应用程序通过一个简单的图形用户界面,使我们能够记录用户名,开始和停止数据收集并标记正在执行的活动。 通过我们的应用程序,我们可以控制收集哪些数据(例如GPS以及加速度计数据)以及收集频率。 在所有情况下,我们都使用默认的50ms采样频率或每秒20个采样来收集加速度计数据。 数据收集受到WISDM团队成员之一的监督,以确保数据质量。 然后,通过USB连接直接从电话中收集数据,或者通过蜂窝连接将数据传输到我们连接Internet的服务器。

B. Feature Extraction

我们首先将原始时间序列数据转换为示例,因为本文中使用的分类算法无法直接从时间序列数据中学习[11]。 为此,我们将数据分为10秒,然后从每个10秒间隔中包含的加速度计值中生成特征(由于10秒间隔内每秒3次采集20个轴的加速度数据,所以总共有600个 值)。 我们将此10秒间隔称为示例持续时间(ED)。 我们选择一个10秒的示例持续时间,因为我们认为它提供了足够的时间来捕获我们考虑的四个活动中涉及的(重复)动作的几次重复。 尽管我们没有进行实验来确定最佳示例持续时间值,但是我们确实比较了10秒和20秒ED的结果,而10秒ED产生了更好的结果。

接下来,我们基于600个原始加速度计读数生成了有用的功能。 尽管这些功能只是六个基本功能的变体,但我们总共生成了43个功能。下面介绍了四十三个要素,并在方括号中注明了每种要素类型生成的要素数量:

  • 平均值[3]:平均加速度值(每个轴)
  • 标准偏差[3]:标准偏差(每个轴)
  • 平均绝对差[3]:在200个读数中,每个绝对值之间的平均绝对差 ED和这200个值的平均值(每个轴)
  • 平均结果加速度[1]:ED的每个轴上值的平方和的平方根为√(xi2 + yi2 + zi2
  • 峰之间的时间[3]:与大多数活动相关的正弦波峰之间的时间(以毫秒为单位)(针对每个轴)
  • Bined Distribution [30]:我们确定每个轴的值范围(最大-最小),除以将该范围分为10个大小相等的容器,然后记录落入每个容器中的200个值的分数。

“峰间时间”功能需要进一步说明。重复活动(例如步行)往往会在某些或大部分轴上产生重复波,并且此功能可测量连续峰值之间的时间。 为了估算该值,我们在每个维的记录中找到最高峰,根据该值的百分比设置阈值,然后查找达到或超过此阈值的其他峰; 如果未找到满足该标准的峰,则降低阈值,直到找到至少三个峰。 然后,我们测量连续峰值之间的时间并计算平均值。 对于找不到至少三个峰的样品,峰之间的距离标记为未知。 这种方法能够找到具有明显重复模式的活动(如步行和慢跑)在高峰之间的时间。 当然,将来会尝试更复杂的方案。由于与用户相关联的时间或物理限制,或者由于数据收集过程中的细微变化,因此针对每个用户为每个活动生成的示例数量有所不同。 第三部分总结了数据集。

III. EXPERIMENTS

在本节中,我们描述我们的实验,然后介绍我们的结果。 首先介绍了我们的人员识别结果,然后是身份验证任务的结果。

A. Description of Experiments

我们的实验所需的准备工作包括收集原始加速度计数据,然后将该时间序列数据转换为示例。 此过程在第二节中进行了描述。 结果数据集包含来自36个用户的4,866个示例,其中每个示例包含43个功能。表1中描述了此数据集,该数据集随后用于训练和测试。由于空间限制,我们仅为36个用户中的一些提供详细的统计信息。
论文学习WISDM-02:Cell Phone-Based Biometric Identification
表1中的最后两行分别显示了与每个活动关联的示例总数和数量。 某些活动比其他活动包含更少的示例,这主要是因为很长时间以来都没有要求用户进行剧烈的活动,例如慢跑和爬楼梯。

我们使用表1中描述的数据集为人员识别任务生成了六个不同的数据集。 “集合”数据集使用了所有四个活动的示例,但删除了活动标签,因此活动类型未在数据中明确编码。 因此,此数据集代表了我们最现实的情况,因为在现实情况下,用户将执行多个活动,并且我们不希望他们明确标记正在执行的活动。 我们还创建了四个数据集,每个数据集仅包含一个活动(步行,慢跑,上升楼梯和下降楼梯)的示例。 基于这些数据集的结果可能不太实用,但是它们提供了洞察每种活动对区分用户的有用性的见解。 最后,我们的第六个数据集(我们称为“聚合(oracle)”)与聚合数据集相同,但包含活动标签作为特征。 尽管此数据集与非常现实的情况不符,但它为我们提供了有关了解类标签的实用程序的信息。 这很重要,因为正如我们先前对活动识别的研究所证明的那样[14],我们可以使用本文中用来识别用户的相同方法来准确识别大多数活动。 因此,如果活动标签提供了实质性的好处,我们的汇总(oracle)数据集将为两阶段学习方法的性能提供上限,在这种方法中,我们首先预测活动,然后使用它来帮助识别用户。

在准备好这六个数据集之后,我们使用了WEKA数据挖掘套件中的两种分类技术[12]来得出用于人员识别的模型-决策树(J48)和神经网络。 在每种情况下,我们都使用默认设置。 因此,进行了十二个鉴定实验。 我们对所有实验使用十倍交叉验证,所有结果均基于这十次运行。

我们通过将多类别标识问题转换为二进制分类问题来解决身份验证任务,其中,正类对应于要认证的用户,而负类对应于其他(三十五)个用户。 由于肯定类别非常罕见(平均而言,它包含数据的1/36),因此大多数分类方法将倾向于生成分类器,这些分类器在预测此类(稀有)类别时表现不佳[15]。 由于在这种情况下这是不希望的,因此我们对否定类别进行了欠采样,以使肯定示例与否定示例的比例为1:3(即,要认证的人员占示例的25%)我们没有使用1:1的比率,当从不平衡的数据中学习时经常使用1:1的比率[15],因为数据量有限并且我们希望拥有合理大小的训练集。

身份验证数据集使用了所有活动的示例(即,我们使用了汇总数据集)。 每个用户都需要一个单独的身份验证模型,但是由于时间限制,我们只为数据集中的前五个用户生成了身份验证模型。 与人员识别一样,我们使用十倍交叉验证来构建和评估每个身份验证模型。 我们使用J48来构建这些模型。 我们对每个类别描述了我们的身份验证结果,因此我们更改类别分布的事实不会影响或扭曲结果。

B. Identification Results

在本节中,我们介绍了识别任务的结果。 表2显示了使用WEKA的J48和神经网络学习算法以及使用“稻草人”策略(“Straw Man” strategy)时在本节前面介绍的六个数据集的结果。 稻草人策略是出于比较目的,并且对应于始终预测最常见类别(即用户)的策略。 最后,回想一下,这些结果是基于单个测试示例的,这些示例仅由价值十秒钟的数据组成。 正如我们将很快看到的,如果我们基于多个样本进行识别,则可以提高识别性能。
论文学习WISDM-02:Cell Phone-Based Biometric Identification
表2中的结果表明,我们的模型仅基于10秒钟的加速度计数据就可以非常成功地识别用户的身份。 尽管某些准确性可能看起来不太好,但是当人们认为对于这个36级分类问题,总是猜出最频繁分类的稻草人策略产生的准确度在4-7%范围内时,它们实际上是令人印象深刻的。 使用J48,汇总数据集达到了72.2%的准确性,这表明此类模型在实际场景中可能是合理的。 请注意,对于J48和神经网络,聚合(oracle)数据集仅比聚合数据集获得了适度更高的准确性,这表明了解用户正在执行的活动以识别用户并不是至关重要的。 步行和慢跑数据集还显示出最佳的整体性能,并且比聚合数据集表现更好,这表明,如果我们确实控制了用户,则步行是用于识别目的的好活动(慢跑可能不切实际。 并不是每个人都适合慢跑)。 上升和下降楼梯的准确度要低得多,可能是因为这些活动所具有的数据较少,无法用于构建模型(请参见表1)。

我们再次基于每个10秒示例的性能,在表3中报告每个用户的标识准确性。 为了节省空间,我们仅针对集合,步行和慢跑活动展示结果。 在某些情况下,没有活动的示例,并且在单元格中用“ –”表示。 如表3所示,当考虑到猜测最频繁的用户的稻草人策略产生的精度在4-7%范围内时,精度通常很高。
论文学习WISDM-02:Cell Phone-Based Biometric Identification
如果我们基于超过十秒钟的数据进行识别,那么我们可以取得非常出色的结果。 我们建议的策略涉及从单个用户生成的多个示例,然后根据最常预测的用户分配身份。 我们将此称为最常见的用户策略。 在实施该策略时,我们考虑了测试集中一个用户的所有示例,但这通常仅相当于约5-10分钟的数据,这似乎是一个合理的长度示例。 表4报告了使用最频繁的用户策略时正确识别的用户比例。 在某些情况下,分母小于36,因为我们没有从所有用户那里获得所有活动的数据。 分数值是对10次运行的结果取平均值的结果。
论文学习WISDM-02:Cell Phone-Based Biometric Identification
表4展示了使用最频繁的用户策略时,在使用汇总数据集时,我们能够在最现实的情况下实现完美的识别准确性。即使在10秒示例的准确性还远远不够完美的情况下,我们仍然可以准确地识别用户,因为,如我们对错误的详细分析所示,错误分布在许多用户上,而不仅集中于一两个用户----因此,最常用的用户策略在正确识别正确的用户方面没有问题。 为了证明这一点,我们在表5中提供了有关错误的更详细的信息。具体地说,对于每个用户,我们确定了最经常错误预测的用户(即“冒名顶替者”最经常与实际用户混淆)。 我们将这些错误预测的次数与正确识别用户的次数进行了比较。 表5列出了汇总数据集的这些值的此比率(正确与错误)。
论文学习WISDM-02:Cell Phone-Based Biometric Identification
表5中的结果表明,冒名顶替者在任何情况下都不会被误认为是真正的使用者(即,比率明显大于1:1)。 在比率最小的情况下,这是由于来自用户的训练数据量有限; 但是,从汇总数据集的情况来看,即使是用户23之类的例子很少的用户,与被错误识别为最频繁冒名顶替者相比,正确识别出的示例仍然要多得多。

表5中的结果很重要,因为它们表明我们的性能将大大扩展到超过36个用户,并且即使与单个示例相关的准确度很小,也可能具有良好的识别性能。 为了更深入地了解用户数量对性能的影响,我们分析了聚合数据集的各个预测的准确性如何受到用户总数的影响。 如图1所示的结果表明,尽管准确度确实随着用户数量的增加而降低,但是一旦我们拥有多个用户,则该降低是逐渐的。 我们的期望是,即使我们拥有两倍或三倍的用户,使用最频繁的用户策略,我们也可能可以保持完美的识别准确性。

论文学习WISDM-02:Cell Phone-Based Biometric Identification

C. Authentication Results

我们的身份验证实验也获得了可喜的结果。 由于身份验证需要为每个用户使用单独的模型,因此由于时间限制,我们仅报告五个用户的身份验证结果。 与身份识别的情况一样,我们首先介绍与各个示例相关的结果,然后应用最频繁的用户策略来确定实际的身份验证性能统计信息。

我们用于身份验证的关键统计数据是正身份验证率和负身份验证率。 为了使事情更具体,在这里我们假设我们正在尝试验证用户1,u1。 u1的肯定认证率是来自u1的被正确分类为u1的测试示例的一部分。 u1的否定认证率或冒名顶替者识别率是冒名顶替者(即不是u1)的测试示例中被正确识别为不属于u1的分数。 显然,我们希望有一个很高的正面认证率和一个很高的负面认证/冒名顶替者识别率。

表6总结了认证结果。 此外,为了显示肯定和否定的身份验证率,它还显示了将最频繁使用的用户策略应用于所有单独分类的测试示例的结果。 对于最常用的用户策略,我们使用“ +”号表示用户已正确识别为自己(用于积极认证)或冒名顶替者被正确识别为冒名顶替(对于否定认证)。
论文学习WISDM-02:Cell Phone-Based Biometric Identification
我们针对这五个用户的结果表明,加速度计数据可用于仅以10秒钟的数据就可以以基本的准确性来验证用户的身份。但是,这些比率本身可能不足以达到可接受的实际身份验证级别,在这种情况下,我们将需要远远超过99%的身份验证率。 为了达到这样的比率,我们需要从每个用户那里获得多个示例,然后应用最频繁的用户策略。 在我们的实验中,我们为所有五个用户实现了100%的肯定和否定验证率。 我们相信,通过使用多个测试样本,我们可以始终如一地达到完美或接近完美的认证率。

IV. RELATED WORK

传感器数据用于生物特征识别和认证的方法相对较新,但近年来已得到越来越多的探索。 步态识别(一种人的独特步行方式来识别或验证自己的身份)已作为生物识别工具显示了一些有希望的结果在他对生物特征步态识别的调查中,Gafurov [5]确定了步态识别研究的三个领域----基于机器视觉,基于地板传感器和基于可穿戴传感器的方法。 我们的研究集中于基于可穿戴传感器的方法,与基于机器视觉的基于用户步态的摄像机图像进行识别[3]的基于机器视觉的方法相比,该方法尚未得到广泛的研究。 虽然基于视觉的方法通常将重点放在步行时的步态上,但Yam等人却认为。 [4]探索了如何在跑步和行走过程中的步态识别用户。他们发现,跑步时的步态比步行时的步态更有用,这表明了利用多种活动的重要性。

以前使用基于可穿戴传感器的方法的工作包括Mantyjarvi等人的工作[6]通过一个小型的基于加速度计的设备来识别用户,该设备放在用户腰围中间的腰带上。从36名以快、正常和慢速行走的受试者收集数据。 使用相关性,频域和数据分布统计信息进行识别。Annadhorai等。[7]进行了类似于Mantyjarvi工作的实验。他们的系统使用了两个无线传感器节点:一个由三轴加速度计和一个双轴陀螺仪组成的单元,以及一个从其他节点接收传感器读数的基站单元。数据是从将设备戴在脚踝上方的四个用户收集的。 **Gafurov,Helkala和Sondrol [8]使用连接到用户右小腿的基于三轴加速度计的设备,使用从21位用户收集的数据来验证用户的身份。 每个轴的读数都转换为组合的步态信号,类似于我们得到的加速功能。**同一作者在另一项工作中遵循了类似的步骤[9],不同的是用于数据收集的移动设备是微机电系统(MEMS)。

Gafurov&Snekkenes [10]分析了从放在脚,臀部,口袋和手臂上的基于加速度计的传感器收集的数据,以验证用户的身份。 放在脚上的加速度计可提供最佳效果。他们还发现诸如鞋子的重量,脚踝/脚运动的横向方向以及步态周期的不同点等属性可能会影响识别。当冒名顶替者试图模仿他人的步态时,步态识别表现良好。 但是,当冒名顶替者知道数据集中用户的性别或知道自己在数据集中最接近匹配者时,发现冒名顶替者的尝试更有可能被错误接受。 Gafurov,Snekkenes和Buvarp [13]在另一项研究中使用了基于加速度计的MEMS放置在臀部上,在20和22个用户的实验中,进一步支持了关于鲁棒性再次模仿攻击的结论。

尽管这些工作为基于传感器的步态识别领域提供了重要的见识,但我们的工作在几个重要方面有所不同。 首先,我们的实验中使用的设备(智能手机)不是专用传感器,而是广泛使用的商业设备,通常由数百万用户携带。 此外,我们仅依靠将设备放在用户的口袋中(自然的位置即可携带此类设备),而其他工作通常涉及用多个传感器监视用户,这些传感器通常放置在笨拙的身体位置。 我们还考虑了一组比以前的研究大得多的用户。

我们的工作与以前的工作不同的另一种基本方式是,大多数基于传感器的生物特征识别探索仅专注于步行时的步态分析。 但是,感兴趣的是多种活动而不是简单的步行,因为1)不同的活动可能提供比仅步行更健壮的生物特征签名; 2)用户在一天内连续进行识别或验证系统可能无法执行的许多不同活动识别系统是否仅基于步行步态识别,并且3)如果允许用户执行其日常工作,则自动收集运动数据以训练模型会容易得多。 Yam等[4]使用基于机器视觉的方法来检查跑步和步行运动以进行生物识别,但是我们的工作更加深入,因为我们分析了四个活动。 我们希望将来增加活动数量,并在用户执行日常工作时收集数据。

V. CONCLUSIONS & FUTURE WORK

在本文中,我们描述了如何将智能手机放在口袋里,从而将其用于进行人员识别和身份验证。 我们已经证明,在步行,慢跑,上楼梯和下楼梯时收集的加速度数据都具有作为生物特征验证的潜力。 此外,我们证明,仅使用10秒钟的数据,通常即可快速识别用户。 但是,我们还表明,如果我们在做出识别或认证决策之前利用多个样本,则可以建立用于识别和认证的高精度模型,并且通常可以实现完美的性能。 我们还证明了这样的模型有可能在现实环境中表现良好,而在现实环境中用户正在执行的活动是未知的,并且与大多数以前的工作不同,我们的系统不需要专门的设备或笨拙的传感器。

我们计划以多种方式改善我们的身份验证系统。 关于数据收集,我们打算增加数据集中的用户数量,为每个用户收集更多数据,并扩大我们收集数据的活动数量。 另外,也许最重要的是,将来我们计划以一种更自然的方式从用户那里收集数据。 与其让研究人员按照明确的课程进行用户特定活动,不如不知道用户正在执行什么活动,而是收集来自用户手机的所有加速度计数据。 因此,我们将学习使用可以完全自动化方式生成的配置文件来识别用户,而无需用户采取任何特定操作。 我们的汇总数据集目前近似于此情况,但近似值远非完美(例如,只有四个活动)。 我们还将尝试可以直接对时间序列数据进行操作的分类方法,例如隐马尔可夫模型。 由于当原始时间序列数据汇总到示例中时信息会丢失,因此此类方法可能会产生更好的结果。

如果不建立基于Android的WISDM数据收集平台,我们的工作将无法实现,并且我们将这种软件和硬件体系结构(通过电话将数据传输到基于Internet的服务器)视为未来工作的重要资源。 该平台以及收集的数据最终将公开。 我们还计划显着增强WISDM平台,以便我们可以实时生成结果,而当前我们的结果是离线生成的,不会报告给手机和用户。 我们计划使用两种方法提供实时结果。第一种方法是通过使手机通过蜂窝连接将数据传输到我们基于Internet的服务器,服务器应用生物识别模型并将结果传输回手机,从而最大限度地降低手机所需的智能。 第二种方法涉及直接在电话上实现模型。 考虑到这些设备的计算能力,这是可行的,并且具有不需要服务器或任何共享资源的优势,这使得系统可以无限扩展,并且还可以确保用户的隐私,因为此时可以将传感器数据本地保存在用户的手机中。

本文描述的工作是从无线设备中挖掘传感器数据的一项较大工作的一部分。 我们计划继续执行WISDM项目,并将加速度计数据应用于其他任务。 此外,我们计划收集并挖掘其他传感器数据,包括GPS数据。 我们相信,移动传感器数据为数据挖掘提供了巨大的机会,我们打算最大程度地利用我们基于Android的数据收集/数据挖掘平台。