差分隐私(Differential Privacy)的概念已经出现了大概10年了。在密码学中,差分隐私的目的是提供一个机制来最大化统计上查询的准确性,同时最小化识别其个别记录的机会。

差分隐私概念的产生还是要从十年前Netflix举办的机器学习大赛说起。Netflix放出了用户的数据给参赛者,希望参赛者可以给出一个更好的推荐算法。虽然Netflix已经隐去了用户ID、Name等可以直接辨识用户身份的信息,但是还是有人通过匹配网上的数据,找到了大批数据所对应的个人,这相当于让这些数据所对应的隐私直接泄露。

因此就出现了差分隐私的方法。推荐一个优秀的网站 Privacy Tools

苹果的WWDC2016用了一个session来讲解差分隐私的概念,并且宣称要开始大规模使用这一技术来统计用户的信息。这也是这项技术产生十年以来第一次大规模地投入业界。

但是对于移动传感数据来说,并不是所有的数据都能直接使用这个技术。

  1. 传感器数据经常会遵循某一种模式,例如心跳速度是一定位于一个可能区间内的。
  2. 传感器数据通常会相互联系。比如加速度传感器数据很高的时候,螺旋仪检测的速度一般也会上升,而且心率、体温一般都会有所升高。

因此,简单地使用噪声的增加是不够合理的。当数据进入不太可信的空间的时候,作为黑客可以尽可能地把不合理的数据隐去,力图找到合理的数据,有很大的可能性进行反推。同时,当多个变量相关联的时候,又进一步增大了这种反推的能力。

因此,如果让移动传感器的数据也使用差分隐私的技术安全地释放出去。必须首先判定用户所处的状态,然后对于这个状态进行差分隐私加噪声,最后再还原出来一个虚拟的raw数据,最终把这个数据释放,才能够达到良好的效果。