基于移动传感数据的差分隐私

差分隐私（Differential Privacy）的概念已经出现了大概10年了。在密码学中，差分隐私的目的是提供一个机制来最大化统计上查询的准确性，同时最小化识别其个别记录的机会。

差分隐私概念的产生还是要从十年前Netflix举办的机器学习大赛说起。Netflix放出了用户的数据给参赛者，希望参赛者可以给出一个更好的推荐算法。虽然Netflix已经隐去了用户ID、Name等可以直接辨识用户身份的信息，但是还是有人通过匹配网上的数据，找到了大批数据所对应的个人，这相当于让这些数据所对应的隐私直接泄露。

因此就出现了差分隐私的方法。推荐一个优秀的网站 Privacy Tools。

苹果的WWDC2016用了一个session来讲解差分隐私的概念，并且宣称要开始大规模使用这一技术来统计用户的信息。这也是这项技术产生十年以来第一次大规模地投入业界。

但是对于移动传感数据来说，并不是所有的数据都能直接使用这个技术。

传感器数据经常会遵循某一种模式，例如心跳速度是一定位于一个可能区间内的。
传感器数据通常会相互联系。比如加速度传感器数据很高的时候，螺旋仪检测的速度一般也会上升，而且心率、体温一般都会有所升高。

因此，简单地使用噪声的增加是不够合理的。当数据进入不太可信的空间的时候，作为黑客可以尽可能地把不合理的数据隐去，力图找到合理的数据，有很大的可能性进行反推。同时，当多个变量相关联的时候，又进一步增大了这种反推的能力。

因此，如果让移动传感器的数据也使用差分隐私的技术安全地释放出去。必须首先判定用户所处的状态，然后对于这个状态进行差分隐私加噪声，最后再还原出来一个虚拟的raw数据，最终把这个数据释放，才能够达到良好的效果。