A privacidade diferencial da Apple pode não ser tão diferencial assim, como mostra este estudo

Photo of A privacidade diferencial da Apple pode não ser tão diferencial assim, como mostra este estudo
Facebook
VKontakte
share_fav
Cofre

Há cerca de um ano, na conferência de abertura da WWDC 2016, a Apple quebrou um pouco a tradição ao explicar — com alguns detalhes deveras técnicos — o seu método de privacidade diferencial para obter dados pessoais dos seus usuários mantendo suas identidades ocultas. Esse artigo explica bem o processo que a Maçã utiliza para a técnica, bem como o conceito de privacidade diferencial em si, mas agora vamos introduzir uma dose do famigerado mundo real no assunto.

Como revelou a WIRED, um grupo de pesquisadores da área de estatística de três universidades — do Sul da Califórnia, de Indiana (ambas nos EUA) e de Tsinghua (na China) — publicaram um extenso estudo analisando o método de privacidade diferencial da Apple e com uma conclusão um tanto quanto preocupante: de acordo com os especialistas, a técnica da Maçã é relativamente ineficaz na sua missão primordial de proteger a identidade dos usuários e mantê-los anônimos enquanto coleta seus dados para pesquisas e evolução dos seus produtos/serviços.

O processo adotado pelos pesquisadores foi, basicamente, o seguinte: ao fim de cada dia, eles escrutinavam o código dos seus dispositivos rodando macOS e iOS para capturar os arquivos contendo os dados dos usuários enviados aos servidores da Apple. Com a posse desses “pacotes de dados”, eles conseguiram — depois de seis meses de árduo trabalho — aplicar uma técnica de engenharia reversa e reproduzir o código de privacidade diferencial que a Maçã aplica nesses dados para torná-los, na teoria, irrastreáveis de volta à sua origem.

A posse desse código permitiu aos cientistas calcular o coeficiente épsilon do método de privacidade diferencial da Apple. Este coeficiente é um parâmetro que determina a quantidade de dados que o receptor está disposto a abrir mão para manter a privacidade do usuário dono desses dados — em outras palavras, quanto maior o coeficiente épsilon, maiores as chances dos seus dados “anônimos” não estarem tão anônimos assim e das empresas que os capturam poderem rastreá-los de volta aos seus donos.

A teoria sobre privacidade diferencial afirma que o coeficiente épsilon considerado ideal — ou seja, que fornece ao receptor de dados a quantidade de informação suficiente para que a pesquisa seja relevante mas, ao mesmo tempo, permite que o usuário permaneça totalmente anônimo, sem chances de identificação posterior — fica em torno de 1. A pesquisa realizada nos sistemas da Apple, entretanto, mostrou uma realidade muito diferente: enquanto o macOS ficou com um coeficiente 6, por si só já considerado ruim, o iOS 10 apresentou coeficiente 14. Um beta do iOS 11, por sua vez, conquistou um quase desprezível coeficiente 43 que, segundo os especialistas, significa que seus dados basicamente não são protegidos — mas eles próprios notam que esta é uma característica das versões de testes dos sistemas, que sempre são corrigidas antes do lançamento para o grande público.

É bom notar, também, que o coeficiente épsilon se refere aos dados capturados em um único dia e, caso essa proteção não seja satisfatória, torna-se ainda maior se combinadas as informações de vários dias — isto porque pode-se realizar uma combinação de dados para detectar pontos em comum e, dessa forma, determinar a identidade do usuário. Na prática, os pesquisadores afirmaram que, combinando dois “pacotes de dados” do mesmo usuário capturados pela Apple em dias diferentes, é possível determinar a sua identidade com quase 100% de certeza… o que não é bem lá o que a Maçã nos prometeu.

O que piora toda a situação é que a Apple não revela publicamente o seu método aplicado para privacidade diferencial — este mesmo obtido pelos pesquisadores depois de seis meses — ou o seu coeficiente épsilon, o que abre espaço para que a empresa mude, sem que ninguém saiba, o processo utilizado para eventualmente capturar mais dados dos usuários e torná-los ainda menos protegidos. Em contrapartida, temos o Google, que, no Chrome, utiliza um código aberto de privacidade diferencial — denominado RAPPOR (Randomized Aggregatable Privacy-Preserving Ordinal Response) para anonimizar os dados e declara em alto e bom som que o seu sistema tem um coeficiente épsilon 2, com limite 8 ou 9 considerando toda a vida do usuário. E quando o Google está ganhando de alguém em algum quesito relacionado à privacidade, sabemos que algo não está exatamente certo.

Consultada, a Apple afirmou que discorda com muito dos pontos do estudo — dizendo, por exemplo, que adiciona diferentes níveis de “ruído” (a camada que torna os dados teoricamente anônimos) a diferentes tipos de informação, tornando o rastreamento do usuário muito mais difícil do que o método obtido pelos pesquisadores. A empresa disse ainda que não junta diferentes tipos de informações e não cria uma base de dados para cada usuário, significando que os pacotes são recebidos anonimamente e não poderiam ser juntados para determinar a identidade de alguém. Por fim, a empresa lembra que, de qualquer forma, o usuário pode escolher não repassar nenhum dado para a Maçã (ainda que isto signifique, na prática, a perda de eficiência de vários serviços, como a Siri).

No fim das contas, tudo isso serve como um lembrete de que nossos dados, por mais anônimos que as empresas digam que eles sejam, não são tão protegidos assim — e se você acha que está totalmente, 100% blindado de qualquer coisa nas mãos da companhia A ou B ou G, bom, talvez seja a hora de reavaliar seus conceitos. Com esta consciência, talvez, poderemos reivindicar por sistemas mais transparentes de análise de informações e nos informarmos melhor sobre aquilo que repassamos para terceiros.

via Engadget

ver Mac Magazine
#ios
#mac
#código
#usuários
#privacidade
#estatística
#sistema
#operacional
#segurança
#ruído
#análise
#diferencial
#método
#macos x
#estudo