MLOps Série Parte 4: Testando a segurança de sistemas seguros de Machine Learning usando MLOps

A crescente adoção de soluções orientadas por dados e baseadas em aprendizagem automática está a impulsionar a necessidade de as empresas lidarem com cargas de trabalho crescentes, expondo-as a níveis adicionais de complexidades e vulnerabilidades.

A segurança cibernética é o maior risco para os desenvolvedores e adotantes de IA. De acordo com uma pesquisa divulgada pela Deloitte , em julho de 2020, 62% dos adotantes viam os riscos de segurança cibernética como uma ameaça significativa ou extrema, mas apenas 39% disseram que se sentiam preparados para enfrentar esses riscos.

Na Figura 1 podemos observar possíveis ataques a um sistema de Machine Learning (nas etapas de treinamento e inferência).

Fluxograma de possíveis vulnerabilidades de sistemas de aprendizado de máquina durante ataques, incluindo envenenamento, ataque de transferência de aprendizagem, ataque de backdoor, ataque adversário e extração de modelo e dados.

Figura 1: Vulnerabilidades de um sistema de Machine Learning.

Para saber mais sobre como esses ataques são realizados, confira o livro Engineering MLOps . Aqui estão algumas abordagens e testes importantes para proteger seus sistemas de Machine Learning contra esses ataques:

Criptografia homomórfica

A criptografia homomórfica é um tipo de criptografia que permite cálculos diretos em dados criptografados. Ele garante que a saída descriptografada seja idêntica ao resultado obtido usando entradas não criptografadas.

Por exemplo, criptografar(x) + criptografar(y) = descriptografar(x+y) .

Privacidade desde o design

Privacidade desde o design é uma filosofia ou abordagem para incorporar privacidade, justiça e transparência no design de tecnologia da informação, infraestrutura de rede e práticas comerciais. O conceito traz uma ampla compreensão dos princípios para alcançar privacidade, justiça e transparência. Esta abordagem permitirá evitar possíveis violações de dados e ataques.

Os pilares do design de privacidade incluem controle de acesso, forte desidentificação, processamento de quantidade mínima de dados, rastreamento de linhagem de dados, alta explicabilidade de decisões automatizadas e conscientização de quase-identificadores.

Figura 2: Privacidade desde o projeto para sistemas de Machine Learning.

A Figura 2 descreve alguns fundamentos básicos a serem considerados ao construir um sistema de Machine Learning baseado em privacidade por design. Vamos refletir sobre algumas dessas áreas principais:

  • Manter um forte controle de acesso é básico.
  • É fundamental utilizar técnicas robustas de desidentificação (em outras palavras, pseudonimização) para identificadores pessoais, agregação de dados e abordagens de criptografia.
  • A proteção de informações de identificação pessoal e a minimização de dados são cruciais. Isto envolve a recolha e o processamento da menor quantidade possível de dados em termos de identificadores pessoais associados aos dados.
  • Compreender, documentar e exibir dados à medida que eles viajam das fontes de dados até os consumidores é conhecido como rastreamento de linhagem de dados. Isto abrange todas as alterações dos dados ao longo do percurso, incluindo como os dados foram convertidos, o que mudou e porquê. Em um processo de análise de dados, a linhagem de dados fornece visibilidade, ao mesmo tempo que simplifica consideravelmente a capacidade de rastrear violações de dados, erros e causas fundamentais.
  • Explicar e justificar decisões automatizadas quando necessário é vital para conformidade e justiça. Mecanismos de alta explicabilidade são necessários para interpretar decisões automatizadas.
  • Evitar quase-identificadores e identificadores não exclusivos (por exemplo, género, código postal, profissão ou línguas faladas) é uma boa prática, uma vez que podem ser utilizados para reidentificar pessoas quando combinados.

Dado que a inteligência artificial está a evoluir rapidamente, é fundamental incorporar a privacidade e salvaguardas tecnológicas e organizacionais adequadas no processo, para que as preocupações com a privacidade não sufoquem o seu progresso, mas, em vez disso, conduzam a resultados benéficos.

Monitoramento em tempo real para segurança

O monitoramento em tempo real (de dados: entradas e saídas) pode ser usado contra ataques backdoor ou ataques adversários por meio de:

  • Monitoramento de dados (entradas e saídas).
  • Acessando a gestão de forma eficiente.
  • Monitorando dados de telemetria.

Uma solução importante é monitorar as entradas durante o treinamento ou teste. Para higienizar (pré-processar, descriptografar, transformações e assim por diante) os dados de entrada do modelo, codificadores automáticos ou outros classificadores podem ser usados ​​para monitorar a integridade dos dados de entrada. O monitoramento eficiente do gerenciamento de acesso (quem obtém acesso, quando e onde o acesso é obtido) e dos dados de telemetria pode resultar no conhecimento de quase-identificadores e ajudar a prevenir ataques suspeitos.

Saber mais

Para obter mais detalhes e saber mais sobre a implementação prática, confira o livro Engineering MLOps ou aprenda como construir e implantar um modelo no Azure Machine Learning usando MLOps no  webinar sob demanda Get Time to Value with MLOps Best Practices . Além disso, confira nosso blog anunciado recentemente sobre aceleradores de soluções (MLOps v2) para simplificar seu fluxo de trabalho de MLOps no Azure Machine Learning.

Arbit: Especialista em MLOps!

Pode não ser parecer fácil gerar valor para seus dados, mas a Arbit, pode ajudá-lo. Há mais de 20 anos atuando com inteligência de dados, a Arbit possui especialistas para implementar as melhores soluções ao seu ambiente de negócios. Fale conosco agora mesmo

Deixe um comentário

O seu endereço de e-mail não será publicado.