Blog

Metadados de PDF: o que são metadados de PDF e quais são suas propriedades?

metadados do pdf

O que são metadados?

Podemos encontrar metadados em praticamente qualquer arquivo digital: documentos de texto, planilhas, fotos, vídeos, áudios e músicas, etc...

No caso de documentos de escritório, os metadados podem armazenar informações sobre quem os criou, quem os modificou, quem acessou o documento pela última vez e as datas correspondentes, por quanto tempo o documento foi editado, o dispositivo ou software usado para criar o documento ou a empresa e o departamento aos quais o documento pertence.

O principal motivo para a criação de metadados é facilitar a pesquisa de informações relevantes usando vários critérios de pesquisa. Os metadados podem ajudar a organizar documentos eletrônicos, facilitar a interoperabilidade entre organizações, fornecer identificação digital e apoiar o gerenciamento do ciclo de vida dos documentos.

Os metadados geralmente estão ocultos e não são visíveis usando as configurações padrão do aplicativo com o qual estamos trabalhando no arquivo. Para visualizá-los, é necessário definir uma configuração específica ou até mesmo usar um software específico para revelar esses dados ocultos.

No caso de documentos de escritório, além dos metadados, também pode haver outros tipos de informações ocultas no conteúdo do próprio documento, como texto e objetos formatados como invisíveis, dados fora da área de visualização do documento ou informações sobre comentários e alterações de revisão e a identidade de quem os fez. Isso geralmente é chamado de informações ocultas ou dados ocultos e, como não são visíveis a olho nu, o usuário pode não estar ciente de sua existência e também é um risco se o documento for distribuído a pessoas de fora da organização.

Portanto, e como o canal de disseminação dos arquivos de informações está aumentando, os indivíduos e as organizações devem implementar medidas para proteger suas informações privadas e confidenciais. Parte dessas medidas de proteção exige procedimentos e ferramentas para revisar e limpar documentos e arquivos, a fim de minimizar o risco de que informações confidenciais sejam reveladas por meio de metadados ou dados ocultos.

 

Metadados em documentos do Office e PDFs

Esse tipo de documento contém metadados incorporados por meio das propriedades do documento. Esses metadados contêm informações como: título, assunto, comentários, tags, autor, datas de criação e modificação, data de impressão, último usuário que modificou o documento, tempo de edição, estatísticas etc.

Os metadados nas propriedades do documento podem ser metadados padrão (metadados prefixados pelo programa) preenchidos automaticamente pelo programa ou manualmente pelo usuário ou pela organização. Eles também podem ser metadados personalizados, que são tipos específicos de metadados criados e preenchidos pelo usuário ou pela organização.

Esses documentos, além de conter metadados em suas propriedades, podem ter metadados mais específicos associados a eles em vários formatos (XMP, RDF, etc.), incorporados ao documento ou separados dele (por exemplo, em arquivos separados chamados “arquivos secundários”).

 

Riscos e ameaças

Os metadados são uma fonte de risco, pois podem conter informações confidenciais que não devem ser divulgadas a pessoas de fora da organização. Portanto, é necessário que as organizações e os usuários estejam cientes do risco representado pelo vazamento dessas informações confidenciais, como dados de clientes, propriedade intelectual, detalhes financeiros ou qualquer outra informação que seria inconveniente para a organização divulgar.

A figura a seguir mostra um exemplo do impacto que poderia ser causado pela exposição de determinadas informações armazenadas nos metadados de um documento.

 

riscos de metadados

Figura 1 - Exemplo de um documento que revela informações confidenciais por meio dos metadados das propriedades do documento.

 

Como pode ser visto na figura, as implicações e a gravidade do risco variam de acordo com o tipo de informação que pode ser divulgada ou deduzida. Na melhor das hipóteses, isso apenas prejudicará a reputação da organização (por exemplo, caso o cliente deduza que recebeu um documento cujo conteúdo foi copiado de outro). Na pior das hipóteses, isso pode levar a contratos inválidos, litígios, penalidades ou danos graves à organização.

A engenharia social usa vários métodos e técnicas, e os metadados e os dados ocultos são um meio muito útil para esse fim, pois uma grande quantidade de informações valiosas sobre a organização pode ser extraída com relativa facilidade para uso em ataques subsequentes.

A engenharia social no contexto da segurança da informação pode ser definida como a arte de descobrir informações confidenciais e/ou manipular indivíduos para que realizem determinadas ações, resultando em uma violação da segurança da organização.

No caso de documentos de escritório e PDF, os metadados e os dados ocultos podem conter informações como: nome, iniciais ou até mesmo nome de usuário que criou ou modificou o documento, nome do computador, seu sistema operacional e o programa que criou o documento, endereços de e-mail etc. Dessa forma, esses dados podem ser usados para executar diferentes ações:

  • Por meio de nomes de funcionários e complementado por uma pesquisa em redes sociais (por exemplo, LinkedIn), é possível obter uma lista completa de funcionários da organização, seus cargos e até mesmo seus endereços de e-mail, que podem ser usados para ataques de phishing.
  • Por meio do sistema operacional e dos aplicativos usados pelos computadores, é possível conhecer o ambiente tecnológico da organização e realizar ataques direcionados mais eficazes.
  • Por meio de nomes de usuário, é possível deduzir a convenção de nomes usada na organização e compor endereços de e-mail para ataques de phishing ou ataques de força bruta.

Abaixo está uma tabela com alguns dos metadados e dados ocultos que podem estar presentes em documentos e seus riscos associados.

 

tipos de metadados

tipos de metadados

tipos de metadados de

 

O uso de ferramentas automáticas de inspeção e exclusão de metadados pode trazer grandes benefícios para a organização:

  • Reduzir o risco ao limpar automaticamente os metadados dos documentos antes que eles possam ser distribuídos fora da organização e evitar custos financeiros ou danos à reputação.
  • Aumento da segurança, impedindo a divulgação de informações privadas ou confidenciais.
  • Economia de tempo, pois são automáticos e evitam a repetição das atividades envolvidas na depuração manual de documentos.
  • Conformidade com regras e regulamentos e conformidade com a Política de Gerenciamento de Documentos da organização.

MetaClean oferece diferentes soluções automáticas para o processamento automático de metadados, tanto para servidores da Web e de arquivos quanto para clientes de e-mail (Outlook).

O MetaClean Sync detecta em tempo real quando um arquivo foi criado ou modificado e aplica a ele a política de metadados estabelecida.

Ele é executado como um serviço em segundo plano para monitorar automaticamente as unidades de disco selecionadas em busca dos tipos de arquivos especificados (Microsoft Word, Excel, PDF, etc.), tudo de forma transparente e sem intervenção do usuário.

O MetaClean Sync está posicionado como a solução abrangente para evitar o vazamento de informações confidenciais que ocorre durante o compartilhamento de documentos, pois todos os arquivos serão higienizados antes de serem compartilhados por qualquer um dos meios disponíveis (e-mail, redes sociais, servidores WEB/FTP, etc.).

REFERÊNCIAS