# T1119 - Automated Collection
## Descrição
A Coleta Automatizada (Automated Collection) ocorre quando um adversário já estabelecido em um sistema ou rede implementa mecanismos automáticos para coletar dados internos de forma sistemática e contínua - sem precisar de interação manual em cada etapa. O objetivo é maximizar o volume de inteligência coletada enquanto minimiza o tempo de exposição e o risco de detecção por atividade humana suspeita. Scripts em [[t1059-command-and-scripting-interpreter|PowerShell, Python ou Bash]] são programados para varrer diretórios, copiar arquivos por tipo (`.docx`, `.pdf`, `.xlsx`, `.kdbx`, `.pst`) e compactar os dados para exfiltração posterior.
A técnica integra-se naturalmente com [[t1083-file-and-directory-discovery|File and Directory Discovery]] para identificar onde os dados de valor estão armazenados, e com [[t1570-lateral-tool-transfer|Lateral Tool Transfer]] para mover o coletor para outros hosts de interesse. Em ambientes cloud, adversários aproveitam APIs nativas, pipelines de dados, CLIs como `aws s3 cp` ou `az storage blob download`, e serviços ETL para coletar dados de múltiplas fontes simultaneamente sem precisar de presença em hosts individuais. Ferramentas de acesso remoto como [[s0198-netwire|NETWIRE]], [[s0378-poshc2|PoshC2]] e [[darkgaté|DarkGaté]] incorporam módulos de coleta automatizada como funcionalidade nativa.
Em plataformas SaaS e Office Suite, adversários utilizam [[t1538-cloud-service-dashboard|Cloud Service Dashboard]] e [[t1619-cloud-storage-object-discovery|Cloud Storage Object Discovery]] para mapear e depois coletar automaticamente documentos do SharePoint, e-mails do Exchange/Outlook e dados do OneDrive/Google Drive sem acionar alertas de DLP tradicionais - pois as operações ocorrem via APIs legítimas de sincronização. O malware [[s0339-micropsia|Micropsia]], por exemplo, coleta automaticamente capturas de tela em intervalos programados e lista de documentos recentes do Office, construindo um perfil detalhado da atividade do usuário ao longo do tempo.
**Contexto Brasil/LATAM:** O Brasil é alvo privilegiado de T1119 por concentrar grandes volumes de dados financeiros, propriedade intelectual de empresas de energia (Petrobras, distribuidoras) e dados sensíveis do setor público. O grupo [[g1039-redcurl|RedCurl]], especializado em espionagem corporativa, utiliza coleta automatizada de documentos internos, contratos, e-mails e dados de RH de empresas brasileiras e de outros países da América Latina. O [[g0047-gamaredon|Gamaredon Group]] aplica T1119 em larga escala para coleta de documentos governamentais, sendo o padrão de ataque extrapolável para entidades do setor público brasileiro. Campanhas de ransomware que atingiram hospitais e prefeituras no Brasil frequentemente incluíram fase de coleta automatizada (double extortion) antes da criptografia, coletando dados sensíveis de pacientes ou contribuintes para uso como alavanca de extorsão.
## Attack Flow
```mermaid
graph TB
A["🏠 Acesso Estabelecido<br/>(Established Access)"] --> B["🔍 Descoberta de Arquivos<br/>(File Discovery T1083)"]
B --> C["T1119 - Automated<br/>Collection"]:::highlight
C --> D["📦 Compressão/Staging<br/>(Archive T1560)"]
D --> E["📡 Exfiltração<br/>(Exfiltration)"]
classDef highlight fill:#e74c3c,color:#fff,stroke:#c0392b,stroke-width:2px
```
## Como Funciona
### 1. Preparação
O adversário realiza [[t1083-file-and-directory-discovery|File and Directory Discovery]] para mapear o sistema de arquivos e identificar repositórios de dados valiosos: pastas de documentos, compartilhamentos de rede, bases de dados locais, repositórios de código-fonte e arquivos de configuração com credenciais. Define critérios de coleta baseados em extensões de arquivo (`.doc`, `.xls`, `.pdf`, `.pst`, `.bak`, `.key`), palavras-chave no nome do arquivo (`financeiro`, `contrato`, `senha`, `budget`, `confidencial`) ou data de modificação. Em ambientes cloud, autentica-se em APIs de armazenamento (S3, Blob Storage, SharePoint) e lista os recursos disponíveis.
### 2. Execução
Scripts automatizados (PowerShell, Python, Bash) executam a coleta conforme os critérios definidos - frequentemente agendados via `schtasks`, `cron` ou como serviço persistente. O processo copia arquivos para um diretório de staging local (geralmente em pasta temporária ou de sistema para evitar detecção), compacta em arquivos `.zip` ou `.rar` protegidos por senha e prepara para exfiltração. Em ambientes cloud, chamadas de API em lote coletam objetos de múltiplos buckets ou contêineres em paralelo. Malwares como [[s0098-t9000|T9000]] gravam capturas de tela e áudio automaticamente em intervalos regulares, complementando a coleta de documentos com vigilância comportamental do usuário.
### 3. Pós-execução
Os dados coletados são movidos para um ponto de staging centralizado - frequentemente em um host comprometido com boa conectividade de saída - antes da exfiltração para infraestrutura C2. O coletor pode continuar operando silenciosamente por semanas ou meses, enviando lotes periódicos de dados novos. Após a exfiltração bem-sucedida, em cenários de ransomware, os dados coletados tornam-se alavanca de extorsão (double extortion): o grupo ameaça públicar os dados se o resgate não for pago, mesmo que a vítima restaure os sistemas de backup.
## Detecção
**Event IDs relevantes:**
| Event ID | Canal | Descrição |
|----------|-------|-----------|
| 4663 | Security | Tentativa de acesso a objeto - volume elevado de leituras de arquivos por mesmo processo |
| 4688 | Security | Processo criado - PowerShell/cmd com parâmetros de cópia em massa (`xcopy`, `robocopy`, `cp -r`) |
| 1 | Sysmon | Criação de processo - scripts de coleta, compressores (`7z.exe`, `rar.exe`, `zip`) com parâmetros de senha |
| 11 | Sysmon | Arquivo criado - criação de grandes arquivos `.zip`/`.rar` em diretórios temporários |
| 23 | Sysmon | Arquivo deletado - remoção de arquivos de staging após exfiltração |
| - | PowerShell | Script Block Logging (Event 4104) - cmdlets `Get-ChildItem`, `Copy-Item` em padrões de varredura |
**Regra Sigma:**
```yaml
title: Coleta Automatizada de Arquivos - T1119 Automated Collection
id: c9e5g4b3-6d0f-5g1c-d345-fe678gh90123
status: experimental
description: >
Detecta padrões de coleta automatizada de arquivos indicativos de T1119.
Foco em acesso em massa a documentos Office/PDF combinado com compressão
subsequente - padrão clássico de staging pré-exfiltração.
references:
- T1119
author: RunkIntel
daté: 2026-03-24
tags:
- attack.collection
- attack.t1119
logsource:
product: windows
service: sysmon
detection:
selection_copy:
EventID: 1
CommandLine|contains:
- 'xcopy'
- 'robocopy'
- 'Copy-Item'
CommandLine|contains:
- '.docx'
- '.xlsx'
- '.pdf'
- '.pst'
- '.kdbx'
selection_compress:
EventID: 1
Image|endswith:
- '\7z.exe'
- '\rar.exe'
- '\WinRAR.exe'
CommandLine|contains:
- ' -p' # password flag
- ' a ' # add/compress flag
timeframe: 5m
condition: selection_copy | count() > 50 or (selection_copy and selection_compress)
fields:
- Image
- CommandLine
- ParentImage
- User
falsepositives:
- Scripts de backup corporativo legítimos (Veeam, Backup Exec agents)
- Ferramentas de sincronização de arquivos (OneDrive, Dropbox sync clients)
- Tarefas de arquivamento agendadas pelo departamento de TI
level: high
```
## Mitigação
| Controle | Mitigação MITRE | Recomendação Prática para Organizações Brasileiras |
|----------|----------------|---------------------------------------------------|
| Armazenamento remoto seguro de dados sensíveis | [[m1029-remote-data-storage\|M1029 - Remote Data Storage]] | Centralizar dados sensíveis em sistemas com controle de acesso granular (SharePoint com DLP, cofres digitais). Dados críticos não devem residir em endpoints locais onde coletores automatizados têm acesso irrestrito. Especialmente relevante para dados sujeitos à LGPD. |
| Criptografia de dados em repouso | [[m1041-encrypt-sensitive-information\|M1041 - Encrypt Sensitive Information]] | Criptografar arquivos sensíveis com BitLocker (Windows) ou LUKS (Linux). Embora não impeça a coleta, limita a utilidade dos dados caso o atacante não possua as chaves de descriptografia. Implementar classificação de dados para identificar o que precisa de proteção adicional. |
| DLP (Data Loss Prevention) | Complementar | Implementar políticas DLP no endpoint (Microsoft Purview, Symantec DLP) para detectar e bloquear cópia em massa de documentos classificados. Configurar alertas para compressão de grandes volumes de arquivos sensíveis fora de jánelas de manutenção. |
| Auditoria de acesso a arquivos | Complementar | Habilitar auditoria de acesso a objetos (Event 4663) em servidores de arquivos e compartilhamentos sensíveis. Configurar alertas no SIEM para padrões de acesso anômalos: um usuário acessando centenas de arquivos em minutos é sinal de coleta automatizada. |
| Monitoramento de uso de APIs cloud | Complementar | Habilitar CloudTrail (AWS) ou Azure Monitor para rastrear chamadas de API em massa a serviços de armazenamento (S3, Blob, SharePoint). Alertar sobre downloads de grandes volumes de objetos por uma única identidade em período curto. Crítico para organizações com dados sensíveis em cloud (bancos, fintechs reguladas pelo Bacen). |
## Threat Actors
- [[g0047-gamaredon|Gamaredon Group]] - APT ucraniano pró-Rússia (Primitive Bear). Especializado em coleta automatizada massiva de documentos de organizações governamentais ucranianas e parceiros. Utiliza scripts VBS e PowerShell para coletar documentos Office em intervalos regulares, operando de forma persistente por meses sem detecção. Padrão extrapolável para ataques a entidades governamentais brasileiras.
- [[g1003-ember-bear|Ember Bear]] - Grupo APT associado ao GRU russo (UNC2589). Combina T1119 com técnicas de wiper: coleta dados antes de destruir sistemas, garantindo inteligência mesmo que o acesso sejá perdido. Relevante como modelo de ataque destrutivo precedido de espionagem.
- [[g1039-redcurl|RedCurl]] - Grupo de espionagem corporativa com operações confirmadas no Brasil, Reino Unido, Alemanha e Rússia. Foco exclusivo em coleta de documentos internos: contratos, dados de funcionários, relatórios financeiros e propriedade intelectual. Usa ferramentas personalizadas (RedCurl.FSABIN, RedCurl.EXTRAC) para coleta automatizada discreta - frequentemente operando por 6 meses ou mais sem detecção.
- [[g0006-apt1|APT1]] - Comment Crew, grupo chinês (PLA Unit 61398). Pioneiro em exfiltração massiva de propriedade intelectual via T1119. Documentado coletando terabytes de dados de empresas aeroespaciais, de defesa e de telecomúnicações ao longo de meses antes da detecção pelo relatório Mandiant de 2013.
- [[g0125-silk-typhoon|HAFNIUM]] - APT chinês responsável pela exploração dos zero-days ProxyLogon do Microsoft Exchange (2021). Após comprometer servidores Exchange, implementou coleta automatizada de e-mails de pesquisadores de doenças infecciosas, escritórios de advocacia e empresas de defesa.
- [[g0007-apt28|APT28]] - Fancy Bear, GRU Unidade 26165. Utiliza T1119 em campanhas de espionagem política. Coleta automatizada de e-mails e documentos de partidos políticos, campanhas eleitorais e organizações internacionais. Relevante para monitoramento de risco eleitoral e institucional.
- [[g1035-winter-vivern|Winter Vivern]] - Grupo APT com operações contra organizações governamentais europeias e da OTAN. Usa webshells para implementar coletores automatizados em servidores de e-mail comprometidos.
- [[g0004-apt15|Ke3chang]] - APT chinês (APT15) com histórico de operações contra ministérios de relações exteriores europeus e organizações LATAM. Utiliza T1119 para coletar comúnicações diplomáticas confidenciais.
- [[g0053-fin5|FIN5]] - Grupo financeiramente motivado especializado em sistemas de PDV. Implementa coletores automatizados de dados de cartão de crédito em sistemas de ponto de venda comprometidos - altamente relevante para o setor de varejo brasileiro.
- [[g1030-agrius|Agrius]] - Grupo iraniano destrutivo. Realiza coleta automatizada antes de implantar wipers, garantindo inteligência mesmo que o acesso sejá detectado e bloqueado.
## Software Associado
- [[s0098-t9000|T9000]] - Backdoor com módulos de coleta automatizada: captura de tela periódica, gravação de áudio, lista de arquivos recentes do Office e keylogging. Altamente modular - operador define quais módulos ativar.
- [[s0339-micropsia|Micropsia]] - Malware com rotinas de captura de tela automatizada em intervalos programados e coleta de lista de documentos recentes. Usado pelo grupo APT-C-23 em campanhas de espionagem no Oriente Médio.
- [[darkgaté|DarkGaté]] - Malware MaaS (Malware-as-a-Service) com módulo de coleta de arquivos por extensão. Amplamente distribuído via campanhas de phishing, incluindo alvos brasileiros.
- [[s0090-rover|Rover]] - Backdoor APT usado por Transparent Tribe. Coleta automaticamente documentos Office e PDFs, faz capturas de tela e monitora dispositivos USB para coleta offline.
- [[s0198-netwire|NETWIRE]] - RAT comercial frequentemente abusado em campanhas de espionagem. Módulos de coleta de keylog, capturas de tela e arquivos por extensão. Amplamente detectado em campanhas de phishing contra organizações brasileiras.
- [[s0378-poshc2|PoshC2]] - Framework de C2 baseado em PowerShell com módulos nativos de coleta de arquivos, credenciais e capturas de tela. Permite agendamento de coleta automatizada sem presença manual.
- [[s1043-ccf32|ccf32]] - Malware coletor atribuído ao APT27/Emissary Panda. Especializado em coleta de documentos de diretórios específicos com compressão e staging automáticos.
- [[s0244-comnie|Comnie]] - Backdoor RAT com funcionalidade de coleta de arquivos por extensão e data de modificação. Usado pelo grupo Rancor em campanhas no Sudeste Asiático.
- [[s0684-roadtools|ROADTools]] - Framework open-source de reconhecimento de Azure AD. Adversários o utilizam para coletar automaticamente usuários, grupos, aplicações e permissões de tenants Azure comprometidos - coleta de identidades em larga escala.
- [[s0428-poetrat|PoetRAT]] - RAT direcionado ao setor de energia azerbaijano. Módulos de coleta automatizada de documentos, capturas de tela e credenciais de browser - padrão relevante para ataques ao setor energético brasileiro.
---
*Fonte: [MITRE ATT&CK - T1119](https://attack.mitre.org/techniques/T1119)*