# T1123 - Audio Capture ## Descrição Captura de áudio é uma técnica de coleta na qual adversários exploram dispositivos periféricos do sistema comprometido - microfones integrados ou externos, headsets e interfaces de áudio - bem como aplicativos de comunicação (chamadas VoIP, videoconferência) para gravar conversas sensíveis em tempo real ou de forma periódica. O adversário utiliza APIs de sistema operacional (ex.: `waveInOpen` no Windows, `AudioRecord` no Android, `CoreAudio` no macOS, `ALSA/PulseAudio` no Linux) para acessar o dispositivo de áudio sem o conhecimento do usuário. Os arquivos de áudio gravados são armazenados localmente e posteriormente exfiltrados, ou transmitidos em tempo real para o servidor de comando e controle ([[t1071-application-layer-protocol|C2]]). > **Contexto Brasil/LATAM:** A técnica é empregada por grupos de espionagem contra alvos de alto valor - executivos, diplomatas, advogados e negociadores envolvidos em processos sensíveis. No Brasil, grupos APT com foco em espionagem corporativa e governamental representam o principal vetor. O [[s0143-flame|Flame]], empregado em operações de ciberespionagem no Oriente Médio, demonstrou que estados-nação investem em capacidades de vigilância auditiva sofisticadas que podem ser adaptadas para alvos em qualquer região. O crescimento do trabalho remoto no Brasil pós-2020 ampliou drasticamente a superfície de ataque - reuniões estratégicas agora ocorrem em ambientes domésticos com menor controle de segurança física. --- ## Attack Flow ```mermaid graph TB A([Acesso Inicial]) --> B([Execução de Malware]) B --> C([Persistência no Sistema]) C --> D([Acesso à API de Áudio]) D --> E{T1123}:::highlight E --> F([Gravação de Áudio]) F --> G([Armazenamento Local]) G --> H([Exfiltração]) classDef highlight fill:#e74c3c,color:#fff,stroke:#c0392b,font-weight:bold ``` --- ## Como Funciona **Passo 1 - Acesso à API de Áudio do Sistema Operacional** Após obter execução de código no sistema alvo - geralmente via [[t1566-phishing|spear-phishing]], [[t1190-exploit-public-facing-application|exploração de aplicativo]] ou [[t1195-supply-chain-compromise|comprometimento de cadeia de suprimento]] - o malware solicita acesso ao dispositivo de áudio através das APIs nativas. No Windows, usa `waveInOpen` / `waveInStart` (API WinMM) ou `IAudioClient` (WASAPI) para gravação de baixo nível. No macOS utiliza `CoreAudio`/`AVFoundation`; no Linux acessa `ALSA` ou `PulseAudio` diretamente. Em dispositivos Android, usa `AudioRecord` ou `MediaRecorder`. O acesso pode ser mascarado por processos legítimos - o malware injeta código em aplicativos como Zoom, Teams ou Google Meet já em execução. **Passo 2 - Gravação Seletiva ou Contínua** O módulo de captura de áudio pode operar de duas formas: gravação contínua (armazenando tudo e descartando silêncio) ou gravação ativada por voz (VAD - Voice Activity Detection), que reduz o tamanho dos arquivos e torna a detecção mais difícil ao minimizar I/O de disco. Ferramentas como [[s0240-rokrat|ROKRAT]] implementam gravações periódicas em intervalos programados; o [[s0143-flame|Flame]] mantinha gravação contínua de até 3 minutos armazenada em formato comprimido. O malware [[s0192-pupy|Pupy]] (ferramenta de acesso remoto open-source) possui módulo dedicado de captura de microfone acionável remotamente pelo operador. **Passo 3 - Armazenamento e Exfiltração** Os arquivos de áudio gravados (geralmente WAV, MP3 ou Ogg Vorbis comprimido) são armazenados em diretórios ocultos ou com nomes disfarçados de arquivos de sistema. A exfiltração ocorre via [[t1041-exfiltration-over-c2-channel|canal C2]], usando protocolos cifrados (HTTPS, DNS over HTTPS) para evitar detecção por DLP. Em alguns casos documentados, os arquivos são criptografados com chave pública antes do envio para garantir que apenas o operador possa decifrar o conteúdo interceptado. --- ## Detecção ### Event IDs e Indicadores Relevantes | Fonte | Indicador | Descrição | |-------|-----------|-----------| | Windows - Sysmon | Event ID 7 (Image Load) | Carregamento de `winmm.dll`, `audioses.dll` ou `avrt.dll` por processos não-áudio | | Windows - Sysmon | Event ID 10 (Process Access) | Acesso a processo de áudio (ex.: `audiodg.exe`) por processo suspeito | | Windows - Security | Event ID 4688 | Criação de processo com argumentos de gravação de áudio | | Linux - auditd | `syscall=open` | Abertura de `/dev/snd/*` ou `/dev/audio` por processo não-esperado | | macOS - Unified Log | `TCC` subsystem | Concessão ou tentativa de acesso ao microfone (`kTCCServiceMicrophone`) | | EDR - Comportamental | API Hook Detection | Chamadas a `waveInOpen`/`waveInStart` por processos sem UI de áudio legítima | ### Sigma Rule - Acesso Suspeito à API de Áudio Windows ```yaml title: Suspicious Audio Capture via WinMM API id: f4a2e8c1-3b9d-4f7e-a0c5-2d8b1e6f4a3c status: experimental description: Detecta acesso à API de gravação de áudio WinMM por processos que não são aplicativos de áudio ou comúnicação conhecidos, indicativo de captura de áudio maliciosa. references: - https://attack.mitre.org/techniques/T1123/ author: RunkIntel daté: 2026-03-24 tags: - attack.collection - attack.t1123 logsource: category: image_load product: windows detection: selection: ImageLoaded|endswith: - '\winmm.dll' - '\audioses.dll' filter_legitimate: Image|endswith: - '\zoom.exe' - '\teams.exe' - '\skype.exe' - '\discord.exe' - '\obs64.exe' - '\vlc.exe' - '\chrome.exe' - '\firefox.exe' - '\msedge.exe' - '\svchost.exe' - '\audiodg.exe' condition: selection and not filter_legitimate falsepositives: - Aplicativos de comúnicação e multimídia legítimos não listados no filtro - Ferramentas de acessibilidade com síntese de voz level: medium ``` --- ## Mitigação | Controle | Mitigação | Aplicação para Organizações Brasileiras | |----------|-----------|------------------------------------------| | Controle de Permissões de Microfone | Revogar acesso ao microfone de todos os aplicativos que não necessitam explicitamente | Windows: Configurações > Privacidade > Microfone; macOS: Preferências de Sistema > Segurança > Privacidade; crítico para dispositivos de executivos | | Políticas de Grupo (GPO) | Bloquear instalação de drivers de áudio não assinados via GPO | Aplicável em ambientes Windows corporativos - padrão em órgãos federais com SCCM/Intune | | EDR com Monitoramento de API | Habilitar regras de comportamento para chamadas suspeitas a APIs de áudio (WinMM, WASAPI) | CrowdStrike, Microsoft Defender for Endpoint e SentinelOne têm detecções nativas para T1123 | | Proteção Física | Em reuniões classificadas, proibir dispositivos com microfone ou usar salas de Faraday | Adotado por Forças Armadas brasileiras e órgãos de inteligência (ABIN) para reuniões estratégicas | | Revisão de Permissões TCC (macOS) | Auditar regularmente `~/Library/Application Support/com.apple.TCC/TCC.db` | Relevante para ambientes Mac em empresas de tecnologia, advocacia e consultorias no Brasil | | Monitoramento de Arquivos Temporários | Alertar sobre criação de arquivos `.wav`/`.mp3` em diretórios `%TEMP%`, `AppData\Local\Temp` | Indicador comportamental de malware que grava e armazena localmente antes de exfiltrar | --- ## Threat Actors e Software ### Grupos que Utilizam Esta Técnica - [[g0067-apt37|APT37]] - Grupo norte-coreano (Reaper, ScarCruft) que utiliza captura de áudio como componente de espionagem de longa duração; o [[s0240-rokrat|ROKRAT]] - malware associado ao grupo - possui módulo dedicado de gravação de microfone com exfiltração via APIs de nuvem (Dropbox, Google Drive, OneDrive) para evasão de detecção de rede. ### Ferramentas e Malware Associados - [[s0143-flame|Flame]] - Malware de ciberespionagem de nível estatal; um dos primeiros a implementar captura de áudio sofisticada em escala, com compressão e armazenamento cíclico de gravações. Considerado referência técnica para capacidades de vigilância em malware moderno. - [[s0240-rokrat|ROKRAT]] - RAT do [[g0067-apt37|APT37]] com módulo de captura de microfone; grava em intervalos periódicos e exfiltra via serviços de nuvem legítimos para evadir proxies corporativos e DLP. - [[s0234-bandook|Bandook]] - RAT comercial com capacidade de ativar microfone remotamente; vendido como malware-as-a-service e usado por múltiplos grupos de espionagem, incluindo campanhas contra ONGs e jornalistas. - [[s0257-vermin|VERMIN]] - Malware usado em operações de espionagem na Ucrânia com módulo de captura de áudio; exemplifica o uso da técnica em conflitos regionais. - [[s1185-lightspy|LightSpy]] - Framework de spyware iOS/Android com capacidade de captura de áudio; relevante para organizações com políticas BYOD - crescentemente comuns no Brasil. - [[s0192-pupy|Pupy]] - Ferramenta de acesso remoto open-source frequentemente abusada por grupos APT; módulo `microphone` permite gravação sob demanda via CLI do operador. - [[s0467-tajmahal|TajMahal]] - Framework de espionagem sofisticado com dezenas de plugins, incluindo captura de áudio e interceptação de chamadas VoIP. - [[s0152-evilgrab|EvilGrab]], [[s0454-cadelspy|Cadelspy]] - Malware adicional com capacidades documentadas de captura de áudio via APIs de sistema. --- *Fonte: [MITRE ATT&CK - T1123](https://attack.mitre.org/techniques/T1123)*