# T1593.002 - Search Engines
> [!info] Técnica MITRE ATT&CK
> **Tática:** Reconnaissance · **ID:** T1593.002 · **Plataforma:** PRE (pré-comprometimento)
> **Técnica pai:** [[t1583-001-domains|Domains]]
## Descrição
Adversários utilizam mecanismos de busca para coletar informações sobre alvos que serão utilizadas durante o planejamento de ataques. Serviços de busca como Google, Bing, Shodan e outros rastreiam e indexam conteúdo online, permitindo que qualquer usuário - incluindo agentes de ameaça - localize informações sensíveis expostas públicamente, muitas vezes sem que a organização alvo sequer perceba.
Os mecanismos de busca modernos oferecem operadores avançados de consulta - técnica popularmente conhecida como **Google Dorking** ou **Google Hacking** - que permitem buscas altamente direcionadas por tipos específicos de arquivo, domínios, títulos de páginas e conteúdo indexado que deveria ser privado mas foi acidentalmente exposto. Esta abordagem é frequentemente utilizada na fase inicial de reconhecimento para mapear a superfície de ataque da vítima antes de qualquer interação direta.
Informações coletadas via mecanismos de busca podem incluir: credenciais vazadas em repositórios de código, arquivos de configuração com chaves de API, diretórios administrativos acessíveis públicamente, versões de software desatualizadas, informações de infraestrutura de rede, documentos corporativos com metadados sensíveis e registros de e-mail de funcionários. Esses dados alimentam técnicas subsequentes como [[t1598-phishing-for-information|Phishing for Information]], [[t1596-search-open-technical-databases|Search Open Technical Databases]] e [[t1566-phishing|Phishing]].
No contexto brasileiro e latino-americano, grupos como [[g0094-kimsuky|Kimsuky]] e outros atores de espionagem utilizam mecanismos de busca para identificar organizações governamentais, universidades e empresas do setor de [[_sectors|energia e financeiro]] com presença digital exposta. A proliferação de serviços em nuvem mal configurados no Brasil tem ampliado significativamente a superfície de ataque disponível para reconhecimento via search engines.
## Como Funciona
O uso de mecanismos de busca para reconhecimento opera em múltiplas camadas, explorando tanto buscas genéricas quanto operadores avançados:
**1. Reconhecimento básico de organização**
O adversário inicia com buscas simples pelo nome da empresa, domínios associados, nomes de executivos e produtos. Ferramentas como o Google revelam páginas institucionais, perfis em redes sociais, comúnicados à imprensa e outros dados contextuais úteis para engenharia social.
**2. Google Dorking (Hacking)**
Operadores especializados permitem buscas cirúrgicas:
- `site:empresa.com.br filetype:pdf` - documentos PDF expostos
- `inurl:admin site:empresa.com.br` - painéis administrativos
- `intitle:"index of" site:empresa.com.br` - diretórios abertos
- `"senha" OR "password" site:empresa.com.br` - credenciais expostas
- `filetype:sql site:empresa.com.br` - dumps de banco de dados
**3. Shodan e Censys**
Mecanismos de busca especializados em dispositivos e serviços conectados à internet permitem localizar servidores com vulnerabilidades conhecidas, câmeras IP, sistemas de controle industrial (ICS/SCADA), dispositivos IoT mal configurados e serviços de acesso remoto expostos. No Brasil, Shodan frequentemente revela centenas de sistemas críticos acessíveis diretamente pela internet.
**4. Coleta de metadados em documentos**
Documentos indexados (PDFs, Word, Excel) frequentemente contêm metadados com nomes de usuário, versões de software, caminhos de rede internos e outros dados que auxiliam no mapeamento da infraestrutura interna.
**5. Identificação de vazamentos de credenciais**
Buscas em GitHub, Pastebin e outros repositórios indexados por mecanismos de busca podem revelar chaves de API, tokens de acesso, senhas hardcoded em código-fonte e outros segredos expostos por desenvolvedores descuidados.
## Attack Flow
```mermaid
graph TB
A["🎯 Seleção do Alvo<br/>Identificação da organização<br/>e domínios associados"] --> B["🔍 Reconhecimento Básico<br/>Buscas gerais: nome,<br/>domínio, executivos"]
B --> C["⚙️ Google Dorking<br/>Operadores avançados:<br/>filetype, site, inurl, intitle"]
C --> D["🌐 Shodan/Censys<br/>Variantes especializadas:<br/>serviços expostos, IoT, ICS"]
D --> E["📄 Coleta de Documentos<br/>PDFs, planilhas, apresentações<br/>com metadados sensíveis"]
E --> F["🔑 Vazamentos Identificados<br/>Credenciais, chaves de API,<br/>configs em repositórios"]
F --> G["🗺️ Mapeamento de Superfície<br/>Inventário de ativos,<br/>tecnologias, versões"]
G --> H["⚡ Reconhecimento Subsequente<br/>Phishing, OSINT, exploração<br/>de vulnerabilidades identificadas"]
style A fill:#1a1a2e,color:#e0e0e0
style H fill:#4a0000,color:#ffcccc
```
## Exemplos de Uso
### Kimsuky - Espionagem Governamental via Dorking
O grupo norte-coreano [[g0094-kimsuky|Kimsuky]] utiliza mecanismos de busca sistematicamente para mapear alvos governamentais e acadêmicos antes de campanhas de spear-phishing. A técnica permite identificar endereços de e-mail de pesquisadores, estrutura organizacional e sistemas de e-mail utilizados, facilitando a criação de pretextos convincentes. Em campanhas direcionadas à Coreia do Sul e Jápão, o grupo utilizou dorks específicos para localizar portais de intranet expostos.
### Exposição de Bancos Brasileiros - Buckets S3 Públicos
Um padrão recorrente no Brasil envolve a indexação acidental de buckets S3 da AWS e containers de blob do Azure. Mecanismos de busca especializados como Grayhatwarfare.com permitem localizar esses recursos. Em 2023-2024, diversas instituições financeiras brasileiras tiveram dados de clientes expostos via armazenamento em nuvem mal configurado, detectável por qualquer pessoa com conhecimento básico de dorking.
### Campanha de Reconhecimento em Infraestrutura Crítica
Atores associados à [[g0034-sandworm|Sandworm Team]] e grupos de espionagem utilizaram Shodan para mapear sistemas SCADA e equipamentos industriais conectados à internet no setor de energia brasileiro. O reconhecimento via search engines precede tipicamente ataques mais sofisticados contra [[_sectors|infraestrutura crítica]].
### Vazamento de Credenciais via GitHub
Desenvolvedores de empresas brasileiras frequentemente commitam acidentalmente chaves de API, tokens OAuth e credenciais de banco de dados em repositórios públicos do GitHub. Mecanismos de busca indexam esses repositórios em horas, criando uma jánela de exposição que adversários exploram ativamente.
## Detecção
A detecção desta técnica é inerentemente difícil pois ocorre em infraestrutura controlada por terceiros (os próprios mecanismos de busca). As estrategias efetivas focam em **detecção indireta** e **monitoramento proativo de exposição**:
### Monitoramento de Exposição Externa
```yaml
title: Detecção de Conteúdo Sensível Indexado por Mecanismos de Busca
status: experimental
logsource:
category: external-monitoring
product: brand-protection-platform
detection:
selection:
monitoring_type: "search-engine-indexing"
content_type:
- "credentials"
- "api-keys"
- "configuration-files"
- "internal-documents"
domain_match: "*.empresa.com.br"
condition: selection
level: high
tags:
- attack.reconnaissance
- attack.t1593.002
```
### Alertas de Menção em Pastes e Repositórios
```yaml
title: Credenciais Organizacionais em Repositórios Públicos
status: stable
logsource:
category: git-monitoring
product: github-advanced-security
detection:
selection:
secret_type:
- "api_key"
- "password"
- "connection_string"
- "private_key"
organization_domain: "empresa.com.br"
repository_visibility: "public"
condition: selection
level: critical
tags:
- attack.reconnaissance
- attack.t1593.002
- attack.t1552.001
```
### Estrategias Complementares de Detecção
- **Honeytokens:** Criar credenciais falsas e documentos-isca indexáveis. Qualquer tentativa de uso dessas credenciais indica que foram coletadas via reconhecimento
- **Google Search Console:** Monitorar quais páginas e documentos são indexados pelo Google, identificando exposições não intencionais
- **Shodan Monitor:** Assinatura do serviço de monitoramento do Shodan para receber alertas quando novos ativos da organização são indexados
- **Have I Been Pwned API:** Monitoramento contínuo de vazamentos de credenciais corporativas
- **Canary Tokens:** Tokens rastreáveis inseridos em documentos e arquivos de configuração para detectar acesso não autorizado
## Mitigação
| ID | Mitigação | Descrição |
|----|-----------|-----------|
| [[m1056-pre-compromise\|M1056]] | Pre-Compromise | Mitigações pré-comprometimento: auditoria de exposição digital, remoção de dados sensíveis indexados, treinamento de desenvolvedores sobre segredos em repositórios |
| - | Gestão de Segredos | Implementar ferramentas como HashiCorp Vault, AWS Secrets Manager ou Azure Key Vault. Nunca commitar credenciais em repositórios de código |
| - | Escaneamento de Repositórios | Ferramentas como GitGuardian, Gitleaks ou GitHub Secret Scanning detectam credenciais antes de chegarem a repositórios públicos |
| - | Política de Retenção de Documentos | Remover documentos antigos com metadados sensíveis de websites públicos. Usar ferramentas de limpeza de metadados antes de públicar documentos |
| - | Configuração de robots.txt | Configurar corretamente robots.txt para evitar indexação de diretórios sensíveis, combinado com controles de acesso adequados |
| - | Monitoramento de Marca | Contratar serviços de proteção de marca que monitorem continuamente a exposição da organização em mecanismos de busca e fóruns |
## Contexto Brasil/LATAM
O Brasil apresenta uma superfície de ataque particularmente ampla para reconhecimento via mecanismos de busca, por razões estruturais:
**Adoção acelerada de nuvem sem maturidade em segurança:** A rápida migração de empresas brasileiras para AWS, Azure e GCP frequentemente ocorre sem controles adequados de configuração. Shodan e mecanismos especializados revelam continuamente buckets S3, bancos de dados MongoDB e instâncias Elasticsearch sem autenticação pertencentes a organizações brasileiras.
**Desenvolvimento acelerado e cultura DevOps imatura:** A pressão por velocidade no setor de tecnologia brasileiro resulta em práticas inseguras de gestão de segredos. O Google indexa repositórios GitHub públicos em horas - uma jánela de exposição crítica.
**Setor financeiro como alvo prioritário:** O Brasil possui um dos maiores setores de fintech do mundo. Grupos como [[g1011-exotic-lily|EXOTIC LILY]] e atores de ransomware utilizam mecanismos de busca para mapear a superfície de ataque de bancos digitais, fintechs e processadores de pagamento antes de campanhas direcionadas.
**Infraestrutura crítica exposta:** Shodan frequentemente revela sistemas de controle industrial, equipamentos de telecomúnicações e dispositivos IoT de infraestrutura brasileira acessíveis diretamente pela internet, facilitando o reconhecimento por grupos como [[g0034-sandworm|Sandworm Team]] interessados em infraestrutura crítica.
**CERT.br e iniciativas de conscientização:** O CERT.br mantém alertas sobre exposição de sistemas e vazamentos detectados em território brasileiro. A colaboração com o CERT.br é fundamental para resposta a incidentes envolvendo exposição detectada por mecanismos de busca.
> [!warning] Indicador de Comprometimento Iminente
> A detecção de varreduras Shodan ou buscas Google Dorking direcionadas à sua organização pode indicar reconhecimento ativo. Monitorar logs de acesso a honeyfiles e credenciais-isca é a forma mais efetiva de detectar esse estágio da kill chain.
## Referências
- [MITRE ATT&CK - T1593.002 Search Engines](https://attack.mitre.org/techniques/T1593/002)
- [Google Hacking Database (GHDB) - Exploit-DB](https://www.exploit-db.com/google-hacking-database)
- [Shodan - Motor de busca para dispositivos conectados](https://www.shodan.io/)
- [CERT.br - Cartilha de Segurança: Reconhecimento](https://cartilha.cert.br/)
- [GitGuardian - Estado do vazamento de segredos em 2024](https://www.gitguardian.com/state-of-secrets-sprawl)
- [Censys - Internet-wide scanning](https://censys.io/)
- [[t1598-phishing-for-information|T1598 - Phishing for Information]]
- [[t1596-search-open-technical-databases|T1596 - Search Open Technical Databases]]
- [[t1566-phishing|T1566 - Phishing]]
- [[t1078-valid-accounts|T1078 - Valid Accounts]]
- [[t1585-establish-accounts|T1585 - Establish Accounts]]
- [[t1586-compromise-accounts|T1586 - Compromise Accounts]]
---
*Fonte: [MITRE ATT&CK - T1593.002](https://attack.mitre.org/techniques/T1593/002) · Versão 16.2*