Aprendizado Não Supervisionado (Unsupervised Learning)
Definição
Aprendizado Não Supervisionado (Unsupervised Learning) é uma abordagem de aprendizado de máquina onde os algoritmos trabalham com dados sem rótulos.
Ou seja, o sistema recebe apenas os atributos de entrada, mas não sabe a resposta esperada. O objetivo é descobrir padrões, agrupamentos, estruturas ou relações ocultas nos dados — sem nenhuma supervisão humana direta.
É como dar ao algoritmo um monte de informações desorganizadas e pedir para ele entender sozinho o que tem ali.
Exemplos de uso:
- Agrupar clientes com comportamento de compra semelhante.
- Reduzir dimensionalidade para visualização de dados.
- Detectar anomalias em grandes volumes de informação.
Exemplo prático (Python) — Agrupamento com K-Means
Vamos usar o algoritmo K-Means para identificar grupos de flores no mesmo conjunto de dados Iris, mas sem mostrar as espécies corretas ao modelo — ele não sabe o que é "setosa", "versicolor" ou "virginica". Ele apenas recebe as medidas numéricas e tenta formar agrupamentos com base em similaridade.
Sobre o KMeans
O K-Means agrupa os dados em K grupos baseados na proximidade entre pontos, sem saber previamente a que grupo cada ponto pertence.
Código
from sklearn.datasets import load_iris
from sklearn.cluster import KMeans
import pandas as pd
# 1. Carregar os dados
iris = load_iris()
X = iris.data # Somente os atributos — sem rótulos
# 2. Criar modelo de agrupamento com 3 grupos (porque sabemos que há 3 espécies)
modelo = KMeans(n_clusters=3, random_state=0)
modelo.fit(X)
# 3. Resultados
grupos = modelo.labels_
# 4. Comparar agrupamento com rótulos reais
df = pd.DataFrame({
"Medidas": list(X),
"Grupo (KMeans)": grupos,
"Espécie Real": iris.target
})
print(df.head())
Saída esperada (exemplo simplificado)
Medidas | Grupo (KMeans) | Espécie Real |
---|---|---|
[5.1, 3.5, 1.4, 0.2] | 1 | 0 |
[4.9, 3.0, 1.4, 0.2] | 1 | 0 |
[6.2, 3.4, 5.4, 2.3] | 2 | 2 |
[5.9, 3.0, 5.1, 1.8] | 2 | 2 |
[5.0, 3.4, 1.6, 0.4] | 1 | 0 |
Observe que o modelo agrupou os dados com base nas semelhanças nas medidas, sem ter visto as espécies reais.
Mesmo sem supervisão, o K-Means consegue formar grupos bastante próximos da realidade.
O ciclo do Aprendizado Não Supervisionado
[Conjunto de Dados Não Rotulado]
↓
[Análise ou Agrupamento]
↓
[Descoberta de Padrões]
↓
[Visualização ou Interpretação]
↓
[Ajustes de Parâmetros (ex: número de clusters)]
Essa abordagem é especialmente útil quando não temos rótulos disponíveis, como em grandes bases de clientes, logs de sistemas, dados de sensores ou interações de usuários. O aprendizado não supervisionado permite extrair valor de dados brutos, identificando automaticamente padrões, grupos naturais e anomalias — mesmo sem sabermos, de antemão, o que estamos procurando.