Data Scientist — projetos end-to-end com foco em impacto de negócio real.
Clusterização de clientes de e-commerce com deploy em AWS
Pipeline end-to-end de segmentação não supervisionada: feature engineering com 17 variáveis comportamentais, comparação experimental entre KMeans, GMM, H-Clustering e DBSCAN (com embeddings via Random Forest + UMAP), Silhouette Score de 0.72, e deploy produtivo em EC2 + RDS PostgreSQL + Metabase.
Resultado de negócio: identificação de 35 clientes VIP (0,8% da base) responsáveis por 24% da receita total, e 1.200 clientes em risco de churn.
Ranqueamento de clientes por propensão à compra
Solução de Learning to Rank para priorizar clientes com maior probabilidade de contratar seguro veicular. Modelos Random Forest e XGBoost avaliados com Gain@K, Lift@K e NDCG. Estimativa de uplift financeiro e integração com Google Sheets via API em Flask.
Previsão de vendas end-to-end com deploy via Telegram
Modelo XGBoost com seleção de features via Boruta + ExtraTrees e tuning com Optuna, otimizado para ambiente com restrição de memória (512 MB). Deploy como API Flask com bot no Telegram para consulta de previsões por loja.
| Categoria | Ferramentas |
|---|---|
| Linguagem | Python 3.11 |
| Machine Learning | Scikit-learn, XGBoost, UMAP |
| Data | Pandas, NumPy, SQLAlchemy |
| Cloud | AWS EC2, S3, RDS |
| Banco de Dados | PostgreSQL, MySQL |
| Dashboards | Metabase, Streamlit |
| Deploy | Flask, API REST |
| Ambiente | Jupyter Notebook, VSCode |