[Proposta de Arquitetura] Feedback de LIBRAS em Tempo Real via ARKit/LiDAR e Normalização de Esqueleto

Olá, eu estou aprendendo libras por conta de uns amigos que tenho, e sou analitico/curioso em tecnologia, estava questionando o gemini sobre apps para facilitar a comunicação entre os surdos e pessoas comuns, comercios, orgãos do governo e etc... dessa discussão eu propus algumas soluções com base em tecnologia existente e cotidiana (smartphones mais precisamente os iphones), segundo o gemini que ainda tem um gargalo tecnológico na via contrária: o feedback para quem está aprendendo (Sinal > Validação). Gostaria de propor uma discussão sobre uma arquitetura técnica baseada no hardware atual (Mobile Edge Computing) que poderia viabilizar essa funcionalidade sem o custo computacional do processamento de vídeo bruto. ### O Problema Atual A maioria das iniciativas tenta processar vídeo RGB (Webcam 2D). Isso traz três problemas graves para LIBRAS: 1. **Oclusão:** Quando uma mão cruza a frente do rosto ou da outra mão, a câmera 2D perde a referência. 2. **Ruído de Domínio:** Variações de iluminação, cor de pele e vestuário dificultam o treinamento da IA. 3. **Latência:** Processar vídeo em tempo real exige muito do hardware. ### A Proposta: Normalização via Esqueleto (Skeleton-based) Com a popularização de sensores de profundidade (LiDAR em iPhones/iPads) e NPUs dedicadas (Chips A-Series/M-Series), podemos mudar a entrada de dados. Ao invés de alimentar a IA com vídeo, propõe-se utilizar frameworks nativos (como ARKit Body Tracking) para extrair apenas o **Vetor de Movimento (Esqueleto 3D)**. **O Fluxo Sugerido:** 1. **Input:** Captura via sensor de profundidade (LiDAR) que resolve o problema de oclusão e distância (Z-axis). 2. **Abstração:** O dispositivo converte o usuário em um conjunto de coordenadas matemáticas (Joints X, Y, Z) em tempo real. 3. **Inferência:** Uma IA leve (treinada apenas com dados vetoriais, não imagens) compara o vetor do usuário com o vetor "gabarito" (gravado por um nativo). 4. **Feedback:** O sistema calcula a divergência geométrica e orienta o aluno: "Levante o cotovelo", "Mão muito próxima do rosto", etc. ### Vantagens dessa Abordagem * **Privacidade:** Nenhuma imagem do rosto do usuário precisa ser processada ou enviada para nuvem, apenas coordenadas numéricas. * **Generalização:** O "esqueleto" normaliza os dados. Um adulto e uma criança geram o mesmo padrão vetorial, facilitando o treinamento do modelo. * **Performance:** Comparar vetores numéricos é infinitamente mais leve do que processar CNNs de vídeo. Alguém da comunidade já realizou testes integrando a saída do ARKit/MediaPipe 3D direto em classificadores de sequência (como LSTMs) para fins pedagógicos? Acredito que esse seja o caminho para um "Duolingo de LIBRAS" viável. Fica a sugestão... 

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

[Proposta de Arquitetura] Feedback de LIBRAS em Tempo Real via ARKit/LiDAR e Normalização de Esqueleto #1

Metadata

Assignees

Labels

Projects

Milestone

Relationships

Development

[Proposta de Arquitetura] Feedback de LIBRAS em Tempo Real via ARKit/LiDAR e Normalização de Esqueleto #1

Description

Metadata

Metadata

Assignees

Labels

Projects

Milestone

Relationships

Development

Issue actions