Olá, eu estou aprendendo libras por conta de uns amigos que tenho, e sou analitico/curioso em tecnologia, estava questionando o gemini sobre apps para facilitar a comunicação entre os surdos e pessoas comuns, comercios, orgãos do governo e etc... dessa discussão eu propus algumas soluções com base em tecnologia existente e cotidiana (smartphones mais precisamente os iphones), segundo o gemini que ainda tem um gargalo tecnológico na via contrária: o feedback para quem está aprendendo (Sinal > Validação). Gostaria de propor uma discussão sobre uma arquitetura técnica baseada no hardware atual (Mobile Edge Computing) que poderia viabilizar essa funcionalidade sem o custo computacional do processamento de vídeo bruto. ### O Problema Atual A maioria das iniciativas tenta processar vídeo RGB (Webcam 2D). Isso traz três problemas graves para LIBRAS: 1. Oclusão: Quando uma mão cruza a frente do rosto ou da outra mão, a câmera 2D perde a referência. 2. Ruído de Domínio: Variações de iluminação, cor de pele e vestuário dificultam o treinamento da IA. 3. Latência: Processar vídeo em tempo real exige muito do hardware. ### A Proposta: Normalização via Esqueleto (Skeleton-based) Com a popularização de sensores de profundidade (LiDAR em iPhones/iPads) e NPUs dedicadas (Chips A-Series/M-Series), podemos mudar a entrada de dados. Ao invés de alimentar a IA com vídeo, propõe-se utilizar frameworks nativos (como ARKit Body Tracking) para extrair apenas o Vetor de Movimento (Esqueleto 3D). O Fluxo Sugerido: 1. Input: Captura via sensor de profundidade (LiDAR) que resolve o problema de oclusão e distância (Z-axis). 2. Abstração: O dispositivo converte o usuário em um conjunto de coordenadas matemáticas (Joints X, Y, Z) em tempo real. 3. Inferência: Uma IA leve (treinada apenas com dados vetoriais, não imagens) compara o vetor do usuário com o vetor "gabarito" (gravado por um nativo). 4. Feedback: O sistema calcula a divergência geométrica e orienta o aluno: "Levante o cotovelo", "Mão muito próxima do rosto", etc. ### Vantagens dessa Abordagem * Privacidade: Nenhuma imagem do rosto do usuário precisa ser processada ou enviada para nuvem, apenas coordenadas numéricas. * Generalização: O "esqueleto" normaliza os dados. Um adulto e uma criança geram o mesmo padrão vetorial, facilitando o treinamento do modelo. * Performance: Comparar vetores numéricos é infinitamente mais leve do que processar CNNs de vídeo. Alguém da comunidade já realizou testes integrando a saída do ARKit/MediaPipe 3D direto em classificadores de sequência (como LSTMs) para fins pedagógicos? Acredito que esse seja o caminho para um "Duolingo de LIBRAS" viável. Fica a sugestão...
Olá, eu estou aprendendo libras por conta de uns amigos que tenho, e sou analitico/curioso em tecnologia, estava questionando o gemini sobre apps para facilitar a comunicação entre os surdos e pessoas comuns, comercios, orgãos do governo e etc... dessa discussão eu propus algumas soluções com base em tecnologia existente e cotidiana (smartphones mais precisamente os iphones), segundo o gemini que ainda tem um gargalo tecnológico na via contrária: o feedback para quem está aprendendo (Sinal > Validação). Gostaria de propor uma discussão sobre uma arquitetura técnica baseada no hardware atual (Mobile Edge Computing) que poderia viabilizar essa funcionalidade sem o custo computacional do processamento de vídeo bruto. ### O Problema Atual A maioria das iniciativas tenta processar vídeo RGB (Webcam 2D). Isso traz três problemas graves para LIBRAS: 1. Oclusão: Quando uma mão cruza a frente do rosto ou da outra mão, a câmera 2D perde a referência. 2. Ruído de Domínio: Variações de iluminação, cor de pele e vestuário dificultam o treinamento da IA. 3. Latência: Processar vídeo em tempo real exige muito do hardware. ### A Proposta: Normalização via Esqueleto (Skeleton-based) Com a popularização de sensores de profundidade (LiDAR em iPhones/iPads) e NPUs dedicadas (Chips A-Series/M-Series), podemos mudar a entrada de dados. Ao invés de alimentar a IA com vídeo, propõe-se utilizar frameworks nativos (como ARKit Body Tracking) para extrair apenas o Vetor de Movimento (Esqueleto 3D). O Fluxo Sugerido: 1. Input: Captura via sensor de profundidade (LiDAR) que resolve o problema de oclusão e distância (Z-axis). 2. Abstração: O dispositivo converte o usuário em um conjunto de coordenadas matemáticas (Joints X, Y, Z) em tempo real. 3. Inferência: Uma IA leve (treinada apenas com dados vetoriais, não imagens) compara o vetor do usuário com o vetor "gabarito" (gravado por um nativo). 4. Feedback: O sistema calcula a divergência geométrica e orienta o aluno: "Levante o cotovelo", "Mão muito próxima do rosto", etc. ### Vantagens dessa Abordagem * Privacidade: Nenhuma imagem do rosto do usuário precisa ser processada ou enviada para nuvem, apenas coordenadas numéricas. * Generalização: O "esqueleto" normaliza os dados. Um adulto e uma criança geram o mesmo padrão vetorial, facilitando o treinamento do modelo. * Performance: Comparar vetores numéricos é infinitamente mais leve do que processar CNNs de vídeo. Alguém da comunidade já realizou testes integrando a saída do ARKit/MediaPipe 3D direto em classificadores de sequência (como LSTMs) para fins pedagógicos? Acredito que esse seja o caminho para um "Duolingo de LIBRAS" viável. Fica a sugestão...