Extraindo conhecimento espacial de transmissões de atletismo para estimativa de pose humana monocular em 3D
Scientific Reports volume 13, Artigo número: 14031 (2023) Citar este artigo
80 acessos
Detalhes das métricas
A coleta de grandes conjuntos de dados para investigações sobre a locomoção humana é um processo caro e trabalhoso. Os métodos para estimativa de pose humana em 3D na natureza estão se tornando cada vez mais precisos e em breve poderão ser suficientes para auxiliar na coleta de conjuntos de dados para análise da cinemática de execução de dados de transmissão de TV. No domínio da pesquisa biomecânica, pequenas diferenças nos ângulos 3D desempenham um papel importante. Mais precisamente, as margens de erro do processo de coleta de dados precisam ser menores que a variação esperada entre os atletas. Neste trabalho, propomos um método para inferir a geometria global de gravações de estádios de atletismo usando demarcações de pistas. Ao projetar esqueletos 3D estimados de volta na imagem usando esta geometria global, mostramos que os atuais métodos de estimativa de pose humana 3D de última geração não são (ainda) precisos o suficiente para serem usados em pesquisas cinemáticas.
A aplicação da estimativa da pose humana (HPE) nos esportes tem ganhado popularidade constantemente. Uma revisão recente mostra uma infinidade de aplicações possíveis1. Estes vão desde a estimativa de parâmetros típicos da marcha2, passando pela detecção de “má postura”3, até ao treino de artes marciais4. Embora existam várias publicações que demonstram um desempenho notável no reconhecimento de ações específicas, não foram realizadas muitas pesquisas sobre a aplicação destes métodos para aquisição de dados na investigação em ciências do desporto. Por exemplo, utilizando grandes quantidades de dados cinemáticos de corredores de classe mundial, poderíamos trabalhar no sentido de responder a questões como: Quais são as características de uma excelente forma de corrida? Esta questão aparentemente fundamental ainda não foi completamente respondida5, uma vez que são necessárias mais pesquisas sobre os padrões de movimento de todo o corpo na corrida.
Existe uma grande variação na locomoção humana e não existe uma única forma ou técnica correta de corrida5,6. No entanto, foi demonstrado que a cinemática da corrida é responsável por até 94% da variação na economia de corrida7 para atletas novatos. Até o momento, não existe um modelo unificado para determinar a eficiência de funcionamento e avaliação da cinemática de funcionamento. Em vez disso, a literatura trata de aspectos isolados da forma de corrida, como velocidade do calcanhar ou ângulo de extensão da coxa8. Para fazer declarações mais generalizadas e construir um modelo de corrida mais holístico, precisaríamos de grandes conjuntos de dados detalhados de cinemática de corrida. A configuração convencional do laboratório cinemático é muito cara e demorada9. Ele usa marcadores que são fixados no atleta e câmeras de altíssima velocidade e alta precisão. Embora existam abordagens para validar sistemas de visão em laboratório10, as limitações do ambiente de laboratório permanecem: é difícil adquirir atletas de classe mundial para se submeterem a essas investigações e virtualmente impossível coletar um conjunto de dados grande o suficiente para dar conta de toda a variabilidade possível entre atletas.
Por outro lado, uma abordagem puramente baseada na visão para recolher os mesmos dados poderia ser uma alternativa barata e altamente escalável. Tal abordagem, no entanto, precisaria ser validada em relação às medições padrão-ouro. Se for suficientemente fiável, permitiria aproveitar as gravações existentes de transmissões televisivas para recolher conjuntos de dados em grande escala. Devido ao denso histórico de gravações, seria possível realizar estudos de longo prazo em atletas individuais para monitorar suas mudanças na cinemática ao longo do tempo, bem como ao longo de uma única corrida. Serão possíveis de estudar fatores como fadiga em combinação com ritmo e estratégia de corrida, que não são acessíveis em laboratório.
A fim de validar e usar a estimativa de pose humana 3D na natureza como uma ferramenta de pesquisa para a ciência do esporte, felizmente existe um grande subconjunto de eventos de corrida que deve permitir a derivação de informações adicionais a partir de imagens existentes: corridas em um estádio de atletismo. As demarcações das pistas, bem como os marcadores adicionais do bloco de partida e da linha de chegada, são padronizados entre os locais. Utilizando esses marcadores é possível triangular a câmera do estádio e assim reconstruir toda a cena 3D.