카메라 없이 몸의 움직임을 그려내는 법 — 작은 센서 몇 개의 마법
Dominik Hollidt, Tommaso Bendinelli, Christian Holz. “Ultra Diffusion Poser: Diffusion-Based Human Motion Tracking From Sparse Inertial Sensors and Ranging-Based Between-Sensor Distances.” Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), pp. 7036-7046, 2026. 논문 보기 ↗
카메라 없이 몸에 붙인 작은 관성 센서 몇 개와 센서 사이 거리 측정만으로 전신 동작을 복원하는 새 디퓨전 모델 이야기예요. 거리에 숨은 기하학적 단서를 살려, 기존 방식보다 관절 위치 오차를 최대 22%까지 줄였답니다.
카메라 없이, 내 몸의 움직임을 그려낼 수 있다면
혹시 영화나 게임 속 캐릭터가 사람처럼 자연스럽게 움직이는 장면을 보면서 "저건 대체 어떻게 만드는 걸까?" 하고 궁금했던 적 없으세요? 보통은 온몸에 작은 공을 잔뜩 붙인 배우가, 사방이 카메라로 둘러싸인 특수한 스튜디오 안에서 연기를 합니다. 이렇게 사람의 움직임을 데이터로 잡아내는 기술을 '모션 캡처(motion capture)'라고 불러요.
그런데 이 방식에는 분명한 한계가 있습니다. 비싼 카메라 장비가 가득한 전용 공간이 필요하고, 카메라에 몸이 가려지면 움직임을 놓쳐버리기도 하죠. 무엇보다 우리가 일상을 보내는 거실, 헬스장, 야외 공원에서는 도무지 쓸 수가 없어요. VR 헤드셋을 쓰고 가상 세계를 누비거나, 운동 자세를 교정받거나, 내 움직임을 그대로 아바타로 옮기고 싶을 때 — 카메라 스튜디오를 통째로 들고 다닐 수는 없으니까요.

그래서 연구자들은 오래전부터 다른 길을 고민해 왔습니다. "카메라 대신, 몸에 붙이는 작은 센서만으로 움직임을 알아낼 수는 없을까?" 만약 그게 가능하다면 모션 캡처는 더 이상 특별한 스튜디오 안에 갇혀 있지 않아도 됩니다. 출근길 지하철에서도, 동네 산책로에서도, 잠들기 전 침대 위에서도 우리 몸의 움직임을 데이터로 담아낼 수 있게 되는 거예요. 오늘 소개해 드릴 논문은 바로 이 질문에 한 걸음 더 다가간 멋진 연구예요. 제목은 조금 길지만 — 'Ultra Diffusion Poser' 라는 이름의 새로운 방법입니다. 이름 속 'Ultra'는 뒤에서 만나게 될 UWB라는 기술과, 'Diffusion'은 요즘 그림 생성 AI로 유명한 그 방식과 맞닿아 있답니다. 하나씩 천천히 풀어가 볼게요.
이 연구가 특별한 이유
몸에 붙이는 작은 센서, 그중에서도 가장 흔한 것이 IMU(관성 측정 장치, Inertial Measurement Unit)입니다. 이름은 거창하지만 사실 우리 모두 이미 가지고 있어요. 스마트폰을 가로로 돌리면 화면이 따라 돌아가죠? 스마트워치가 걸음 수를 세어주고요? 바로 이 IMU 덕분입니다. IMU는 가속도(얼마나 빠르게 움직이는지)와 회전(어느 방향으로 도는지)을 측정하는, 아주 작고 저렴한 센서예요.
카메라 없이 몸 곳곳에 이 IMU를 몇 개만 붙여서 전신 동작을 알아내는 연구는 이미 진행되어 왔습니다. 카메라처럼 시야가 가려질 걱정도 없고, 입고 다닐 수 있으니 일상 속 어디서든 쓸 수 있다는 큰 장점이 있죠.

그런데 IMU에는 골치 아픈 약점이 하나 있습니다. 바로 '드리프트(drift)'라고 부르는 현상이에요. IMU는 "지금 이만큼 움직였다"는 변화량을 계속 더해가는 방식으로 위치를 추정하는데, 아주 작은 오차라도 시간이 지나면서 차곡차곡 쌓입니다. 마치 눈을 감고 "한 걸음, 또 한 걸음" 세면서 걷다 보면, 처음엔 거의 맞다가도 점점 실제 위치와 어긋나 버리는 것과 같아요. 시간이 지날수록 점점 더 엉뚱한 곳을 가리키게 되는 거죠.
이 드리프트를 줄이기 위해 최근 연구들은 UWB(초광대역, Ultra-Wideband)라는 기술을 함께 씁니다. UWB는 센서와 센서 사이의 '거리'를 꽤 정확하게 잴 수 있는 기술이에요. 전파가 한 센서에서 다른 센서까지 가는 데 걸리는 시간을 아주 정밀하게 재서 거리를 계산하는 방식이죠. 예를 들어 "손목 센서와 발목 센서가 지금 80센티미터 떨어져 있다"는 것을 알려주는 식입니다. 이 거리 정보를 IMU 신호와 함께 쓰면, IMU 혼자서는 점점 어긋나던 위치 추정을 거리라는 '닻'으로 붙잡아 주어 드리프트를 어느 정도 잡아줄 수 있습니다.
그런데 여기서 이 논문이 던지는 날카로운 지적이 있어요. 지금까지의 연구들은 이 UWB 거리 정보를 그저 "추가 입력 재료" 정도로만 사용했다는 거예요. 거리라는 숫자가 사실은 센서들의 위치에 대해 강력한 '물리적 제약(physical constraint)'을 담고 있는데, 그 제약을 제대로 살리지 못했다는 거죠. 이 점을 파고든 것이 바로 이 연구가 특별한 이유입니다.
연구는 어떻게 진행됐을까?
연구진의 아이디어를 차근차근 따라가 볼게요. 핵심은 세 가지 재료로 이루어져 있습니다.
첫째, 공간 배치 모듈(Spatial Layout Module). 앞서 UWB가 센서 사이의 거리를 알려준다고 했죠. 그런데 거리들을 충분히 모으면, 단순히 "얼마나 떨어졌나"를 넘어서 센서들이 3차원 공간 속에서 어떻게 배치되어 있는지를 거꾸로 계산해 낼 수 있어요. 마치 친구 세 명이 서로 "나는 너랑 5미터, 쟤랑 3미터 떨어져 있어"라고 말해주면, 우리가 머릿속으로 세 사람의 위치를 대략 그려볼 수 있는 것과 같습니다. 연구진은 이 거리들로부터 센서들의 3차원 위치(3D sensor layout)를 분석적으로(analytically), 즉 수학적으로 깔끔하게 복원하는 모듈을 만들었어요. 이렇게 복원한 위치 정보는 단순한 거리 숫자보다 훨씬 더 풍부하고 유용한 단서가 됩니다.

둘째, 디퓨전 모델(diffusion model). 'Ultra Diffusion Poser'라는 이름에 들어 있는 그 '디퓨전'입니다. 디퓨전 모델은 요즘 그림을 생성하는 AI에서 자주 쓰이는 방식이에요. 아주 거칠게 비유하자면, 처음엔 의미 없는 안갯속 노이즈에서 시작해서 조금씩 안개를 걷어내며 점점 또렷한 결과를 만들어 가는 과정이라고 생각하시면 됩니다. 이 연구에서는 그 '또렷하게 만들어 가는' 결과물이 바로 사람의 자세(pose)예요. 그리고 안개를 걷어낼 때 길잡이로 삼는 단서가 바로 IMU 신호, UWB 거리, 그리고 방금 복원한 3차원 센서 위치 — 이 세 가지를 함께 조건(conditioning signal)으로 넣어줍니다.
셋째, UWB 디퓨전 가이던스(UWB-Diffusion Guidance). 그런데 문제가 하나 더 있었어요. 디퓨전 모델이 자세를 만들어 내다 보면, 실제로 측정된 센서 사이 거리와 어긋나는 결과를 내놓을 수도 있다는 거예요. 예를 들어 UWB는 "두 센서가 80센티미터 떨어져 있다"고 측정했는데, 모델이 그린 자세에서는 그 둘이 1미터쯤 떨어진 것처럼 나오는 식이죠. 그래서 연구진은 자세를 만들어 가는 과정 내내, 예측한 자세가 실제 측정 거리와 잘 들어맞도록 슬쩍슬쩍 방향을 잡아주는 장치를 추가했습니다. 그게 바로 UWB 디퓨전 가이던스예요.
정리하면, 거리에서 위치를 복원하고(공간 배치 모듈), 그 풍부한 단서로 자세를 그려내며(디퓨전 모델), 그 과정에서 측정값과 어긋나지 않도록 계속 다잡아주는(가이던스) — 이 세 박자가 어우러진 방법인 셈입니다.
핵심 발견
그래서 결과는 어땠을까요? 논문에 담긴 사실만 정확히 전해 드릴게요.
이 세 가지 기여가 함께 작동하면서, 이 방법은 같은 문제를 다루는 기존 연구들 가운데 최고 수준의 성능(state-of-the-art)을 달성했습니다. 구체적으로는 관절 위치 오차(joint position error)를 기존 방법 대비 최대 22%까지 줄였어요. 관절 위치 오차란 쉽게 말해 "AI가 추정한 팔꿈치·무릎 같은 관절의 위치가 실제 위치에서 얼마나 벗어났는가"를 나타내는 지표인데, 이 숫자가 작을수록 더 정확하다는 뜻입니다.

여기서 가장 중요한 통찰은 이거예요. UWB 거리가 담고 있던 '기하학적 제약(geometric constraints)'을 단순한 입력 재료로 흘려보내지 않고, 센서들의 3차원 배치를 복원하는 데 적극적으로 활용한 것 — 바로 그 발상의 전환이 정확도 향상으로 이어졌다는 점입니다. 같은 재료라도 어떻게 요리하느냐에 따라 결과가 달라진다는 걸 보여준 셈이죠.
참고로 이 22%라는 숫자, 그리고 '최고 수준 성능'이라는 표현은 모두 논문 초록에 명시된 내용 그대로입니다. 그 외에 구체적인 데이터셋 규모나 다른 세부 수치는 초록에 나와 있지 않아 여기서 함부로 덧붙이지 않을게요.
이게 내 삶과 무슨 상관이 있을까?
"전신 모션 캡처라니, 나랑은 좀 먼 이야기 아닌가?" 싶으실 수도 있어요. 하지만 이 기술이 향하는 방향은 의외로 우리 일상과 가깝습니다.
생각해 보세요. 거실에서 VR 헤드셋을 쓰고 게임을 할 때, 카메라 없이 몸에 붙인 작은 센서만으로 내 온몸이 가상 세계에 그대로 옮겨진다면 얼마나 자연스러울까요. 헬스장에서 스쿼트나 데드리프트 자세가 올바른지, 카메라 앞에 서지 않고도 내가 차고 있는 센서들이 알려준다면요. 재활 치료를 받는 분이 집에서 운동하면서, 동작이 정확한지 데이터로 확인받을 수 있다면요.

이 모든 시나리오의 공통점은 '값비싼 카메라 스튜디오 없이, 입고 다니는 작은 센서만으로' 움직임을 읽어낸다는 거예요. 그리고 그렇게 되려면 적은 수의 센서로도 정확해야 하고, 시간이 지나도 드리프트로 어긋나지 않아야 합니다. 센서가 적을수록 착용은 편하지만 정보는 부족해지는 — 이 까다로운 줄타기를 얼마나 잘 해내느냐가 기술의 실용성을 가르죠. 오늘 본 연구는 바로 그 '적은 센서로 더 정확하게'라는 방향에 정직하게 한 걸음을 더한 것이고요. 거리 측정 속에 숨어 있던 단서를 끝까지 짜내어 정확도를 끌어올린 이 발상은, 웨어러블이 우리 몸의 움직임을 점점 더 잘 이해하게 되는 큰 흐름의 한 장면인 셈입니다.
LINK BAND로 살펴보기
그렇다면 우리가 만드는 LINK BAND 2.0은 이 이야기와 어떻게 연결될까요? 솔직하게 짚어드리는 게 좋을 것 같아요.
LINK BAND 2.0은 뇌파(EEG), 맥파(PPG), 그리고 가속도(ACC, accelerometer)를 측정하는 웨어러블입니다. 이 중에서 오늘 이야기와 직접 맞닿아 있는 건 바로 가속도 센서, 즉 움직임을 잡아내는 ACC예요. 논문에 등장하는 IMU는 가속도계와 자이로(회전 센서)를 묶은 것인데, LINK BAND의 ACC도 같은 가속도 측정의 원리를 공유합니다. 머리나 몸의 움직임, 그리고 하루의 활동량을 데이터로 담아내는 것이죠.
다만 여기서 정직하게 말씀드릴 게 있어요. 오늘 논문이 다룬 것은 몸 여러 곳에 붙인 여러 개의 IMU와 UWB 거리 측정을 결합해 '전신 자세'를 복원하는 일입니다. LINK BAND 하나로 팔다리까지 포함한 전신 동작을 그려내는 것은 아니에요. 전신 포즈 캡처에는 여러 개의 센서가 필요하니까요. LINK BAND의 ACC가 알려주는 것은 주로 착용한 부위의 움직임과 활동 패턴이라고 이해해 주시면 됩니다.
그럼에도 둘 사이에는 분명한 공통점이 있어요. '웨어러블이 우리 몸의 움직임을 센서로 읽어낸다'는 그 근본 원리는 똑같다는 점입니다. 카메라 없이, 입고 다니는 작은 센서로 움직임의 단서를 모으는 — 그 큰 흐름 위에 오늘의 연구와 LINK BAND가 함께 서 있는 셈이죠.
오늘부터 해볼 수 있는 작은 실험
거창한 장비 없이도, 움직임 데이터의 매력을 직접 느껴볼 수 있는 작은 실험을 권해드릴게요.
혹시 LINK BAND를 쓰고 계시다면, 또는 스마트워치나 스마트폰의 활동 기록 기능이라도 좋으니, 하루 동안 자신의 '움직임 데이터'를 한번 들여다보세요. 아침에 걸을 때, 가만히 앉아 일할 때, 저녁에 운동할 때 — 가속도 데이터가 어떻게 달라지는지 관찰해 보는 거예요. 격렬하게 움직일 때와 조용히 쉴 때의 패턴이 눈에 띄게 다른 걸 발견하실 수 있을 거예요.
한 걸음 더 나아가, 같은 동작을 천천히 할 때와 빠르게 할 때 데이터가 어떻게 변하는지 비교해 보셔도 좋아요. 이렇게 직접 관찰하다 보면, 오늘 논문 속 연구자들이 "이 센서 신호 안에 우리 몸의 움직임이 어떻게 담겨 있을까?"를 고민한 그 출발점을, 여러분도 작게나마 함께 경험하시게 될 거예요. 데이터를 그저 숫자로 보는 게 아니라, 내 몸의 이야기로 읽기 시작하는 첫걸음이랍니다.
이 연구가 당신에게 던지는 질문
오늘 우리는 센서 사이의 '거리'라는 단순한 정보가, 어떻게 활용하느냐에 따라 전혀 다른 가치를 가질 수 있는지를 보았습니다. 같은 재료라도 그 안에 숨은 제약과 의미를 끝까지 파고들었을 때, 비로소 더 정확한 답이 나왔죠.
그래서 마지막으로 이런 질문을 함께 나누고 싶어요. 지금 우리 곁의 웨어러블이 묵묵히 모으고 있는 움직임 데이터 속에는, 우리가 아직 "그저 숫자"로만 흘려보내고 있는 어떤 소중한 단서가 숨어 있지는 않을까요? 그리고 그 단서를 제대로 읽어낼 수 있다면, 우리는 우리 몸에 대해 무엇을 더 알게 될까요?
LINK BAND 인사이트
LINK BAND 2.0의 ACC(가속도) 센서는 이 연구 속 IMU와 같은 '움직임을 읽는' 원리를 공유해요. 전신 포즈 복원은 여러 센서가 필요하지만, 웨어러블로 몸의 움직임을 데이터로 담는다는 출발점은 같답니다.