반응형
오늘 소개할 논문은 Pilz et al.의 2018년 연구인 "Local Group Invariance for Heart Rate Estimation from Face Videos in the Wild" 입니다. 이 논문은 군 이론(group theory) 기반의 수학적 불변성(invariance)을 이용해 모션, 조명 변화, 표정 등 다양한 요인에도 강한 심박수 추정 모델을 제안한 혁신적인 접근입니다.
CVPR 2018 Open Access Repository
Christian S. Pilz, Sebastian Zaunseder, Jarek Krajewski, Vladimir Blazek; Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR) Workshops, 2018, pp. 1254-1262 We study the impact of prior knowledge about invariance for the ta
openaccess.thecvf.com
🎯 연구 배경
- 영상 기반 심박 추정(rPPG)은 최근 컴퓨터 비전, 헬스케어, 감정 인식 등 다양한 분야에서 활발히 연구되고 있습니다. 그러나 실생활에서의 적용은 여전히 큰 난관을 안고 있는데요:
- 고개 움직임이나 표정 변화
- 조명 변화, 실외 환경
- 저가 카메라의 품질 한계
- 심지어 페달 밟는 운동 주기와 혼동되는 심박 주파수
- 이러한 '방해 요인(nuisance factors)'들은 rPPG 신호를 심각하게 왜곡시켜, 기존의 알고리즘(POS, ICA, SSR 등)이 오동작하는 경우가 많습니다.
- 이에 저자들은 군 이론(Group Theory)에 기반한 수학적 불변성(invariance) 개념을 적용하여, '무엇이 변하지 않는가'를 찾는 방법으로 문제를 해결하고자 했습니다.
💡 핵심 아이디어: Local Group Invariance (LGI)
- 사람의 얼굴 움직임은 $SE(3)$ (3D 강체 변환) 그룹의 작용으로 모델링 가능
- 우리가 원하는 혈류 변화에 의한 색상 신호는 그에 대해 불변(invariant)
- 따라서, 이 변환 그룹의 작용을 제거(투사)하면, 방해 요인을 제거하고 심박 신호만을 분리할 수 있음
🧩 알고리즘 구성
- 입력 신호 정리:
- 얼굴 ROI의 RGB 평균값을 시간축 따라 수집 → 벡터 $x(t)$
- 다수의 시점에서 RGB 벡터의 공분산 행렬 계산
- 방해 요인 제거를 위한 주성분 제거:
- 공분산 행렬의 최대 고유값 방향은 대개 움직임이 지배
- 이 방향을 제거하는 투사 행렬 $P$를 통해 $x(t)$를 움직임에 수직인 하이퍼플레인에 투사
- $SE(3)$ 변환에 대한 불변성 보장:
- 위 투사된 피처 벡터를 $SE(3$) 불변이 되도록 선형변환
- 결과 벡터는 혈류 변화에 더 민감한 형태로 표현됨
- 모델링 공간:
- 심박은 완전 주기적이 아니라 준주기적(quasi-periodic)임
- 따라서 확률적 주파수 모델(Stochastic Oscillator)로 심박 파형을 표현
- 이 확률 모델은 Gaussian Mixture + Markov Model로 추정됨
📊 실험
- 데이터셋
- 25명 사용자 × 4가지 시나리오 = 총 100개 비디오
- 정지(resting)
- 고개 회전/표정 변화(rotation)
- 자전거 운동(gym)
- 도시 환경 속 대화(conversation)
- 영상 해상도: 768×576, 25fps, 무압축
- Ground truth: CMS50E PPG 센서 (60Hz)
- 25명 사용자 × 4가지 시나리오 = 총 100개 비디오
- 비교 대상 알고리즘
알고리즘 | 설명 |
ICA | 고전적 blind source separation |
SSR | Spatial Subspace Rotation |
POS | Plane-Orthogonal-to-Skin |
LGI | 제안한 방법 |
- 정량 성능 비교
- 정지 상태에서는 모든 알고리즘 우수
- 모션 상황에서는 LGI만 일관적으로 높은 성능
- POS는 도시 환경에서는 완전히 붕괴
- LGI는 평균적으로 상관계수 0.87, RMSE 11 bpm
시나리오 | ICA | SSR | POS | LGI |
Resting | 0.97 / 1.4 | 0.97 / 2.2 | 0.96 / 2.1 | 0.96 / 3.3 |
Rotation | 0.16 / 10.8 | 0.51 / 7.6 | 0.56 / 5.3 | 0.97 / 2.9 |
Gym | 0.41 / 16.6 | 0.08 / 18.6 | 0.09 / 23.1 | 0.63 / 13.1 |
Talk | 0.13 / 23.1 | 0.14 / 15.4 | 0.30 / 12.5 | 0.72 / 4.3 |
- 특이 사항
- LGI는 모델링된 주파수 범위에서 오차 편향이 존재함 → resting 시 오히려 성능 하락
- 그러나 운동/대화 등 고난이도 환경에서는 압도적 우수
✅ 정리 및 시사점
- 주요 기여
- 군 이론 기반 수학적 정식화를 통해 모션-조명-표정에 강한 불변 특징 도출
- 심박의 비정상성(non-stationary)을 고려한 확률 모델링 도입
- 고난이도 자연 환경에서도 강건하게 심박 추정 가능한 알고리즘(LGI) 제안
- 향후 확장 가능성
- LGI는 딥러닝 기반 모델의 전처리 피처로 통합 가능
- 또는 추론 단계에서 SE(3)-invariant regularization으로 활용 가능
- Self-supervised learning과 결합 시 일반화 능력 강화 기대
📝 마무리
- 현실적인 영상 환경에서 심박수를 정확하게 추정하는 일은 여전히 쉽지 않은 도전 과제입니다. 하지만 이 논문은 '변하지 않는 것을 찾자'는 고전적 철학을 수학적으로 풀어내어 현실 세계에서도 잘 작동하는 알고리즘을 만들어냈다는 점에서 큰 의미를 갖습니다.
- LGI는 기존 알고리즘이 놓치고 있던 물리적·기하학적 인사이트를 강화한 알고리즘으로, 앞으로의 rPPG 기술 발전에 큰 영감을 줄 수 있는 연구입니다.
반응형