Deep Learning/Remote Heart Rate Estimation

Local group invariance for heart rate estimation from face videos in the wild (LGI)

나희와더기 2025. 4. 17. 15:42
반응형

오늘 소개할 논문은 Pilz et al.의 2018년 연구인  "Local Group Invariance for Heart Rate Estimation from Face Videos in the Wild" 입니다. 이 논문은 군 이론(group theory) 기반의 수학적 불변성(invariance)을 이용해 모션, 조명 변화, 표정 등 다양한 요인에도 강한 심박수 추정 모델을 제안한 혁신적인 접근입니다.

 

CVPR 2018 Open Access Repository

Christian S. Pilz, Sebastian Zaunseder, Jarek Krajewski, Vladimir Blazek; Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR) Workshops, 2018, pp. 1254-1262 We study the impact of prior knowledge about invariance for the ta

openaccess.thecvf.com


🎯 연구 배경

  • 영상 기반 심박 추정(rPPG)은 최근 컴퓨터 비전, 헬스케어, 감정 인식 등 다양한 분야에서 활발히 연구되고 있습니다. 그러나 실생활에서의 적용은 여전히 큰 난관을 안고 있는데요:
    • 고개 움직임이나 표정 변화
    • 조명 변화, 실외 환경
    • 저가 카메라의 품질 한계
    • 심지어 페달 밟는 운동 주기와 혼동되는 심박 주파수
  • 이러한 '방해 요인(nuisance factors)'들은 rPPG 신호를 심각하게 왜곡시켜, 기존의 알고리즘(POS, ICA, SSR 등)이 오동작하는 경우가 많습니다.
  • 이에 저자들은 군 이론(Group Theory)에 기반한 수학적 불변성(invariance) 개념을 적용하여, '무엇이 변하지 않는가'를 찾는 방법으로 문제를 해결하고자 했습니다.

💡  핵심 아이디어: Local Group Invariance (LGI)

  • 사람의 얼굴 움직임은 $SE(3)$ (3D 강체 변환) 그룹의 작용으로 모델링 가능
  • 우리가 원하는 혈류 변화에 의한 색상 신호는 그에 대해 불변(invariant)
  • 따라서, 이 변환 그룹의 작용을 제거(투사)하면, 방해 요인을 제거하고 심박 신호만을 분리할 수 있음

🧩 알고리즘 구성

  • 입력 신호 정리:
    • 얼굴 ROI의 RGB 평균값을 시간축 따라 수집 → 벡터 $x(t)$
    • 다수의 시점에서 RGB 벡터의 공분산 행렬 계산
  • 방해 요인 제거를 위한 주성분 제거:
    • 공분산 행렬의 최대 고유값 방향은 대개 움직임이 지배
    • 이 방향을 제거하는 투사 행렬 $P$를 통해 $x(t)$를 움직임에 수직인 하이퍼플레인에 투사
  • $SE(3)$ 변환에 대한 불변성 보장:
    • 위 투사된 피처 벡터를 $SE(3$) 불변이 되도록 선형변환
    • 결과 벡터는 혈류 변화에 더 민감한 형태로 표현됨
  • 모델링 공간:
    • 심박은 완전 주기적이 아니라 준주기적(quasi-periodic)임
    • 따라서 확률적 주파수 모델(Stochastic Oscillator)로 심박 파형을 표현
    • 이 확률 모델은 Gaussian Mixture + Markov Model로 추정됨

📊 실험

  • 데이터셋
    • 25명 사용자 × 4가지 시나리오 = 총 100개 비디오
      • 정지(resting)
      • 고개 회전/표정 변화(rotation)
      • 자전거 운동(gym)
      • 도시 환경 속 대화(conversation)
    • 영상 해상도: 768×576, 25fps, 무압축
    • Ground truth: CMS50E PPG 센서 (60Hz)
  • 비교 대상 알고리즘
알고리즘 설명
ICA 고전적 blind source separation
SSR Spatial Subspace Rotation
POS Plane-Orthogonal-to-Skin
LGI 제안한 방법
  • 정량 성능 비교
    • 정지 상태에서는 모든 알고리즘 우수
    • 모션 상황에서는 LGI만 일관적으로 높은 성능
    • POS는 도시 환경에서는 완전히 붕괴
    • LGI는 평균적으로 상관계수 0.87, RMSE 11 bpm
시나리오 ICA SSR POS LGI
Resting 0.97 / 1.4 0.97 / 2.2 0.96 / 2.1 0.96 / 3.3
Rotation 0.16 / 10.8 0.51 / 7.6 0.56 / 5.3 0.97 / 2.9
Gym 0.41 / 16.6 0.08 / 18.6 0.09 / 23.1 0.63 / 13.1
Talk 0.13 / 23.1 0.14 / 15.4 0.30 / 12.5 0.72 / 4.3
  • 특이 사항
    • LGI는 모델링된 주파수 범위에서 오차 편향이 존재함 → resting 시 오히려 성능 하락
    • 그러나 운동/대화 등 고난이도 환경에서는 압도적 우수

✅ 정리 및 시사점

  • 주요 기여
    • 군 이론 기반 수학적 정식화를 통해 모션-조명-표정에 강한 불변 특징 도출
    • 심박의 비정상성(non-stationary)을 고려한 확률 모델링 도입
    • 고난이도 자연 환경에서도 강건하게 심박 추정 가능한 알고리즘(LGI) 제안
  • 향후 확장 가능성
    • LGI는 딥러닝 기반 모델의 전처리 피처로 통합 가능
    • 또는 추론 단계에서 SE(3)-invariant regularization으로 활용 가능
    • Self-supervised learning과 결합 시 일반화 능력 강화 기대

📝 마무리

  • 현실적인 영상 환경에서 심박수를 정확하게 추정하는 일은 여전히 쉽지 않은 도전 과제입니다. 하지만 이 논문은 '변하지 않는 것을 찾자'는 고전적 철학을 수학적으로 풀어내어 현실 세계에서도 잘 작동하는 알고리즘을 만들어냈다는 점에서 큰 의미를 갖습니다.
  • LGI는 기존 알고리즘이 놓치고 있던 물리적·기하학적 인사이트를 강화한 알고리즘으로, 앞으로의 rPPG 기술 발전에 큰 영감을 줄 수 있는 연구입니다.
반응형