Deep Learning/Remote Heart Rate Estimation

DeepPhys: Video-Based Physiological Measurement Using Convolutional Attention Networks

나희와더기 2025. 4. 18. 13:52
반응형

오늘 소개할 논문은 Chen. et al의 2018년 연구인 "DeepPhys: Video-Based Physiological Measurement Using Convolutional Attention Networks" 입니다. 이 논문은 단순한 심박수 예측을 넘어, 주의(attention)를 활용한 공간적 특징 해석, RGB/IR 환경 모두 대응, 종단형(end-to-end) 학습 등 지금까지의 모든 rPPG 기술 흐름을 바꿔놓은 중요한 연구입니다.

 

ECCV 2018 Open Access Repository

DeepPhys: Video-Based Physiological Measurement Using Convolutional Attention Networks Weixuan Chen, Daniel McDuff; Proceedings of the European Conference on Computer Vision (ECCV), 2018, pp. 349-365 Non-contact video-based physiological measurement has ma

openaccess.thecvf.com


🎯 연구 동기

  • 기존 rPPG 알고리즘은 주로 다음과 같은 방식으로 작동합니다:
    • 얼굴에서 ROI(Region of Interest) 추출
    • 색상 평균화 → bandpass filter
    • ICA, CHROM, POS 등의 수식 적용
    • 주파수 분석으로 HR 계산
  • 이러한 방식은 전처리가 많고, 조명/움직임 변화에 매우 민감하며, 학습 기반 일반화에 취약합니다.
  • DeepPhys는 이런 문제를 해결하기 위해 end-to-end CNN 모델을 설계하고, 주의 메커니즘을 도입하여 영상에서 ‘어디가 혈류 정보가 있는지’를 스스로 학습하도록 합니다.

🧠 모델 아키텍처: Convolutional Attention Network (CAN)

  • 입력 스트림 (Motion Stream + Appearance Stream)
    • 두 스트림은 CNN으로 각각 처리되며, appearance stream은 어떤 영역에 주의할지(attention mask)를 학습하여 motion stream에 적용합니다.
스트림 입력 설명
Motion Stream 프레임 차분 기반 정규화된 차이 이미지
Appearance Strem 원본 영상 프레임
  • Attention 메커니즘
    • Appearance에서 학습된 feature로부터 soft attention mask를 생성
    • motion feature와 element-wise 곱셈 → 주의 영역만 강조
    • 이 과정을 다층 attention 연산으로 반복, 점점 더 정확한 ROI 학습
  • 최종 출력
    • 심박수(BVP), 호흡수(BR)의 미분값을 회귀하여 시계열 예측
    • FFT로 dominant frequency 추출 → HR/BR 계산
  • 🔬 입력 표현: 생리 신호를 위한 정규화된 차분 프레임
  • 기존 optical flow는 조명 변화와 색상 반영을 반영하지 못함
  • DeepPhys는 **피부 반사 모델(Dichromatic Reflection Model)**을 활용해
    • $(C(t+1) - C(t)) / (C(t+1) + C(t))$ 방식으로 정규화된 프레임 차이 계산
    • 피부색, 조명, 움직임 노이즈 제거 효과

📈 성능 비교: 다양한 조건에서도 뛰어난 성능

  • 테스트 데이터셋
이름 특징
RGB Video I 다양한 움직임 task (정지 ~ 빠른 회전)
RGB Video II 고해상도 영상, 다양한 피험자
MAHNOB-HCI 감정 유발 실험 포함, ECG ground-truth
IR Video 적외선 영상 + ECG/호흡 ground-truth
  • 성능 지표
    • MAE (Mean Absolute Error)
    • SNR (Signal-to-Noise Ratio)
  • 주요 결과
    • 특히 높은 움직임 (Task 6) 조건에서도 DeepPhys는 모든 기존 알고리즘을 압도
    • RGB뿐 아니라 적외선(IR) 영상에도 적용 가능
방법 RGB I MAHNOB IR
CHROM 7.80 5.09 X
LiCVPR 19.98 10.21 X
2SR 20.98 21.39 X
DeepPhys (CAN) 1.50 4.57 0.55

 

🎯 DeepPhys의 차별점

항목 내용
입력 설계 조명/피부톤에 강건한 정규화된 프레임 차이
학습 전략 미분값 회귀 → FFT → HR 추정 방식
주의 메커니즘 appearance 기반 attention → motion 강조
일반화 성능 새로운 피험자, 데이터셋에서도 전이 학습 가능

 

📸 주의 시각화 (Attention Visualization)

  • 논문에서는 Grad-CAM을 활용하여 주의 영역(Attention Map)을 시각화함.
    • 심박 예측 시: 볼, 이마, 귀, 경동맥 부위에 집중
    • 호흡 예측 시: 코, 입, 목 부위에 넓게 분포
  • 이러한 결과는 생리학적으로도 매우 타당하며, DeepPhys가 실제 혈류 위치를 학습하고 있음을 보여줍니다.

✅ 정리 및 한줄평

  • DeepPhys는 영상 기반 생체 신호 추정 기술에서 딥러닝 시대를 연 대표적 연구입니다.
    • 기존의 CHROM, POS, ICA 기반 알고리즘 한계를 뛰어넘어
    • Attention을 활용해 "어디에 생리 신호가 있는지"까지 스스로 학습
    • 다양한 환경에서도 강건한 성능 확보 → 실제 적용 가능성 확대
반응형