Deep Learning/Remote Heart Rate Estimation

Visual Heart Rate Estimation with Convolutional Neural Network (HR-CNN)

나희와더기 2025. 4. 18. 13:30
반응형

오늘 소개할 논문은 Špetlík et al.의 2018년 연구인 "Visual Heart Rate Estimation with Convolutional Neural Network" 입니다. 이 논문은 시계열 영상 기반 심박수 추정을 위해 CNN 구조를 설계하고, 전통적인 rPPG 알고리즘들과 비교하여 우수한 성능을 입증한 대표적인 딥러닝 기반 접근법입니다.

 

ECCV 2018 Open Access Repository

DeepPhys: Video-Based Physiological Measurement Using Convolutional Attention Networks Weixuan Chen, Daniel McDuff; Proceedings of the European Conference on Computer Vision (ECCV), 2018, pp. 349-365 Non-contact video-based physiological measurement has ma

openaccess.thecvf.com

 

GitHub - radimspetlik/hr-cnn: HR-CNN - Spetlik, R., Franc, V., Cech, J. and Matas, J. (2018) Visual Heart Rate Estimation with C

HR-CNN - Spetlik, R., Franc, V., Cech, J. and Matas, J. (2018) Visual Heart Rate Estimation with Convolutional Neural Network. In Proceedings of British Machine Vision Conference, 2018 - radimspetl...

github.com


🎯 연구 배경

  • 비접촉식 심박수 추정은 일반 RGB 카메라를 활용해 얼굴의 미세한 색 변화로부터 혈류 신호(BVP)를 예측하는 기술입니다. 하지만 전통적인 rPPG 방식은 다음과 같은 한계를 지녔습니다:
    • 복잡한 전처리 파이프라인 (ROI 추출, 색상 평균, 필터링, 변환 등)
    • 모션, 조명, 표정 변화에 매우 민감
    • 프레임 기반이 아니라 시퀀스 기반인데도 비시계열 모델이 많음
  • HR-CNN은 이 모든 문제를 하나의 CNN 파이프라인으로 단순화하면서, 학습을 통해 강건한 추정 능력을 확보하고자 합니다.

🧠 HR-CNN의 모델 구조

  • Extractor
    • 프레임 단위로 입력된 얼굴 이미지를 통해 NrPPG 신호 추출
    • 이 신호의 SNR (신호대잡음비)을 최대화하도록 학습
  • HR Estimator
    • Extractor가 만든 시계열 rPPG를 입력받아 최종 HR 예측
    • Mean Absolute Error (MAE)를 최소화하는 회귀 모델 구조

🧪 실험 및 비교

  • 비교 알고리즘
알고리즘 방식
CHROM 컬러 차이 기반
LiCVPR 움직임 보정 + 신호 처리
2SR Subspace Reotation 기반
HR-CNN End-to-end CNN 기반CHROM
  • 실험 데이터셋
    • PURE (비압축, 정적 + 회전)
    • COHFACE (압축, 조명 변화)
    • MAHNOB (다양한 감정 + EEG 캡 착용)
    • ECG-Fitness (모션, 조명 등 현실 환경)
      • 17명의 피험자, 4가지 운동 (말하기, 로잉, 사이클, 엘립티컬)
      • 3종 조명 (자연광, 할로겐, LED)
      • 2대 카메라 (삼각대 + 운동기기 장착)
      • 1920×1080, 30fps, 압축 없음 (YUV) → 고품질 rPPG 추출 가능
      • Ground-truth: ECG 기반 HR
  • 결과
    • 상관 계수 (Pearson's correlation coefficent) 기준으로 HR-CNN이 COHFACE, ECC-Fitness, PURE 데이터셋에서 좋은 성능을 보여줌

 

🔍 시각화 및 해석

  • Grad-CAM 기반 설명
    • CNN Extractor가 볼, 입술 등에서 가장 강한 rPPG 정보를 추출하는 것을 시각적으로 입증
    • CNN이 자동으로 의미 있는 신호 위치를 선택함

 

✅ 핵심 기여 정리

분야 내용
모델 설계 시계열 영상 기반 2단 CNN 구조 (Extractor + HR Estimator)
학습 전략 SNR 기반 학습 + L1 기반 회귀로 성능 최적화
실험 설정 강건성 검증을 위한 현실형 고품질 ECG-Fitness 데이터셋 구축
결과 분석 비압축 환경뿐 아니라 강한 모션, 조명 간섭 상황에서도 우수한 성능 입증

 

⚠️ 한계 및 향후 방향

  • HR Estimator를 데이터셋마다 따로 학습해야 한다는 점에서 범용성에 제약
  • Extractor와 Estimator가 별도 학습되므로 joint learning으로 성능 향상 여지 있음
  • 호흡수(RR) 등 다중 생체신호 추정으로 확장 가능

📝 마무리

  • HR-CNN은 DeepPhys와 함께 딥러닝 기반 rPPG 예측의 흐름을 형성한 주요 논문 중 하나입니다.
    • 단순화된 구조이면서도 정확도는 기존 신호 처리 기반 방법을 상회
    • 특히 압축되지 않은 고해상도 영상이나 현실 환경에서의 일반화 능력에서 강점을 보입니다.
반응형