오늘 소개할 논문은 Špetlík et al.의 2018년 연구인 "Visual Heart Rate Estimation with Convolutional Neural Network" 입니다. 이 논문은 시계열 영상 기반 심박수 추정을 위해 CNN 구조를 설계하고, 전통적인 rPPG 알고리즘들과 비교하여 우수한 성능을 입증한 대표적인 딥러닝 기반 접근법입니다.
ECCV 2018 Open Access Repository
DeepPhys: Video-Based Physiological Measurement Using Convolutional Attention Networks Weixuan Chen, Daniel McDuff; Proceedings of the European Conference on Computer Vision (ECCV), 2018, pp. 349-365 Non-contact video-based physiological measurement has ma
openaccess.thecvf.com
GitHub - radimspetlik/hr-cnn: HR-CNN - Spetlik, R., Franc, V., Cech, J. and Matas, J. (2018) Visual Heart Rate Estimation with C
HR-CNN - Spetlik, R., Franc, V., Cech, J. and Matas, J. (2018) Visual Heart Rate Estimation with Convolutional Neural Network. In Proceedings of British Machine Vision Conference, 2018 - radimspetl...
github.com
🎯 연구 배경
- 비접촉식 심박수 추정은 일반 RGB 카메라를 활용해 얼굴의 미세한 색 변화로부터 혈류 신호(BVP)를 예측하는 기술입니다. 하지만 전통적인 rPPG 방식은 다음과 같은 한계를 지녔습니다:
- 복잡한 전처리 파이프라인 (ROI 추출, 색상 평균, 필터링, 변환 등)
- 모션, 조명, 표정 변화에 매우 민감
- 프레임 기반이 아니라 시퀀스 기반인데도 비시계열 모델이 많음
- HR-CNN은 이 모든 문제를 하나의 CNN 파이프라인으로 단순화하면서, 학습을 통해 강건한 추정 능력을 확보하고자 합니다.
🧠 HR-CNN의 모델 구조
- Extractor
- 프레임 단위로 입력된 얼굴 이미지를 통해 NrPPG 신호 추출
- 이 신호의 SNR (신호대잡음비)을 최대화하도록 학습
- HR Estimator
- Extractor가 만든 시계열 rPPG를 입력받아 최종 HR 예측
- Mean Absolute Error (MAE)를 최소화하는 회귀 모델 구조
🧪 실험 및 비교
- 비교 알고리즘
알고리즘 | 방식 |
CHROM | 컬러 차이 기반 |
LiCVPR | 움직임 보정 + 신호 처리 |
2SR | Subspace Reotation 기반 |
HR-CNN | End-to-end CNN 기반CHROM |
- 실험 데이터셋
- PURE (비압축, 정적 + 회전)
- COHFACE (압축, 조명 변화)
- MAHNOB (다양한 감정 + EEG 캡 착용)
- ECG-Fitness (모션, 조명 등 현실 환경)
- 17명의 피험자, 4가지 운동 (말하기, 로잉, 사이클, 엘립티컬)
- 3종 조명 (자연광, 할로겐, LED)
- 2대 카메라 (삼각대 + 운동기기 장착)
- 1920×1080, 30fps, 압축 없음 (YUV) → 고품질 rPPG 추출 가능
- Ground-truth: ECG 기반 HR
- 결과
- 상관 계수 (Pearson's correlation coefficent) 기준으로 HR-CNN이 COHFACE, ECC-Fitness, PURE 데이터셋에서 좋은 성능을 보여줌
🔍 시각화 및 해석
- Grad-CAM 기반 설명
- CNN Extractor가 볼, 입술 등에서 가장 강한 rPPG 정보를 추출하는 것을 시각적으로 입증
- CNN이 자동으로 의미 있는 신호 위치를 선택함
✅ 핵심 기여 정리
분야 | 내용 |
모델 설계 | 시계열 영상 기반 2단 CNN 구조 (Extractor + HR Estimator) |
학습 전략 | SNR 기반 학습 + L1 기반 회귀로 성능 최적화 |
실험 설정 | 강건성 검증을 위한 현실형 고품질 ECG-Fitness 데이터셋 구축 |
결과 분석 | 비압축 환경뿐 아니라 강한 모션, 조명 간섭 상황에서도 우수한 성능 입증 |
⚠️ 한계 및 향후 방향
- HR Estimator를 데이터셋마다 따로 학습해야 한다는 점에서 범용성에 제약
- Extractor와 Estimator가 별도 학습되므로 joint learning으로 성능 향상 여지 있음
- 호흡수(RR) 등 다중 생체신호 추정으로 확장 가능
📝 마무리
- HR-CNN은 DeepPhys와 함께 딥러닝 기반 rPPG 예측의 흐름을 형성한 주요 논문 중 하나입니다.
- 단순화된 구조이면서도 정확도는 기존 신호 처리 기반 방법을 상회
- 특히 압축되지 않은 고해상도 영상이나 현실 환경에서의 일반화 능력에서 강점을 보입니다.