Deep Learning/Remote Heart Rate Estimation

Remote Photoplethysmograph Signal Measurement from Facial Videos Using Spatio-Temporal Networks (PhysNet)

나희와더기 2025. 4. 18. 15:26
반응형

오늘 소개할 논문은 Yu et al.의 2019년 연구인 "Improved motion robustness of remote-PPG by using the blood volume pulse signature" 입니다. 이 논문은 기존 평균 심박수(HR) 예측을 넘어서, 개별 심박 파형의 정밀 복원과 HRV 분석까지 가능하게 만든 획기적인 연구입니다.

 

Remote Photoplethysmograph Signal Measurement from Facial Videos Using Spatio-Temporal Networks

Recent studies demonstrated that the average heart rate (HR) can be measured from facial videos based on non-contact remote photoplethysmography (rPPG). However for many medical applications (e.g., atrial fibrillation (AF) detection) knowing only the avera

arxiv.org

 

GitHub - ZitongYu/PhysNet: code of BMVC2019 paper 'Photoplethysmograph Signal Measurement from Facial Videos Using Spatio-Tempor

code of BMVC2019 paper 'Photoplethysmograph Signal Measurement from Facial Videos Using Spatio-Temporal Networks' - ZitongYu/PhysNet

github.com


  • 🎯 왜 이 논문이 중요한가?
    • 기존 rPPG 연구는 대부분 평균 심박수(HR)만 예측합니다. 하지만 실제 의료나 감정 인식에서는 심박 변이도(HRV) 분석이 훨씬 중요합니다:
      • 심박 파형의 피크 정확도가 있어야 HRV 분석이 가능
      • 평균 HR만 예측하는 딥러닝 모델은 의료 응용에 한계
      • 대부분 2D CNN 기반 → 시간 정보를 충분히 활용하지 못함
    • PhysNet은 최초로 "개별 심박 파형"을 복원할 수 있는 spatio-temporal end-to-end 모델을 제안합니다. HR뿐 아니라 HRV, AF(심방세동) 감지, 감정 인식 등으로 확장 가능성을 보여줍니다.

🧠 제안 방법: PhysNet

  • 전체 구조 요약
    • 얼굴 영상 시퀀스 입력 (T개의 RGB 프레임)
    • Spatio-temporal 네트워크를 통해 특징 추출
    • 1D rPPG 시계열 출력
    • 주파수 분석 → HR, HRV 계산
    • 추가적으로 AF 감지, 감정 인식 등 응용 가능
  • 주요 구성 요소
    • 3DCNN / LSTM / ConvLSTM: 시간 + 공간 정보를 동시에 학습
    • Encoder-Decoder 구조: Temporal 정보를 압축하고 다시 확장
    • Negative Pearson Loss: 파형의 피크 위치를 정확히 맞추기 위해 사용
    • End-to-End 구조: 전처리 없이 얼굴 영상만으로 직접 rPPG 예측 가능

💡  다양한 네트워크 구조 실험

  • 3DCNN 기반 (PhysNet-3DCNN)
    • 3×3×3 커널로 시간 + 공간 정보 동시 추출
    • Temporal Encoder-Decoder 버전은 성능 향상됨
    • 가장 우수한 성능 기록
  • LSTM 계열 (PhysNet-LSTM / BiLSTM / ConvLSTM)
    • 2DCNN으로 먼저 공간 특징 추출 → LSTM으로 시간 정보 연결
    • BiLSTM은 오히려 성능 하락 (역방향 정보 불필요)
    • ConvLSTM은 일반 LSTM과 유사한 성능

🧪 실험 결과 요약

  • HR & HRV 측정 성능
    • 기존 알고리즘보다 더 정확하게 HR, HRV 모두 예측 가능

  • 심방세동(AF) 감지 정확도
    • 측정된 HRV 신호만으로도 병리학적 상태 분류 가능

  • 감정 인식 (MAHNOB-HCI)
    • 단순 평균 HR이 아닌, 복원된 파형 기반 HRV 특징으로 감정까지 예측 가능

 

📸  시각화 결과

  • PhysNet이 복원한 rPPG 신호(red)가 ECG ground truth(black)에 매우 근접
  • 기존 알고리즘(ROI_green)은 피크 위치가 일관되지 않음
  • 학습된 attention map은 이마, 볼, 턱 등 혈류가 뚜렷한 부위에 집중

 

✅ 요약: PhysNet의 핵심 장점

항목 장점
정밀도 HR뿐 아니라 HRV까지 정확히 예측 가능
모델 구조 3D CNN + Encoder-Decoder 구조로 시간-공간 정보 통합
실용성 실용성: 전처리 없이도 end-to-end로 바로 추론 가능
응용성 심방세동 감지, 감정 인식 등 의료/감정 분야 확장 가능
성능 기존 알고리즘 + 다른 딥러닝 모델보다 전반적으로 우수한 성능

 

📝 마무리

  • PhysNet은 "rPPG → 파형 복원 → HRV 분석"까지 확장한 최초의 영상 기반 모델입니다.
반응형