Deep Learning/Remote Heart Rate Estimation

PhysFormer++: Facial Video-Based Physiological Measurement with SlowFast Temporal Difference Transformer (PhysFormer++)

나희와더기 2025. 4. 18. 17:04
반응형

오늘 소개할 논문은 Yu et al.의 2023년 연구인 "PhysFormer++: Facial Video-based Physiological Measurement with SlowFast Temporal Difference Transformer 입니다. 이 논문은 기존 PhysFormer 구조를 확장하여, 정확도, 강건성, 해석 가능성을 모두 향상시킨 SlowFast Temporal Difference Transformer 구조를 도입한 것이 핵심입니다.


🎯 연구 동기

  • 기존 rPPG 모델들은 주로 CNN 기반으로 설계되어 있어:
    • 긴 시간 간격의 정보(long-term temporal context) 활용에 한계가 있고
    • 정밀한 심박 파형 복원이 어렵고
    • 움직임·조명 변화에 취약하며
    • 대부분 심박수(HR)만 예측하는 구조입니다.
  • 이에 PhysFormer++는 다음과 같은 점을 해결하고자 합니다:
    • Transformer 기반의 장거리 시공간 관계 학습
    • SlowFast 구조를 통한 저해상도/고해상도 temporal 흐름 병렬 학습
    • 심박수(HR), 호흡수(RF), 심박변이도(HRV) 동시 예측

🧠 모델 구조: PhysFormer vs PhysFormer++

  • PhysFormer (기본 구조)
    • 입력: 얼굴 RGB 영상 시퀀스
    • Stem: 3D Conv 기반 shallow feature 추출
    • Tube Tokenizer: 시공간 패치로 나누기
    • TD-MHSA: Temporal Difference 기반 Self-Attention
    • ST-FF: Spatio-Temporal FeedForward Network
    • Output: 1D rPPG 파형 회귀
  • PhysFormer++ (확장 구조)
    • SlowFast 두 경로 병렬 구성:
      • Slow path: 저프레임, 고채널 (전통적 rPPG 흐름 인식)
      • Fast path: 고프레임, 저채널 (세밀한 temporal 변화 포착)
    • Slow path는 TD-MHPSA (Periodic Self-Attention)
    • Fast path는 TD-MHCSA (Cross & Self-Attention)
    • 두 경로 간 Cross-Attention + Lateral Connection으로 정보 융합
    • 최종 rPPG 예측 → HR, RR, HRV 추정 가능

🧪 학습 전략

  • Label Distribution Learning
    • HR을 하나의 수치로 예측하지 않고 Gaussian 분포로 예측 → 인접값 고려
  • Curriculum Learning 기반 Dynamic Loss
    • 학습 초반엔 Temporal Loss 중심, 후반엔 Frequency Domain Loss 강화
    • 시간-주파수 정보를 순차적으로 학습하여 과적합 방지 + 정밀 주기 학습 가능

📊 성능 평가

  • 데이터셋
이름 특징
VIPL-HR 복잡한 조명, 움직임, 기기 다양성
MAHNOB-HCI 감정 유발 영상, 압축 강함
MMSE-HR 고해상도, 정적 환경
OBF 고품질 5분 영상, HR/RF/HRV 추정 가능
  • HR 추정 성능 (VIPL-HR 기준)

  • 호흡수(RF) & HRV 성능 (OBF 기준)

 

🎯 주요 기여 요약

기술 요소 설명
TD-Transformer Temporal Difference 기반 Attention으로 미세한 피부 색 변화 감지
SlowFast 구조 저해상도 vs 고해상도 temporal 정보를 병렬 학습
Cross-Attention 두 경로 간 rPPG 정보 상호작용 및 보완
Multi-task 학습 HR + RR + HRV 동시 예측 가능
Dynamic Loss 시간 → 주파수로 학습 난이도 점진 상승
Self-Attention 시각화 이마, 볼, 경동맥 부위 집중 → 생리학적으로 타당

 

⚙️ 효율성과 실용성

  • 모바일 수준 경량화는 아직 과제지만, Transformer 기반 치고는 매우 효율적

🔬 시각화 예시

  • D-MHSA의 attention map은 심박 주기(peak)에 정렬된 응답을 보임
  • TD-MHPSA는 주기성을 명시적으로 학습하여 정확한 신호 위상 유지
  • 머리 흔들림이 있는 영상에서도 PhysFormer++는 보다 정밀한 응답 학습

 

📝 마무리

  • PhysFormer++는 Transformer 기반 rPPG 모델 중 정확도, 해석력, 확장성 면에서 가장 강력한 구조 중 하나입니다.
    • 단순 HR 예측을 넘어 파형 복원, HRV 분석, 호흡수 추정까지 가능
    • 시공간 정보를 이론적 기반에서 정밀하게 분리·학습
    • 강한 모션, 압축, 저해상도 환경에서도 우수한 성능을 보임
반응형