반응형
오늘 소개할 논문은 Yu et al.의 2023년 연구인 "PhysFormer++: Facial Video-based Physiological Measurement with SlowFast Temporal Difference Transformer 입니다. 이 논문은 기존 PhysFormer 구조를 확장하여, 정확도, 강건성, 해석 가능성을 모두 향상시킨 SlowFast Temporal Difference Transformer 구조를 도입한 것이 핵심입니다.
🎯 연구 동기
- 기존 rPPG 모델들은 주로 CNN 기반으로 설계되어 있어:
- 긴 시간 간격의 정보(long-term temporal context) 활용에 한계가 있고
- 정밀한 심박 파형 복원이 어렵고
- 움직임·조명 변화에 취약하며
- 대부분 심박수(HR)만 예측하는 구조입니다.
- 이에 PhysFormer++는 다음과 같은 점을 해결하고자 합니다:
- Transformer 기반의 장거리 시공간 관계 학습
- SlowFast 구조를 통한 저해상도/고해상도 temporal 흐름 병렬 학습
- 심박수(HR), 호흡수(RF), 심박변이도(HRV) 동시 예측
🧠 모델 구조: PhysFormer vs PhysFormer++
- PhysFormer (기본 구조)
- 입력: 얼굴 RGB 영상 시퀀스
- Stem: 3D Conv 기반 shallow feature 추출
- Tube Tokenizer: 시공간 패치로 나누기
- TD-MHSA: Temporal Difference 기반 Self-Attention
- ST-FF: Spatio-Temporal FeedForward Network
- Output: 1D rPPG 파형 회귀
- PhysFormer++ (확장 구조)
- SlowFast 두 경로 병렬 구성:
- Slow path: 저프레임, 고채널 (전통적 rPPG 흐름 인식)
- Fast path: 고프레임, 저채널 (세밀한 temporal 변화 포착)
- Slow path는 TD-MHPSA (Periodic Self-Attention)
- Fast path는 TD-MHCSA (Cross & Self-Attention)
- 두 경로 간 Cross-Attention + Lateral Connection으로 정보 융합
- 최종 rPPG 예측 → HR, RR, HRV 추정 가능
- SlowFast 두 경로 병렬 구성:
🧪 학습 전략
- Label Distribution Learning
- HR을 하나의 수치로 예측하지 않고 Gaussian 분포로 예측 → 인접값 고려
- Curriculum Learning 기반 Dynamic Loss
- 학습 초반엔 Temporal Loss 중심, 후반엔 Frequency Domain Loss 강화
- 시간-주파수 정보를 순차적으로 학습하여 과적합 방지 + 정밀 주기 학습 가능
📊 성능 평가
- 데이터셋
이름 | 특징 |
VIPL-HR | 복잡한 조명, 움직임, 기기 다양성 |
MAHNOB-HCI | 감정 유발 영상, 압축 강함 |
MMSE-HR | 고해상도, 정적 환경 |
OBF | 고품질 5분 영상, HR/RF/HRV 추정 가능 |
- HR 추정 성능 (VIPL-HR 기준)
- 호흡수(RF) & HRV 성능 (OBF 기준)
🎯 주요 기여 요약
기술 요소 | 설명 |
TD-Transformer | Temporal Difference 기반 Attention으로 미세한 피부 색 변화 감지 |
SlowFast 구조 | 저해상도 vs 고해상도 temporal 정보를 병렬 학습 |
Cross-Attention | 두 경로 간 rPPG 정보 상호작용 및 보완 |
Multi-task 학습 | HR + RR + HRV 동시 예측 가능 |
Dynamic Loss | 시간 → 주파수로 학습 난이도 점진 상승 |
Self-Attention 시각화 | 이마, 볼, 경동맥 부위 집중 → 생리학적으로 타당 |
⚙️ 효율성과 실용성
- 모바일 수준 경량화는 아직 과제지만, Transformer 기반 치고는 매우 효율적
🔬 시각화 예시
- D-MHSA의 attention map은 심박 주기(peak)에 정렬된 응답을 보임
- TD-MHPSA는 주기성을 명시적으로 학습하여 정확한 신호 위상 유지
- 머리 흔들림이 있는 영상에서도 PhysFormer++는 보다 정밀한 응답 학습
📝 마무리
- PhysFormer++는 Transformer 기반 rPPG 모델 중 정확도, 해석력, 확장성 면에서 가장 강력한 구조 중 하나입니다.
- 단순 HR 예측을 넘어 파형 복원, HRV 분석, 호흡수 추정까지 가능
- 시공간 정보를 이론적 기반에서 정밀하게 분리·학습
- 강한 모션, 압축, 저해상도 환경에서도 우수한 성능을 보임
반응형