PhysFormer++: Facial Video-Based Physiological Measurement with SlowFast Temporal Difference Transformer (PhysFormer++)

Deep Learning/Remote Heart Rate Estimation

PhysFormer++: Facial Video-Based Physiological Measurement with SlowFast Temporal Difference Transformer (PhysFormer++)

나희와더기 2025. 4. 18. 17:04

오늘 소개할 논문은 Yu et al.의 2023년 연구인 "PhysFormer++: Facial Video-based Physiological Measurement with SlowFast Temporal Difference Transformer 입니다. 이 논문은 기존 PhysFormer 구조를 확장하여, 정확도, 강건성, 해석 가능성을 모두 향상시킨 SlowFast Temporal Difference Transformer 구조를 도입한 것이 핵심입니다.

Paper: https://link.springer.com/article/10.1007/s11263-023-01758-1

🎯 연구 동기

기존 rPPG 모델들은 주로 CNN 기반으로 설계되어 있어:
- 긴 시간 간격의 정보(long-term temporal context) 활용에 한계가 있고
- 정밀한 심박 파형 복원이 어렵고
- 움직임·조명 변화에 취약하며
- 대부분 심박수(HR)만 예측하는 구조입니다.
이에 PhysFormer++는 다음과 같은 점을 해결하고자 합니다:
- Transformer 기반의 장거리 시공간 관계 학습
- SlowFast 구조를 통한 저해상도/고해상도 temporal 흐름 병렬 학습
- 심박수(HR), 호흡수(RF), 심박변이도(HRV) 동시 예측

🧠 모델 구조: PhysFormer vs PhysFormer++

PhysFormer (기본 구조)
- 입력: 얼굴 RGB 영상 시퀀스
- Stem: 3D Conv 기반 shallow feature 추출
- Tube Tokenizer: 시공간 패치로 나누기
- TD-MHSA: Temporal Difference 기반 Self-Attention
- ST-FF: Spatio-Temporal FeedForward Network
- Output: 1D rPPG 파형 회귀
PhysFormer++ (확장 구조)
- SlowFast 두 경로 병렬 구성:
  - Slow path: 저프레임, 고채널 (전통적 rPPG 흐름 인식)
  - Fast path: 고프레임, 저채널 (세밀한 temporal 변화 포착)
- Slow path는 TD-MHPSA (Periodic Self-Attention)
- Fast path는 TD-MHCSA (Cross & Self-Attention)
- 두 경로 간 Cross-Attention + Lateral Connection으로 정보 융합
- 최종 rPPG 예측 → HR, RR, HRV 추정 가능

🧪 학습 전략

Label Distribution Learning
- HR을 하나의 수치로 예측하지 않고 Gaussian 분포로 예측 → 인접값 고려
Curriculum Learning 기반 Dynamic Loss
- 학습 초반엔 Temporal Loss 중심, 후반엔 Frequency Domain Loss 강화
- 시간-주파수 정보를 순차적으로 학습하여 과적합 방지 + 정밀 주기 학습 가능

📊 성능 평가

데이터셋

이름	특징
VIPL-HR	복잡한 조명, 움직임, 기기 다양성
MAHNOB-HCI	감정 유발 영상, 압축 강함
MMSE-HR	고해상도, 정적 환경
OBF	고품질 5분 영상, HR/RF/HRV 추정 가능

HR 추정 성능 (VIPL-HR 기준)

호흡수(RF) & HRV 성능 (OBF 기준)

🎯 주요 기여 요약

기술 요소	설명
TD-Transformer	Temporal Difference 기반 Attention으로 미세한 피부 색 변화 감지
SlowFast 구조	저해상도 vs 고해상도 temporal 정보를 병렬 학습
Cross-Attention	두 경로 간 rPPG 정보 상호작용 및 보완
Multi-task 학습	HR + RR + HRV 동시 예측 가능
Dynamic Loss	시간 → 주파수로 학습 난이도 점진 상승
Self-Attention 시각화	이마, 볼, 경동맥 부위 집중 → 생리학적으로 타당

⚙️ 효율성과 실용성

모바일 수준 경량화는 아직 과제지만, Transformer 기반 치고는 매우 효율적

🔬 시각화 예시

D-MHSA의 attention map은 심박 주기(peak)에 정렬된 응답을 보임
TD-MHPSA는 주기성을 명시적으로 학습하여 정확한 신호 위상 유지
머리 흔들림이 있는 영상에서도 PhysFormer++는 보다 정밀한 응답 학습

📝 마무리

PhysFormer++는 Transformer 기반 rPPG 모델 중 정확도, 해석력, 확장성 면에서 가장 강력한 구조 중 하나입니다.
- 단순 HR 예측을 넘어 파형 복원, HRV 분석, 호흡수 추정까지 가능
- 시공간 정보를 이론적 기반에서 정밀하게 분리·학습
- 강한 모션, 압축, 저해상도 환경에서도 우수한 성능을 보임

'Deep Learning > Remote Heart Rate Estimation' 카테고리의 다른 글

FactorizePhys: Matrix Factorization forMultidimensional Attention in Remote PhysiologicalSensing (FactorizePhys) (1)	2025.05.09
EfficientPhys: Enabling Simple, Fast and Accurate Camera-Based Cardiac Measurement (EfficientPhys) (0)	2025.04.18
PhysFormer: Facial Video-Based Physiological Measurement with Temporal Difference Transformer (PhysFormer) (0)	2025.04.18
Multi-Task Temporal Shift Attention Networks for On-Device Contactless Vitals Measurement (MTTS-CAN) (1)	2025.04.18
Remote Photoplethysmograph Signal Measurement from Facial Videos Using Spatio-Temporal Networks (PhysNet) (0)	2025.04.18

현재글PhysFormer++: Facial Video-Based Physiological Measurement with SlowFast Temporal Difference Transformer (PhysFormer++)

인공지능 개발자를 꿈꾸는 더기

인공지능 연구를 수행하면서 겪었던 경험을 기록하기 위한 블로그입니다.

mtts-can, yolo-world, rggb to rgb, 비접촉식 심박수 추정, prefix-tuning, Generative model, soft-dtw, physformer, 티스토리, yoloe, deepphys, ip-adapter, physnet, efficientphys, physformer++, rPPG, rhr, factorizephys, 애드센스, hr-cnn,

Today :
Yesterday :

일	월	화	수	목	금	토
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

인공지능 개발자를 꿈꾸는 더기