Remote Photoplethysmograph Signal Measurement from Facial Videos Using Spatio-Temporal Networks (PhysNet)

Deep Learning/Remote Heart Rate Estimation

Remote Photoplethysmograph Signal Measurement from Facial Videos Using Spatio-Temporal Networks (PhysNet)

나희와더기 2025. 4. 18. 15:26

오늘 소개할 논문은 Yu et al.의 2019년 연구인 "Improved motion robustness of remote-PPG by using the blood volume pulse signature" 입니다. 이 논문은 기존 평균 심박수(HR) 예측을 넘어서, 개별 심박 파형의 정밀 복원과 HRV 분석까지 가능하게 만든 획기적인 연구입니다.

Paper: https://arxiv.org/abs/1905.02419

Remote Photoplethysmograph Signal Measurement from Facial Videos Using Spatio-Temporal Networks

Recent studies demonstrated that the average heart rate (HR) can be measured from facial videos based on non-contact remote photoplethysmography (rPPG). However for many medical applications (e.g., atrial fibrillation (AF) detection) knowing only the avera

arxiv.org

Code: https://github.com/ZitongYu/PhysNet

GitHub - ZitongYu/PhysNet: code of BMVC2019 paper 'Photoplethysmograph Signal Measurement from Facial Videos Using Spatio-Tempor

code of BMVC2019 paper 'Photoplethysmograph Signal Measurement from Facial Videos Using Spatio-Temporal Networks' - ZitongYu/PhysNet

github.com

🎯 왜 이 논문이 중요한가?

기존 rPPG 연구는 대부분 평균 심박수(HR)만 예측합니다. 하지만 실제 의료나 감정 인식에서는 심박 변이도(HRV) 분석이 훨씬 중요합니다:
- 심박 파형의 피크 정확도가 있어야 HRV 분석이 가능
- 평균 HR만 예측하는 딥러닝 모델은 의료 응용에 한계
- 대부분 2D CNN 기반 → 시간 정보를 충분히 활용하지 못함
PhysNet은 최초로 "개별 심박 파형"을 복원할 수 있는 spatio-temporal end-to-end 모델을 제안합니다. HR뿐 아니라 HRV, AF(심방세동) 감지, 감정 인식 등으로 확장 가능성을 보여줍니다.

🧠 제안 방법: PhysNet

전체 구조 요약
- 얼굴 영상 시퀀스 입력 (T개의 RGB 프레임)
- Spatio-temporal 네트워크를 통해 특징 추출
- 1D rPPG 시계열 출력
- 주파수 분석 → HR, HRV 계산
- 추가적으로 AF 감지, 감정 인식 등 응용 가능
주요 구성 요소
- 3DCNN / LSTM / ConvLSTM: 시간 + 공간 정보를 동시에 학습
- Encoder-Decoder 구조: Temporal 정보를 압축하고 다시 확장
- Negative Pearson Loss: 파형의 피크 위치를 정확히 맞추기 위해 사용
- End-to-End 구조: 전처리 없이 얼굴 영상만으로 직접 rPPG 예측 가능

💡 다양한 네트워크 구조 실험

3DCNN 기반 (PhysNet-3DCNN)
- 3×3×3 커널로 시간 + 공간 정보 동시 추출
- Temporal Encoder-Decoder 버전은 성능 향상됨
- 가장 우수한 성능 기록
LSTM 계열 (PhysNet-LSTM / BiLSTM / ConvLSTM)
- 2DCNN으로 먼저 공간 특징 추출 → LSTM으로 시간 정보 연결
- BiLSTM은 오히려 성능 하락 (역방향 정보 불필요)
- ConvLSTM은 일반 LSTM과 유사한 성능

🧪 실험 결과 요약

HR & HRV 측정 성능
- 기존 알고리즘보다 더 정확하게 HR, HRV 모두 예측 가능

심방세동(AF) 감지 정확도
- 측정된 HRV 신호만으로도 병리학적 상태 분류 가능

감정 인식 (MAHNOB-HCI)
- 단순 평균 HR이 아닌, 복원된 파형 기반 HRV 특징으로 감정까지 예측 가능

📸 시각화 결과

PhysNet이 복원한 rPPG 신호(red)가 ECG ground truth(black)에 매우 근접
기존 알고리즘(ROI_green)은 피크 위치가 일관되지 않음
학습된 attention map은 이마, 볼, 턱 등 혈류가 뚜렷한 부위에 집중

✅ 요약: PhysNet의 핵심 장점

항목	장점
정밀도	HR뿐 아니라 HRV까지 정확히 예측 가능
모델 구조	3D CNN + Encoder-Decoder 구조로 시간-공간 정보 통합
실용성	실용성: 전처리 없이도 end-to-end로 바로 추론 가능
응용성	심방세동 감지, 감정 인식 등 의료/감정 분야 확장 가능
성능	기존 알고리즘 + 다른 딥러닝 모델보다 전반적으로 우수한 성능

📝 마무리

PhysNet은 "rPPG → 파형 복원 → HRV 분석"까지 확장한 최초의 영상 기반 모델입니다.

'Deep Learning > Remote Heart Rate Estimation' 카테고리의 다른 글

PhysFormer: Facial Video-Based Physiological Measurement with Temporal Difference Transformer (PhysFormer) (0)	2025.04.18
Multi-Task Temporal Shift Attention Networks for On-Device Contactless Vitals Measurement (MTTS-CAN) (0)	2025.04.18
DeepPhys: Video-Based Physiological Measurement Using Convolutional Attention Networks (0)	2025.04.18
Visual Heart Rate Estimation with Convolutional Neural Network (HR-CNN) (0)	2025.04.18
Face2PPG_An Unsupervised Pipeline for Blood Volume Pulse Extraction From Faces (OMIT) (0)	2025.04.17

현재글Remote Photoplethysmograph Signal Measurement from Facial Videos Using Spatio-Temporal Networks (PhysNet)

인공지능 개발자를 꿈꾸는 더기

인공지능 연구를 수행하면서 겪었던 경험을 기록하기 위한 블로그입니다.

rhr, ip-adapter, factorizephys, physnet, mtts-can, 티스토리, Generative model, yoloe, 애드센스, prefix-tuning, rPPG, soft-dtw, efficientphys, yolo-world, hr-cnn, 비접촉식 심박수 추정, physformer, physformer++, rggb to rgb, deepphys,

Today :
Yesterday :

일	월	화	수	목	금	토
				1	2	3
4	5	6	7	8	9	10
11	12	13	14	15	16	17
18	19	20	21	22	23	24
25	26	27	28	29	30	31

인공지능 개발자를 꿈꾸는 더기