DeepPhys: Video-Based Physiological Measurement Using Convolutional Attention Networks

Deep Learning/Remote Heart Rate Estimation

DeepPhys: Video-Based Physiological Measurement Using Convolutional Attention Networks

나희와더기 2025. 4. 18. 13:52

오늘 소개할 논문은 Chen. et al의 2018년 연구인 "DeepPhys: Video-Based Physiological Measurement Using Convolutional Attention Networks" 입니다. 이 논문은 단순한 심박수 예측을 넘어, 주의(attention)를 활용한 공간적 특징 해석, RGB/IR 환경 모두 대응, 종단형(end-to-end) 학습 등 지금까지의 모든 rPPG 기술 흐름을 바꿔놓은 중요한 연구입니다.

Paper: https://openaccess.thecvf.com/content_ECCV_2018/html/Weixuan_Chen_DeepPhys_Video-Based_Physiological_ECCV_2018_paper.html

ECCV 2018 Open Access Repository

DeepPhys: Video-Based Physiological Measurement Using Convolutional Attention Networks Weixuan Chen, Daniel McDuff; Proceedings of the European Conference on Computer Vision (ECCV), 2018, pp. 349-365 Non-contact video-based physiological measurement has ma

openaccess.thecvf.com

🎯 연구 동기

기존 rPPG 알고리즘은 주로 다음과 같은 방식으로 작동합니다:
- 얼굴에서 ROI(Region of Interest) 추출
- 색상 평균화 → bandpass filter
- ICA, CHROM, POS 등의 수식 적용
- 주파수 분석으로 HR 계산
이러한 방식은 전처리가 많고, 조명/움직임 변화에 매우 민감하며, 학습 기반 일반화에 취약합니다.
DeepPhys는 이런 문제를 해결하기 위해 end-to-end CNN 모델을 설계하고, 주의 메커니즘을 도입하여 영상에서 ‘어디가 혈류 정보가 있는지’를 스스로 학습하도록 합니다.

🧠 모델 아키텍처: Convolutional Attention Network (CAN)

입력 스트림 (Motion Stream + Appearance Stream)
- 두 스트림은 CNN으로 각각 처리되며, appearance stream은 어떤 영역에 주의할지(attention mask)를 학습하여 motion stream에 적용합니다.

스트림	입력 설명
Motion Stream	프레임 차분 기반 정규화된 차이 이미지
Appearance Strem	원본 영상 프레임

Attention 메커니즘
- Appearance에서 학습된 feature로부터 soft attention mask를 생성
- motion feature와 element-wise 곱셈 → 주의 영역만 강조
- 이 과정을 다층 attention 연산으로 반복, 점점 더 정확한 ROI 학습
최종 출력
- 심박수(BVP), 호흡수(BR)의 미분값을 회귀하여 시계열 예측
- FFT로 dominant frequency 추출 → HR/BR 계산
🔬 입력 표현: 생리 신호를 위한 정규화된 차분 프레임
기존 optical flow는 조명 변화와 색상 반영을 반영하지 못함
DeepPhys는 **피부 반사 모델(Dichromatic Reflection Model)**을 활용해
- $(C(t+1) - C(t)) / (C(t+1) + C(t))$ 방식으로 정규화된 프레임 차이 계산
- 피부색, 조명, 움직임 노이즈 제거 효과

📈 성능 비교: 다양한 조건에서도 뛰어난 성능

테스트 데이터셋

이름	특징
RGB Video I	다양한 움직임 task (정지 ~ 빠른 회전)
RGB Video II	고해상도 영상, 다양한 피험자
MAHNOB-HCI	감정 유발 실험 포함, ECG ground-truth
IR Video	적외선 영상 + ECG/호흡 ground-truth

성능 지표
- MAE (Mean Absolute Error)
- SNR (Signal-to-Noise Ratio)
주요 결과
- 특히 높은 움직임 (Task 6) 조건에서도 DeepPhys는 모든 기존 알고리즘을 압도
- RGB뿐 아니라 적외선(IR) 영상에도 적용 가능

방법	RGB I	MAHNOB	IR
CHROM	7.80	5.09	X
LiCVPR	19.98	10.21	X
2SR	20.98	21.39	X
DeepPhys (CAN)	1.50	4.57	0.55

🎯 DeepPhys의 차별점

항목	내용
입력 설계	조명/피부톤에 강건한 정규화된 프레임 차이
학습 전략	미분값 회귀 → FFT → HR 추정 방식
주의 메커니즘	appearance 기반 attention → motion 강조
일반화 성능	새로운 피험자, 데이터셋에서도 전이 학습 가능

📸 주의 시각화 (Attention Visualization)

논문에서는 Grad-CAM을 활용하여 주의 영역(Attention Map)을 시각화함.
- 심박 예측 시: 볼, 이마, 귀, 경동맥 부위에 집중
- 호흡 예측 시: 코, 입, 목 부위에 넓게 분포
이러한 결과는 생리학적으로도 매우 타당하며, DeepPhys가 실제 혈류 위치를 학습하고 있음을 보여줍니다.

✅ 정리 및 한줄평

DeepPhys는 영상 기반 생체 신호 추정 기술에서 딥러닝 시대를 연 대표적 연구입니다.
- 기존의 CHROM, POS, ICA 기반 알고리즘 한계를 뛰어넘어
- Attention을 활용해 "어디에 생리 신호가 있는지"까지 스스로 학습
- 다양한 환경에서도 강건한 성능 확보 → 실제 적용 가능성 확대

'Deep Learning > Remote Heart Rate Estimation' 카테고리의 다른 글

Multi-Task Temporal Shift Attention Networks for On-Device Contactless Vitals Measurement (MTTS-CAN) (0)	2025.04.18
Remote Photoplethysmograph Signal Measurement from Facial Videos Using Spatio-Temporal Networks (PhysNet) (0)	2025.04.18
Visual Heart Rate Estimation with Convolutional Neural Network (HR-CNN) (0)	2025.04.18
Face2PPG_An Unsupervised Pipeline for Blood Volume Pulse Extraction From Faces (OMIT) (0)	2025.04.17
Local group invariance for heart rate estimation from face videos in the wild (LGI) (0)	2025.04.17

현재글DeepPhys: Video-Based Physiological Measurement Using Convolutional Attention Networks

인공지능 개발자를 꿈꾸는 더기

인공지능 연구를 수행하면서 겪었던 경험을 기록하기 위한 블로그입니다.

soft-dtw, yoloe, physformer, rhr, deepphys, hr-cnn, yolo-world, efficientphys, factorizephys, prefix-tuning, 애드센스, 비접촉식 심박수 추정, 티스토리, physformer++, mtts-can, physnet, rggb to rgb, rPPG, ip-adapter, Generative model,

Today :
Yesterday :

일	월	화	수	목	금	토
				1	2	3
4	5	6	7	8	9	10
11	12	13	14	15	16	17
18	19	20	21	22	23	24
25	26	27	28	29	30	31

인공지능 개발자를 꿈꾸는 더기