반응형
오늘 소개할 논문은 Chen. et al의 2018년 연구인 "DeepPhys: Video-Based Physiological Measurement Using Convolutional Attention Networks" 입니다. 이 논문은 단순한 심박수 예측을 넘어, 주의(attention)를 활용한 공간적 특징 해석, RGB/IR 환경 모두 대응, 종단형(end-to-end) 학습 등 지금까지의 모든 rPPG 기술 흐름을 바꿔놓은 중요한 연구입니다.
ECCV 2018 Open Access Repository
DeepPhys: Video-Based Physiological Measurement Using Convolutional Attention Networks Weixuan Chen, Daniel McDuff; Proceedings of the European Conference on Computer Vision (ECCV), 2018, pp. 349-365 Non-contact video-based physiological measurement has ma
openaccess.thecvf.com
🎯 연구 동기
- 기존 rPPG 알고리즘은 주로 다음과 같은 방식으로 작동합니다:
- 얼굴에서 ROI(Region of Interest) 추출
- 색상 평균화 → bandpass filter
- ICA, CHROM, POS 등의 수식 적용
- 주파수 분석으로 HR 계산
- 이러한 방식은 전처리가 많고, 조명/움직임 변화에 매우 민감하며, 학습 기반 일반화에 취약합니다.
- DeepPhys는 이런 문제를 해결하기 위해 end-to-end CNN 모델을 설계하고, 주의 메커니즘을 도입하여 영상에서 ‘어디가 혈류 정보가 있는지’를 스스로 학습하도록 합니다.
🧠 모델 아키텍처: Convolutional Attention Network (CAN)
- 입력 스트림 (Motion Stream + Appearance Stream)
- 두 스트림은 CNN으로 각각 처리되며, appearance stream은 어떤 영역에 주의할지(attention mask)를 학습하여 motion stream에 적용합니다.
스트림 | 입력 설명 |
Motion Stream | 프레임 차분 기반 정규화된 차이 이미지 |
Appearance Strem | 원본 영상 프레임 |
- Attention 메커니즘
- Appearance에서 학습된 feature로부터 soft attention mask를 생성
- motion feature와 element-wise 곱셈 → 주의 영역만 강조
- 이 과정을 다층 attention 연산으로 반복, 점점 더 정확한 ROI 학습
- 최종 출력
- 심박수(BVP), 호흡수(BR)의 미분값을 회귀하여 시계열 예측
- FFT로 dominant frequency 추출 → HR/BR 계산
- 🔬 입력 표현: 생리 신호를 위한 정규화된 차분 프레임
- 기존 optical flow는 조명 변화와 색상 반영을 반영하지 못함
- DeepPhys는 **피부 반사 모델(Dichromatic Reflection Model)**을 활용해
- $(C(t+1) - C(t)) / (C(t+1) + C(t))$ 방식으로 정규화된 프레임 차이 계산
- 피부색, 조명, 움직임 노이즈 제거 효과
📈 성능 비교: 다양한 조건에서도 뛰어난 성능
- 테스트 데이터셋
이름 | 특징 |
RGB Video I | 다양한 움직임 task (정지 ~ 빠른 회전) |
RGB Video II | 고해상도 영상, 다양한 피험자 |
MAHNOB-HCI | 감정 유발 실험 포함, ECG ground-truth |
IR Video | 적외선 영상 + ECG/호흡 ground-truth |
- 성능 지표
- MAE (Mean Absolute Error)
- SNR (Signal-to-Noise Ratio)
- 주요 결과
- 특히 높은 움직임 (Task 6) 조건에서도 DeepPhys는 모든 기존 알고리즘을 압도
- RGB뿐 아니라 적외선(IR) 영상에도 적용 가능
방법 | RGB I | MAHNOB | IR |
CHROM | 7.80 | 5.09 | X |
LiCVPR | 19.98 | 10.21 | X |
2SR | 20.98 | 21.39 | X |
DeepPhys (CAN) | 1.50 | 4.57 | 0.55 |
🎯 DeepPhys의 차별점
항목 | 내용 |
입력 설계 | 조명/피부톤에 강건한 정규화된 프레임 차이 |
학습 전략 | 미분값 회귀 → FFT → HR 추정 방식 |
주의 메커니즘 | appearance 기반 attention → motion 강조 |
일반화 성능 | 새로운 피험자, 데이터셋에서도 전이 학습 가능 |
📸 주의 시각화 (Attention Visualization)
- 논문에서는 Grad-CAM을 활용하여 주의 영역(Attention Map)을 시각화함.
- 심박 예측 시: 볼, 이마, 귀, 경동맥 부위에 집중
- 호흡 예측 시: 코, 입, 목 부위에 넓게 분포
- 이러한 결과는 생리학적으로도 매우 타당하며, DeepPhys가 실제 혈류 위치를 학습하고 있음을 보여줍니다.
✅ 정리 및 한줄평
- DeepPhys는 영상 기반 생체 신호 추정 기술에서 딥러닝 시대를 연 대표적 연구입니다.
- 기존의 CHROM, POS, ICA 기반 알고리즘 한계를 뛰어넘어
- Attention을 활용해 "어디에 생리 신호가 있는지"까지 스스로 학습
- 다양한 환경에서도 강건한 성능 확보 → 실제 적용 가능성 확대
반응형