오늘 소개할 논문은 Yu et al.의 2019년 연구인 "Improved motion robustness of remote-PPG by using the blood volume pulse signature" 입니다. 이 논문은 기존 평균 심박수(HR) 예측을 넘어서, 개별 심박 파형의 정밀 복원과 HRV 분석까지 가능하게 만든 획기적인 연구입니다.
Remote Photoplethysmograph Signal Measurement from Facial Videos Using Spatio-Temporal Networks
Recent studies demonstrated that the average heart rate (HR) can be measured from facial videos based on non-contact remote photoplethysmography (rPPG). However for many medical applications (e.g., atrial fibrillation (AF) detection) knowing only the avera
arxiv.org
GitHub - ZitongYu/PhysNet: code of BMVC2019 paper 'Photoplethysmograph Signal Measurement from Facial Videos Using Spatio-Tempor
code of BMVC2019 paper 'Photoplethysmograph Signal Measurement from Facial Videos Using Spatio-Temporal Networks' - ZitongYu/PhysNet
github.com
- 🎯 왜 이 논문이 중요한가?
- 기존 rPPG 연구는 대부분 평균 심박수(HR)만 예측합니다. 하지만 실제 의료나 감정 인식에서는 심박 변이도(HRV) 분석이 훨씬 중요합니다:
- 심박 파형의 피크 정확도가 있어야 HRV 분석이 가능
- 평균 HR만 예측하는 딥러닝 모델은 의료 응용에 한계
- 대부분 2D CNN 기반 → 시간 정보를 충분히 활용하지 못함
- PhysNet은 최초로 "개별 심박 파형"을 복원할 수 있는 spatio-temporal end-to-end 모델을 제안합니다. HR뿐 아니라 HRV, AF(심방세동) 감지, 감정 인식 등으로 확장 가능성을 보여줍니다.
🧠 제안 방법: PhysNet
- 전체 구조 요약
- 얼굴 영상 시퀀스 입력 (T개의 RGB 프레임)
- Spatio-temporal 네트워크를 통해 특징 추출
- 1D rPPG 시계열 출력
- 주파수 분석 → HR, HRV 계산
- 추가적으로 AF 감지, 감정 인식 등 응용 가능
- 주요 구성 요소
- 3DCNN / LSTM / ConvLSTM: 시간 + 공간 정보를 동시에 학습
- Encoder-Decoder 구조: Temporal 정보를 압축하고 다시 확장
- Negative Pearson Loss: 파형의 피크 위치를 정확히 맞추기 위해 사용
- End-to-End 구조: 전처리 없이 얼굴 영상만으로 직접 rPPG 예측 가능
💡 다양한 네트워크 구조 실험
- 3DCNN 기반 (PhysNet-3DCNN)
- 3×3×3 커널로 시간 + 공간 정보 동시 추출
- Temporal Encoder-Decoder 버전은 성능 향상됨
- 가장 우수한 성능 기록
- LSTM 계열 (PhysNet-LSTM / BiLSTM / ConvLSTM)
- 2DCNN으로 먼저 공간 특징 추출 → LSTM으로 시간 정보 연결
- BiLSTM은 오히려 성능 하락 (역방향 정보 불필요)
- ConvLSTM은 일반 LSTM과 유사한 성능
🧪 실험 결과 요약
- HR & HRV 측정 성능
- 기존 알고리즘보다 더 정확하게 HR, HRV 모두 예측 가능
- 심방세동(AF) 감지 정확도
- 측정된 HRV 신호만으로도 병리학적 상태 분류 가능
- 감정 인식 (MAHNOB-HCI)
- 단순 평균 HR이 아닌, 복원된 파형 기반 HRV 특징으로 감정까지 예측 가능
📸 시각화 결과
- PhysNet이 복원한 rPPG 신호(red)가 ECG ground truth(black)에 매우 근접
- 기존 알고리즘(ROI_green)은 피크 위치가 일관되지 않음
- 학습된 attention map은 이마, 볼, 턱 등 혈류가 뚜렷한 부위에 집중
✅ 요약: PhysNet의 핵심 장점
항목 | 장점 |
정밀도 | HR뿐 아니라 HRV까지 정확히 예측 가능 |
모델 구조 | 3D CNN + Encoder-Decoder 구조로 시간-공간 정보 통합 |
실용성 | 실용성: 전처리 없이도 end-to-end로 바로 추론 가능 |
응용성 | 심방세동 감지, 감정 인식 등 의료/감정 분야 확장 가능 |
성능 | 기존 알고리즘 + 다른 딥러닝 모델보다 전반적으로 우수한 성능 |
📝 마무리
- PhysNet은 "rPPG → 파형 복원 → HRV 분석"까지 확장한 최초의 영상 기반 모델입니다.