반응형
오늘 소개할 논문은 Casado et al.의 2023년 연구인 " Face2PPG: An Unsupervised Pipeline for Blood Volume Pulse Extraction From Faces" 입니다. 이 논문은 기존 rPPG 연구의 전통적 문제점들을 체계적으로 정리하고, 세 가지 주요 혁신을 통해 일상 환경에서도 강건한 rPPG 신호 추출이 가능함을 보여주고 있습니다.
Face2PPG: An Unsupervised Pipeline for Blood Volume Pulse Extraction From Faces
Photoplethysmography (PPG) signals have become a key technology in many fields, such as medicine, well-being, or sports. Our work proposes a set of pipelines to extract remote PPG signals (rPPG) from the face robustly, reliably, and configurably. We identi
ieeexplore.ieee.org
🎯 연구 동기
- 비접촉 심박 추정(rPPG)은 의료, 웰빙, 스포츠 등 다양한 분야에서 사용되고 있지만, 실제 환경에서는 여전히 신뢰도가 낮습니다. 주요 문제는 다음과 같습니다:
- 얼굴의 움직임, 표정 변화
- 조명 변화, 영상 압축
- ROI 설정의 불안정성
- 특정 피부색/조도 환경에 대한 민감성
- 기존 연구들은 주로 “RGB → PPG 변환 알고리즘”에 집중했지만, Face2PPG는 파이프라인 전체를 최적화하며 실용성과 범용성을 높이고자 합니다.
🧠 Face2PPG의 3대 기술 혁신
- 정규화된 얼굴 메쉬 기반 스태빌라이저
- 문제: 기존 ROI 기반 방식은 고개 돌림, 표정 변화 시 같은 부위에서 신호를 수집하지 못함
- 해결책: 얼굴 랜드마크를 기준으로 삼각 메쉬(mesh)를 생성 → 각 프레임의 얼굴을 고정된 좌표계에 정렬
- 효과: 시간적으로 동일한 위치의 피부에서 일관된 신호 추출 가능
- 다중 영역 동적 선택 (DMRS: Dynamic Multi-Region Selection)
- 정규화된 얼굴을 9×9 영역으로 분할하여 각각의 신호 품질을 평가:
- 신호 에너지, SNR, 프랙탈 차원(KFD), 샘플 엔트로피, DFA 등을 사용
- 품질 낮은 영역 제거 → 고품질 영역만 결합하여 최종 rPPG 추출
- 장점: 조명이나 포즈 변화에도 견고하게 동작하며 노이즈 감소
- 정규화된 얼굴을 9×9 영역으로 분할하여 각각의 신호 품질을 평가:
- RGB→PPG 변환 방식: OMIT (Orthogonal Matrix Image Transformation)
- 기존 ICA, PCA, CHROM 등은 압축 영상에서 성능 저하
- OMIT는 QR 분해 기반의 직교 변환 기법을 사용해 RGB 간 상관성을 제거하고 혈류 성분만 추출
- 특징:
- 하우스홀더 반사(Householder Reflection) 기반 QR 분해 사용
- 주 성분 제거 후 직교 투영 → 잡음 억제 및 BVP 신호 강화
- 영상 압축 및 조도 변화에도 강건
⚙️ 전체 파이프라인 구조
- Face2PPG는 8단계의 모듈형 파이프라인으로 구성됩니다:
- 데이터베이스 연결
- 얼굴 검출 및 정렬
- ROI 선택
- RGB 시계열 추출
- 신호 전처리 (Bandpass, detrending 등)
- RGB→PPG 변환 (OMIT 포함)
- 주파수 분석 (STFT, FFT 등)
- 성능 평가 (HR 비교, MAE, RMSE, PCC 등)
📊 성능 평가
- 사용한 공개 데이터셋
데이터셋 | 특징 |
PURE | 정적 + 움직임, 고해상도, 무압축 |
COHFACE | 다양한 피부색, 압축됨 |
LGI-PPGI | 현실적 환경, 모션/조명 포함 |
UBFC | 다양한 연령/피부, 고화질 |
MAHNOB | 고난이도, 강한 압축, 저조도 |
- 정량적 성능
- OMIT은 특히 압축된 MAHNOB 데이터셋에서 최고의 성능을 기록함
- MAHNOB처럼 압축 강하고 노이즈 많은 데이터셋에서는 기존 CHROM, POS는 성능 저하
- OMIT 기반 Multi-region 파이프라인은 CHROM보다 적은 잡음, 더 높은 피크 정확도 달성
- 기존 알고리즘과의 비교
✅ 결론 및 시사점
- Face2PPG는 기존 비학습형 rPPG 기법의 한계를 해결한 대표적 연구입니다.
- 파이프라인 전체를 고도화하며 실제 적용성을 높였고
- 학습 없이도 deep learning 수준의 성능을 구현하였으며
- OMIT은 RGB→PPG 변환 방식에서 새로운 표준이 될 가능성이 높습니다
📝 마무리
- "Unsupervised 방식도 딥러닝 못지않은 강건성과 성능을 가질 수 있다."
- Face2PPG는 이러한 가능성을 증명해낸 대표적인 사례이며, 특히 실시간성, 일반화, 경량성이 중요한 rPPG 응용 분야에서 큰 잠재력을 보여줍니다.
- 지금까지 전통적인 비접촉식 심박수 추정에 관한 논문들을 살펴보았습니다. 다음 리뷰에서는 Deep Learning 기반의 논문을 소개할 예정입니다.
반응형