Deep Learning/Remote Heart Rate Estimation

Face2PPG_An Unsupervised Pipeline for Blood Volume Pulse Extraction From Faces (OMIT)

나희와더기 2025. 4. 17. 16:09
반응형

오늘 소개할 논문은 Casado et al.의 2023년 연구인 " Face2PPG: An Unsupervised Pipeline for Blood Volume Pulse Extraction From Faces" 입니다. 이 논문은 기존 rPPG 연구의 전통적 문제점들을 체계적으로 정리하고, 세 가지 주요 혁신을 통해 일상 환경에서도 강건한 rPPG 신호 추출이 가능함을 보여주고 있습니다.

 

Face2PPG: An Unsupervised Pipeline for Blood Volume Pulse Extraction From Faces

Photoplethysmography (PPG) signals have become a key technology in many fields, such as medicine, well-being, or sports. Our work proposes a set of pipelines to extract remote PPG signals (rPPG) from the face robustly, reliably, and configurably. We identi

ieeexplore.ieee.org


🎯 연구 동기

  • 비접촉 심박 추정(rPPG)은 의료, 웰빙, 스포츠 등 다양한 분야에서 사용되고 있지만, 실제 환경에서는 여전히 신뢰도가 낮습니다. 주요 문제는 다음과 같습니다:
    • 얼굴의 움직임, 표정 변화
    • 조명 변화, 영상 압축
    • ROI 설정의 불안정성
    • 특정 피부색/조도 환경에 대한 민감성
  • 기존 연구들은 주로 “RGB → PPG 변환 알고리즘”에 집중했지만, Face2PPG는 파이프라인 전체를 최적화하며 실용성과 범용성을 높이고자 합니다.

🧠 Face2PPG의 3대 기술 혁신

  • 정규화된 얼굴 메쉬 기반 스태빌라이저
    • 문제: 기존 ROI 기반 방식은 고개 돌림, 표정 변화 시 같은 부위에서 신호를 수집하지 못함
    • 해결책: 얼굴 랜드마크를 기준으로 삼각 메쉬(mesh)를 생성 → 각 프레임의 얼굴을 고정된 좌표계에 정렬
    • 효과: 시간적으로 동일한 위치의 피부에서 일관된 신호 추출 가능
  • 다중 영역 동적 선택 (DMRS: Dynamic Multi-Region Selection)
    • 정규화된 얼굴을 9×9 영역으로 분할하여 각각의 신호 품질을 평가:
      • 신호 에너지, SNR, 프랙탈 차원(KFD), 샘플 엔트로피, DFA 등을 사용
      • 품질 낮은 영역 제거 → 고품질 영역만 결합하여 최종 rPPG 추출
    • 장점: 조명이나 포즈 변화에도 견고하게 동작하며 노이즈 감소
  • RGB→PPG 변환 방식: OMIT (Orthogonal Matrix Image Transformation)
    • 기존 ICA, PCA, CHROM 등은 압축 영상에서 성능 저하
    • OMIT는 QR 분해 기반의 직교 변환 기법을 사용해 RGB 간 상관성을 제거하고 혈류 성분만 추출
    • 특징:
      • 하우스홀더 반사(Householder Reflection) 기반 QR 분해 사용
      • 주 성분 제거 후 직교 투영 → 잡음 억제 및 BVP 신호 강화
      • 영상 압축 및 조도 변화에도 강건

⚙️ 전체 파이프라인 구조 

  • Face2PPG는 8단계의 모듈형 파이프라인으로 구성됩니다:
    • 데이터베이스 연결
    • 얼굴 검출 및 정렬
    • ROI 선택
    • RGB 시계열 추출
    • 신호 전처리 (Bandpass, detrending 등)
    • RGB→PPG 변환 (OMIT 포함)
    • 주파수 분석 (STFT, FFT 등)
    • 성능 평가 (HR 비교, MAE, RMSE, PCC 등)

📊 성능 평가

  • 사용한 공개 데이터셋
데이터셋 특징
PURE 정적 + 움직임, 고해상도, 무압축
COHFACE 다양한 피부색, 압축됨
LGI-PPGI 현실적 환경, 모션/조명 포함
UBFC 다양한 연령/피부, 고화질
MAHNOB 고난이도, 강한 압축, 저조도
  • 정량적 성능
    • OMIT은 특히 압축된 MAHNOB 데이터셋에서 최고의 성능을 기록함
    • MAHNOB처럼 압축 강하고 노이즈 많은 데이터셋에서는 기존 CHROM, POS는 성능 저하
    • OMIT 기반 Multi-region 파이프라인은 CHROM보다 적은 잡음, 더 높은 피크 정확도 달성

  • 기존 알고리즘과의 비교

 

✅ 결론 및 시사점

  • Face2PPG는 기존 비학습형 rPPG 기법의 한계를 해결한 대표적 연구입니다.
    • 파이프라인 전체를 고도화하며 실제 적용성을 높였고
    • 학습 없이도 deep learning 수준의 성능을 구현하였으며
    • OMIT은 RGB→PPG 변환 방식에서 새로운 표준이 될 가능성이 높습니다

📝 마무리

  • "Unsupervised 방식도 딥러닝 못지않은 강건성과 성능을 가질 수 있다."
    • Face2PPG는 이러한 가능성을 증명해낸 대표적인 사례이며, 특히 실시간성, 일반화, 경량성이 중요한 rPPG 응용 분야에서 큰 잠재력을 보여줍니다.
  • 지금까지 전통적인 비접촉식 심박수 추정에 관한 논문들을 살펴보았습니다. 다음 리뷰에서는 Deep Learning 기반의 논문을 소개할 예정입니다.
반응형