Deep Learning/Remote Heart Rate Estimation

Multi-Task Temporal Shift Attention Networks for On-Device Contactless Vitals Measurement (MTTS-CAN)

나희와더기 2025. 4. 18. 15:52
반응형

오늘 소개할 논문은 Liu et al.의 2020년 연구인 "Multi-Task Temporal Shift Attention Networks for On-Device Contactless Vitals Measurement" 입니다. 이 논문은 앞선 DeepPhys 알고리즘을 개선하여 실시간·저전력 환경에서도 사용할 수 있도록 설계된 MTTS-CAN (Multi-Task Temporal Shift Convolutional Attention Network) 구조를 제안하였습니다.

 

Multi-Task Temporal Shift Attention Networks for On-Device Contactless Vitals Measurement

Requests for name changes in the electronic proceedings will be accepted with no questions asked. However name changes may cause bibliographic tracking issues. Authors are asked to consider this carefully and discuss it with their co-authors prior to reque

proceedings.neurips.cc

 

GitHub - xliucs/MTTS-CAN: Multi-Task Temporal Shift Attention Networks for On-Device Contactless Vitals Measurement (NeurIPS 202

Multi-Task Temporal Shift Attention Networks for On-Device Contactless Vitals Measurement (NeurIPS 2020) - xliucs/MTTS-CAN

github.com


🎯 연구 배경

  • 코로나19 이후 원격진료(telehealth)가 보편화되었지만, 심박수나 호흡수 같은 생체신호를 원격으로 정확히 측정하는 기술은 여전히 부족합니다. 기존의 카메라 기반 rPPG 방식은 다음과 같은 문제점을 갖고 있었습니다:
    • 조명 변화나 움직임에 민감
    • 실시간 처리가 어렵거나, 연산 비용이 높음
    • 대부분은 오직 심박수(HR)만 예측 (호흡수는 제외)
    • 단일 신호 처리 → 생리적 상호작용 무시
  • 이 논문은 이러한 문제를 해결하기 위해, 심박 + 호흡 신호를 동시에 실시간 예측 가능한 초경량 모델(MTTS-CAN)을 제안합니다.

🧠 제안 방법: MTTS-CAN

  • 핵심 구성 요소
    • Temporal Shift Module (TSM)
      • 3D convolution 없이 시간 정보 학습
      • 연산량 증가 없이 temporal dependency 확보
    • Convolutional Attention
      • 혈류 신호가 강한 영역에 집중 (이마, 볼 등)
      • TSM이 유입한 노이즈 제거 역할도 수행
    • Multi-task Learning
      • 하나의 모델로 심박수 + 호흡수 동시 예측
      • 네트워크 파라미터를 공유 → 속도 2배 향상

💡 구조 요약

  • Motion branch: 프레임 차이 입력 → TSM 적용 → rPPG/BCG 신호 생성
  • Appearance branch: 얼굴 단일 프레임 평균값 입력 → Attention mask 생성
  • Attention module: motion branch에 soft attention 적용 (Sigmoid + L1 정규화)
  • Loss: $L=\frac{1}{T}\sum_{t}|b(t)-\hat{b}(t)|+\alpha \frac{1}{T}\sum_{t}|r(t)-\hat{r}(t)|$
    • $b$: BVP
    • $r$: respiration
    • $\alpha$: 0.5
  • 🧪 실험 설정
  • 사용 데이터셋
    • AFRL: 다양한 움직임 환경(고개 회전 등), 120fps, ECG+PPG ground truth
    • MMSE-HR: 감정 유발 환경, 작은 움직임, PPG만 제공
  • 비교 방법
비교 대상 설명
POS, CHROM, ICA 기존 전처리 기반 알고리즘
2D-CAN DeepPhys 계열 CNN
3D-CAN 3D Conv 기반 rPPG 모델
Hybrid-CAN 2D+3D 혼합 구조
MTTS-CAN 제안 모델 (multi-task + TSM + attention)

 

📊 성능 요약

  • 심박수(HR) 성능
    • 기존 모델 대비 20~50% 오류 감소, SNR 개선

  • 호흡수(RR) 성능 (AFRL 기준)

  • 속도 및 경량화 성능
    • 최소 연산량 + 최대 정확도 조합 → 150fps 이상 실시간 추론 가능

 

🔍 상세 분석

  • 강한 움직임 상황(Task 6)에서도 MAE 3.1 수준 유지
  • Attention module 덕분에 TSM 도입 시 발생할 수 있는 노이즈 억제 가능
  • 심박-호흡 신호의 생리적 상관관계(RSA)를 multi-task 학습으로 활용
  • 얼굴 프레임 평균값만 활용하는 효율적 appearance branch 설계

✅ 요약: MTTS-CAN의 기여 정리

요소 기여
정확도 기존 모델 대비 HR/BR 추정 오류 최대 50% 감소
실시간성 150fps 이상, 모바일 기기에서도 동작 가능
멀티태스킹 HR + BR 동시 추정, 연산량 50% 절감
On-device 친화성 1M 미만 파라미터 수, TVM 최적화 가능
신호 품질 BVP + 호흡 신호 동시 추출로 HRV 및 AF 감지 확장 가능

 

📝 마무리

  • MTTS-CAN은 rPPG + 호흡 동시 추정을 가능한 최초의 초경량 멀티태스킹 모델로, 정확도, 속도, 확장성 세 마리 토끼를 모두 잡은 연구입니다.  
    • 이후 등장하는 모바일 헬스케어, 스마트폰 기반 감정 인식, 수면 분석 등 다양한 응용에서 중요한 기반이 됩니다.
    • 특히 Edge-AI 시대를 위한 "실용 가능한 rPPG 모델"이라는 점에서 매우 유의미한 진전을 이룬 연구입니다.
반응형