논문서치 | 보행자 행동 인식 경로 예측

 -- 참고용 --

Dataset 관련

서베이





경로예측

- 기존 논문들이 2D 영상에서 보행자의 미래 위치를 예측할 때 egomotion을 고려하지 않은 좌표를 예측하는데 우리는 egomotion을 보정하여 화면에 보다 정확한? 보기 편한? 활용이 용이한? 경로예측을 했다?
pedestrian trajectory prediction using ego motion compensation??

- 기존 논문들과 달리 경로 예측에서 보행자의 스켈레톤 정보를 활용했다??

-보통 constant v나 a를 쓰거나 KF 등을 많이 사용하는데 우리는 네트워크를 사용했다???

확인해야 할 것:
1) egomotion compensation 적용한 논문 있는지, 있으면 확인
  • --> 현재로서는 보이지 않음
2) 3D path prediction 한 논문 있는지, 있으면 확인
  • --> stereo vision 혹은 point cloud 등을 사용한 것
  • --> 단안카메라 비전만 사용한 것은 안보임
3) 보행자 스켈레톤 정보 활용하여 경로예측한 논문 있는지, 있으면 확인
  • --> 주로 행동인식, 횡단의도파악에 사용하였고, 경로예측은 1건 찾음
  • --> openpose 등에서 사용할 수 있는 pose denoising/completion 기술이 있음
4) 네트워크 사용하는 경로예측 확인?
  • --> 있음

  • Pedestrian Behavior Understanding and Prediction with Deep Neural Networks 

    • pedestrian walking path prediction : MSE (normalized) 퍼센트로 나타남

      • 좌표 x, y를 전체 픽셀 수 X, Y로 나눈걸 normalize했다고 말하는듯

      • The average L2 distance between normalized predicted pedestrian locations and normalized ground-truth pedestrian locations of all the N pedestrians at all the M∗ predicted time points are computed.

    • 자동차 주행은 X, stationary crowd group


  • PIE: A Large-Scale Dataset and Models for Pedestrian Intention Estimation and Trajectory Prediction 

    • traffic scene에서의 보행자 경로 예측

    • 행동은 X, 횡단 의도 예측은 O

    • 자동차 미래속도예측

    • LSTM 사용

    • 바운딩박스 좌표/시퀀스 중점 좌표의 평균/시퀀스 마지막 박스의 중점으로 MSE로 경로 예측 결과 평가

      • 자동차 움직임에 따라 좌표 보정했다는 얘기 없음

    • 의도추정은 바닐라 LSTM과 비교함

    • 경로예측은 선형칼만필터, LSTM, 베이지안 LSTM과 비교함

    • ↑ 바운딩박스만 썼을때

    • ↑ 의도, 자동차속도예측까지 썼을때

  • Detection of pedestrian crossing road: A study on pedestrian pose recognition

    • 무게중심 사용? 사람을 옵티컬 플로우로 검출, 걸을때 바운딩박스 가로세로비율이 달라지는걸사용

    • improved sparse optical flow analysis

    • bounding box로 top-view에서의 보행자 현재 위치 미터 단위 에러 추정

    •  walking, bending, stopping or starting

    • 잘 이해가 안감 우리가 찾는건 아닌것같은, classification 성능도 안나옴

  • Forecasting Pedestrian Trajectory with Machine-Annotated Training Data - IEEE Conference Publication << 여기에 참고할만한 related works 더 있을듯

    • Dynamic Trajectory Predictor (DTP)

      • predicting the centroid in the 2D coordinate space obtained by a camera

      • 사람(의 움직임)은 optical flow로 검출 (인풋 이미지를 optical flow 프레임으로 사용함)

      • 자동차 움직임에 따라 좌표 보정했다는 얘기 없음

    • JAAD 사용 + BDD-100K

    • 바운딩박스 레이블링하는 방법을 제시함 딱히 쓸모는 X

    • mean squared error (MSE) and displacement error (DE@t) at timesteps up to 15
    • The MSE is the mean of the squared errors of the predicted centroid in pixels from all timesteps 1 to n and across all samples in the test set. The DE@t is the mean Euclidean distance in pixels of the predicted and ground truth centroid for time step t only. Both metrics are relative to an image resolution of 1280 × 720.
  • M2P3: Multimodal Multi-Pedestrian Path Prediction by Self-Driving Cars With Egocentric Vision
    • 미래 경로를 여러개 예측함
    • Conditional variational autoencoders (CVAE)
    • 생성 모델로서 조건부 변형 자동 인코더를 RNN (Recurrent Neural Network) 인코더 디코더 아키텍처와 결합합니다.
    • JAAD 데이터셋 사용
    • 보행자의 바운딩 박스 위치와 scale(크기)?를 누적하여 사용

  • Egocentric Vision-based Future VehicleLocalization for Intelligent Driving Assistance Systems

    • HEV-I Dataset 사용
    • 보행자가 아니라 자동차의 위치를 예측
    • metrics FDE/ADE/FIOU:
      final displacement error
      average displacement error
      final intersection over union 

  • Future Person Localization in First-Person Videos

    • 자체 데이터셋 (FPL 데이터셋) --> raw image 없어서 쓸모 X
    • 자동차 카메라가 아니라 보행자 first-person 카메라임
    • 네트워크 사용: 
    • ego-motion cue 사용: rotation, translation
    • Openpose 사용
    •  

    • Each score describes the final displacement error (FDE) in pixels with respect to the frame size of 1280×960-pixel
    • 현재 프레임의 위치에서 미래 위치를 표시하는 것은 아닌듯함
  • Disentangling Human Dynamics for Pedestrian Locomotion Forecasting with Noisy Supervision
    • 스켈레톤(OpenPose), monodepth(SuperDepth), egomotion(Unsupervised learning of depth and ego-motion from video) 사용
    • JAAD Dataset 사용
    • 미래의 스켈레톤을 예측 (영상에서의 위치도 포함)
    • 에고모션 보정 X
    • Keypoint Displacement Error (KDE)로 성능 계산
    • missing joint를 fill in 하여 사용(Denoising or Completing Poses)
      • pose completion network를 제안함 (auto encoder)
    • quasi-RNN encoder-decoder 사용
    • 단위는 픽셀인것 같음
    • 코드 없음

3D localization 관련

확인할것:
데이터셋? 3D 로컬라이재이션과 트래킹 함께 사용한 거 있는지 ?? ? ? ? ??  ?

  • (Mono3D) Monocular 3D Object Detection for Autonomous Driving
    • KITTI benchmark 사용
    • object proposal generation? 이미지에서 object가 존재할 거라고 추정되는 부분을 propose하는 것???
      • 객체 제안 방법은 이미지에서 대부분의 지상 실측 객체를 포함하는 적당한 수의 후보 영역을 생성하는 것을 목표로합니다.
    • 평면 지면 가정
  • (3DOP) 3D Object Proposals using Stereo Imagery for Accurate Object Class Detection
    • KITTI benchmark 사용
    • 위와 같이 Object proposal
    • 스테레오 이미지
    • HHA has three channels which represent the disparity map, height above the ground, and the angle of the normal at each pixel with respect to the gravity direction.
  • MonoLoco: Monocular 3D Pedestrian Localization and Uncertainty Estimation

    • 모노로코: 모노 이미지에서 보행자의 3D 위치 추정

    • pose estimator 사용(pifpaf)

    • KITTI 3D Object Detection Evaluation/nuScenes 데이터셋 사용

    • 모노로코는 2D 영상에서 보행자의 3D 위치를 알아내기 위해 먼저 pifpaf라는 최신식 스켈레톤 검출 기능을 사용하고 거기에다가 라플라스분포 기반 손실함수와 MC드롭아웃을 사용해서 지식적 불확정성을 잡아낸다

    • Average Localization Precision (ALP) 수치를 사용:
      AOS(Average Orientation Similarity)에서 OS를 LP로 바꾼것.
      localization precision(LP): a 3D location is considered to be correct if its distance from the ground truth 3D location is smaller than certain threshold
      이때 threshold는 0.5m, 1m, 2m를 사용한듯

    • average localization error (ALE) 수치도 사용
      근데 잘 모르겠음

  • Recognition and 3D Localization of Pedestrian Actions from Monocular Video
    • 행동인식 종류: Walking • Nodding • Looking at Ego-Vehicle • Crossing Streets • Clearing Path • Speed Up • Speed Down • Making Hand Gesture (JAAD와동일)



    • DensePose(키포인트, 신체표면검출)

    • 모노로코 사용, 모노로코와 달리 거리에 따라 asymmetric distribution을 상정, Johnson SU distribution 사용



    • two-stream temporal relation network with inputs corresponding to the raw RGB image sequence of the tracked pedestrian as well as the pedestrian pose
    • JAAD public dataset(action recognition) KITTI dataset(3D localization) HRI’s H3D driving dataset(Qualitative Evaluation)

  • Deep learning architecture for pedestrian 3-D localization and tracking using multiple cameras
    • multi-camera multi-target tracking (MCMTT)
    • 2-D PGP(pedestrian ground position) : "image distortion misleads the estimation of the pedestrian 2-d ground position." 바운딩박스만으로 2D PGP를 추정하기 어려움, 그래서 2D PGP를 제대로 추정하는 네트워크를 제안
    • 아무튼 멀티캠이고 관련 없었음
  • Monocular Visual Object 3D Localization in Road Scenes
    • KITTI dataset 사용
    • pedestrian은 아님
    • 3d localization에 Mask R-CNN object detector, monocular DepthNet CNN, depth histogram, semantic segmentation 사용
    • depth estimation 에서 point cloud 필요
    • ground plane estimation에서 sparse object points and dense ground points 사용
    • 3D tracklet smoothing method << 활용 가능??
      • Huber regression를 활용 어쩌구 했다는데 잘 모르겠음
    • 아무튼 관련 없었음

횡단의도 관련

  • Estimation of street crossing intention from a pedestrian's posture on a sidewalk using multiple image frames - IEEE Conference Publication 

    • 보행자의 횡단 의도를 확률?로 분석

    • 자체제작 DB

    • 바운딩박스검출 및 트래킹 후 HOG사용하여 모션 검출 → PCA사용

    • INRIA Person Dataset

    • (a) crossed the road;
      (b) walked straight without crossing;
      (c) tried to cross but aborted it and stopped before the boundary; and
      (d) tried to cross but aborted it and walked straight down the sidewalk again

    • The ground truth of the crossing intention, i. e., whether the pedestrian intended to cross, was defined by the experimenter while observing the captured video and labeled manually

    • 행동은 X

    • ROC 커브로 나타냄

  • Will the Pedestrian Cross? A Study on Pedestrian Path Prediction
    • 경로예측 + 횡단의도 + 행동분류
    • stereo vision data 사용, dense optical flow features
    • Gaussian process dynamical models (GPDMs)
      • 가로(optical flow) 세로(stereo 거리) 움직임 따로 예측 후 결합
    • probabilistic hierarchical trajectory matching (PHTM)
      • Longest Common Subsequence 뭐 이런걸 사용
    • Kalman filter
      • 2가지 있음
    •  

    • 자체제작 스테레오 DB
    • 경로 수집 부분 다시 보기
  • Is the Pedestrian going to Cross? Answering by 2D Pose Estimation
    • 3월달에 봤던 거
    • JAAD dataset
    • crossing/not-crossing classifier
    • it does not require information such as stereo, optical flow, or ego-motion compensation.
    • 스켈레톤 사용, RF 사용

  • On-Board Detection of Pedestrian Intentions
    • 스켈레톤 정보 사용
    • does not require ego-motion compensation

    • (위와 같은 저자, 위보다 1년 전에 나온 거..)
    • procedure for detecting pedestrian intentions that is based on the following binary classifiers
      • Continue walking perpendicularly to the camera (∼crossing) vs. stopping
      • Continue walking parallel to the camera vs. bending
      • Continue stopped vs. starting to walk perpendicular to the camera
    • Pedestrian Path Prediction with Recursive Bayesian Filters: A Comparative Study에 나오는 데이터셋 사용 (아마 Daimler인듯)
    • RF, SVM 사용
    • intention probability vs. TTE / accuracy vs. TTE
    • 약간 뭘하겠다는건지 모르겠음
  • RNN-based Pedestrian Crossing Prediction using Activity and Pose-related Features
    • JAAD dataset 사용
    • 도식이 예쁘다 현대미술 같다
    • 행동 특징 분석에 CNN, 특징에서 정보 추출에 RNN(LSTM, GRU) 사용
    • 바운딩박스 부분 crop해서 input으로 사용한듯함
    • 행동 분류를 한 건 아니고, 횡단의도 건넌다/안건넌다 이진 분류
    • precision/recall/accuracy로 분석

행동분류/인식 관련

  • Driver and pedestrian awareness-based collision risk analysis - IEEE Conference Publication 

    • 운전자가 보행자를 보았는지 여부, 보행자가 운전자를 보았는지 여부를 사용

    • 주행 차량과 보행자의 충돌 위험 분석 논문 (확률로)

    • 자체제작 DB

      • 테스트한 시퀀스 n개중에 몇개맞췄나 이런식으로 나타냄

    • driver state를 고려

    •  Dynamic Bayesian Network를 사용

      • SC “Situation Critical” (collision course latent state)

      • Sees-Pedestrian (SP)

      • Has-Seen-Pedestrian (HSP)

      • Driver-Head-Orientation(DHO) :  serves as evidence for the Sees-Pedestrian (SP)  variable

      • Sees-Vehicle (SV)

    • Focus-of-Attention (FOA)

    • A collision warning is emitted if the collision probability is above a threshold which we empirically set to 0.8 for both SLDS and LDS.

  • Temporal and Fine-Grained Pedestrian Action Recognition on Driving Recorder Database

    • 걷기, 회전, 자전거 타기, 횡단, 서기

    • 자체제작 DB? Driving Recorder Database?

  • Pedestrian Action Recognition Using Motion Sensor and k-NN Classifier

    • walking, stepping(제자리걸음?), running

    • 모션센서 사용.. 관련성 X

  • Pedestrian activity classification using patterns of motion and histogram of oriented gradient

    • a walk, b turn opposite to camera, c turn towards camera, d halfway return, e run, f cross walk, g fall down, h fall down and get up

  • Pedestrian Path, Pose, and Intention Prediction Through Gaussian Process Dynamical Models and Pedestrian Activity Recognition

    • standing, starting, stopping, walking

  • Pedestrian Path Prediction with Recursive Bayesian Filters: A Comparative Study
  •          
  • Estimation of walking direction for Pedestrian from Moving Vehicle
    • 단안카메라. lateral trajectory. centroid.
    • 보행자 8 방향 중 하나를 고름 ( 어디에 쓴다는건지 파악 못했음)
    • 로컬라이즈는 카메라 외부 파라미터와 거리 아는 지표 사용, 평면 바닥 가정
      • 미터로 측정


    • 경로예측은 바운딩박스 바닥에 투사한 중점을 Kalman filter에 적용

      • 미터로 측정
    • crossing, stopping, bending-in and starting
    • Daimler mono pedestrian detection 데이터셋
  • Image Based Estimation of Pedestrian Orientation for Improving Path Prediction
    • 보행자
  • Estimation of Pedestrian Walking Direction fo 추정r Driver Assistance System
    • Estimation of walking direction for Pedestrian from Moving Vehicle에서 사용한거
    • 보행자 방향

Ego-Motion Compensation

  • ?



기타(Guitar 아님)

댓글