논문서치 | 보행자 행동 인식 경로 예측
-- 참고용 --
Dataset 관련
JAAD dataset에 대한 논문이었음
예측, 분류 등은 X
InfAR dataset: Infrared action recognition at different times
적외선 행동인식 데이터셋
prediction task가 있음
사람, 자동차, 도로 등의 3D 바운딩 박스 포함
보행자의 경우 앉기/눕기, 서있기, 이동의 attribute 포함
2 fps
- Daimler dataset
- Bending In/Stopping/Crossing/Starting
- original stereo pairs (8 bit PGM, 1176x640)
- calibration data
- ground truth (GT) annotations,
- pedestrian detector measurements and
- vehicle data (speed, yaw-rate)
- event tags and time-to-event labels (TTE in frames).
- Honda Egocentric View-Intersection (HEV-I) Dataset
- In the current release, the dataset is only being made available to researchers in universities in the United States.
- 자동차 위치가 바운딩박스로 라벨링됨
- Lyft
서베이
Survey of Pedestrian Action Recognition Techniques for Autonomous Driving
서베이, 큰 도움은 안됨
KTH 액션 데이터셋: 복싱, 박수, 조깅, 달리기, 걷기, 손흔들기
경로예측
- 기존 논문들이 2D 영상에서 보행자의 미래 위치를 예측할 때 egomotion을 고려하지 않은 좌표를 예측하는데 우리는 egomotion을 보정하여 화면에 보다 정확한? 보기 편한? 활용이 용이한? 경로예측을 했다?
pedestrian trajectory prediction using ego motion compensation??
- 기존 논문들과 달리 경로 예측에서 보행자의 스켈레톤 정보를 활용했다??
-보통 constant v나 a를 쓰거나 KF 등을 많이 사용하는데 우리는 네트워크를 사용했다???
- --> 현재로서는 보이지 않음
- --> stereo vision 혹은 point cloud 등을 사용한 것
- --> 단안카메라 비전만 사용한 것은 안보임
- --> 주로 행동인식, 횡단의도파악에 사용하였고, 경로예측은 1건 찾음
- --> openpose 등에서 사용할 수 있는 pose denoising/completion 기술이 있음
- --> 있음
Pedestrian Behavior Understanding and Prediction with Deep Neural Networks
pedestrian walking path prediction : MSE (normalized) 퍼센트로 나타남
좌표 x, y를 전체 픽셀 수 X, Y로 나눈걸 normalize했다고 말하는듯
The average L2 distance between normalized predicted pedestrian locations and normalized ground-truth pedestrian locations of all the N pedestrians at all the M∗ predicted time points are computed.
자동차 주행은 X, stationary crowd group
PIE: A Large-Scale Dataset and Models for Pedestrian Intention Estimation and Trajectory Prediction
traffic scene에서의 보행자 경로 예측
행동은 X, 횡단 의도 예측은 O
자동차 미래속도예측
LSTM 사용
바운딩박스 좌표/시퀀스 중점 좌표의 평균/시퀀스 마지막 박스의 중점으로 MSE로 경로 예측 결과 평가
자동차 움직임에 따라 좌표 보정했다는 얘기 없음
의도추정은 바닐라 LSTM과 비교함
경로예측은 선형칼만필터, LSTM, 베이지안 LSTM과 비교함
↑ 바운딩박스만 썼을때
↑ 의도, 자동차속도예측까지 썼을때
Detection of pedestrian crossing road: A study on pedestrian pose recognition
무게중심 사용? 사람을 옵티컬 플로우로 검출, 걸을때 바운딩박스 가로세로비율이 달라지는걸사용
improved sparse optical flow analysis
bounding box로 top-view에서의 보행자 현재 위치 미터 단위 에러 추정
walking, bending, stopping or starting
잘 이해가 안감 우리가 찾는건 아닌것같은, classification 성능도 안나옴
Forecasting Pedestrian Trajectory with Machine-Annotated Training Data - IEEE Conference Publication << 여기에 참고할만한 related works 더 있을듯
Dynamic Trajectory Predictor (DTP)
predicting the centroid in the 2D coordinate space obtained by a camera
사람(의 움직임)은 optical flow로 검출 (인풋 이미지를 optical flow 프레임으로 사용함)
자동차 움직임에 따라 좌표 보정했다는 얘기 없음
JAAD 사용 + BDD-100K
바운딩박스 레이블링하는 방법을 제시함 딱히 쓸모는 X
- mean squared error (MSE) and displacement error (DE@t) at timesteps up to 15
- The MSE is the mean of the squared errors of the predicted centroid in pixels from all timesteps 1 to n and across all samples in the test set. The DE@t is the mean Euclidean distance in pixels of the predicted and ground truth centroid for time step t only. Both metrics are relative to an image resolution of 1280 × 720.
- M2P3: Multimodal Multi-Pedestrian Path Prediction by Self-Driving Cars With Egocentric Vision
- 미래 경로를 여러개 예측함
- Conditional variational autoencoders (CVAE)
- 생성 모델로서 조건부 변형 자동 인코더를 RNN (Recurrent Neural Network) 인코더 디코더 아키텍처와 결합합니다.
- JAAD 데이터셋 사용
- 보행자의 바운딩 박스 위치와 scale(크기)?를 누적하여 사용
Egocentric Vision-based Future VehicleLocalization for Intelligent Driving Assistance Systems
- HEV-I Dataset 사용
- 보행자가 아니라 자동차의 위치를 예측
- metrics FDE/ADE/FIOU:
final displacement error
average displacement error
final intersection over union - 자체 데이터셋 (FPL 데이터셋) --> raw image 없어서 쓸모 X
- 자동차 카메라가 아니라 보행자 first-person 카메라임
- 네트워크 사용:
- ego-motion cue 사용: rotation, translation
- Openpose 사용
- Each score describes the final displacement error (FDE) in pixels with respect to the frame size of 1280×960-pixel
- 현재 프레임의 위치에서 미래 위치를 표시하는 것은 아닌듯함
- Disentangling Human Dynamics for Pedestrian Locomotion Forecasting with Noisy Supervision
- 스켈레톤(OpenPose), monodepth(SuperDepth), egomotion(Unsupervised learning of depth and ego-motion from video) 사용
- JAAD Dataset 사용
- 미래의 스켈레톤을 예측 (영상에서의 위치도 포함)
- 에고모션 보정 X
- Keypoint Displacement Error (KDE)로 성능 계산
- missing joint를 fill in 하여 사용(Denoising or Completing Poses)
- pose completion network를 제안함 (auto encoder)
- quasi-RNN encoder-decoder 사용
- 단위는 픽셀인것 같음
- 코드 없음
3D localization 관련
- (Mono3D) Monocular 3D Object Detection for Autonomous Driving
- KITTI benchmark 사용
- object proposal generation? 이미지에서 object가 존재할 거라고 추정되는 부분을 propose하는 것???
- 객체 제안 방법은 이미지에서 대부분의 지상 실측 객체를 포함하는 적당한 수의 후보 영역을 생성하는 것을 목표로합니다.


- 평면 지면 가정
- (3DOP) 3D Object Proposals using Stereo Imagery for Accurate Object Class Detection
- KITTI benchmark 사용
- 위와 같이 Object proposal
- 스테레오 이미지

- HHA has three channels which represent the disparity map, height above the ground, and the angle of the normal at each pixel with respect to the gravity direction.
MonoLoco: Monocular 3D Pedestrian Localization and Uncertainty Estimation
모노로코: 모노 이미지에서 보행자의 3D 위치 추정
pose estimator 사용(pifpaf)
KITTI 3D Object Detection Evaluation/nuScenes 데이터셋 사용
모노로코는 2D 영상에서 보행자의 3D 위치를 알아내기 위해 먼저 pifpaf라는 최신식 스켈레톤 검출 기능을 사용하고 거기에다가 라플라스분포 기반 손실함수와 MC드롭아웃을 사용해서 지식적 불확정성을 잡아낸다
Average Localization Precision (ALP) 수치를 사용:
AOS(Average Orientation Similarity)에서 OS를 LP로 바꾼것.
localization precision(LP): a 3D location is considered to be correct if its distance from the ground truth 3D location is smaller than certain threshold
이때 threshold는 0.5m, 1m, 2m를 사용한듯average localization error (ALE) 수치도 사용
근데 잘 모르겠음- Recognition and 3D Localization of Pedestrian Actions from Monocular Video
행동인식 종류: Walking • Nodding • Looking at Ego-Vehicle • Crossing Streets • Clearing Path • Speed Up • Speed Down • Making Hand Gesture (JAAD와동일)
DensePose(키포인트, 신체표면검출)
모노로코 사용, 모노로코와 달리 거리에 따라 asymmetric distribution을 상정, Johnson SU distribution 사용
- two-stream temporal relation network with inputs corresponding to the raw RGB image sequence of the tracked pedestrian as well as the pedestrian pose
JAAD public dataset(action recognition) KITTI dataset(3D localization) HRI’s H3D driving dataset(Qualitative Evaluation)
- Deep learning architecture for pedestrian 3-D localization and tracking using multiple cameras
- multi-camera multi-target tracking (MCMTT)
- 2-D PGP(pedestrian ground position) : "image distortion misleads the estimation of the pedestrian 2-d ground position." 바운딩박스만으로 2D PGP를 추정하기 어려움, 그래서 2D PGP를 제대로 추정하는 네트워크를 제안
- 아무튼 멀티캠이고 관련 없었음
- Monocular Visual Object 3D Localization in Road Scenes
- KITTI dataset 사용
- pedestrian은 아님
- 3d localization에 Mask R-CNN object detector, monocular DepthNet CNN, depth histogram, semantic segmentation 사용
- depth estimation 에서 point cloud 필요
- ground plane estimation에서 sparse object points and dense ground points 사용
- 3D tracklet smoothing method << 활용 가능??
- Huber regression를 활용 어쩌구 했다는데 잘 모르겠음
- 아무튼 관련 없었음
횡단의도 관련
보행자의 횡단 의도를 확률?로 분석
자체제작 DB
바운딩박스검출 및 트래킹 후 HOG사용하여 모션 검출 → PCA사용
INRIA Person Dataset
(a) crossed the road;
(b) walked straight without crossing;
(c) tried to cross but aborted it and stopped before the boundary; and
(d) tried to cross but aborted it and walked straight down the sidewalk againThe ground truth of the crossing intention, i. e., whether the pedestrian intended to cross, was defined by the experimenter while observing the captured video and labeled manually
행동은 X
ROC 커브로 나타냄
- Will the Pedestrian Cross? A Study on Pedestrian Path Prediction
- 경로예측 + 횡단의도 + 행동분류
- stereo vision data 사용, dense optical flow features
- Gaussian process dynamical models (GPDMs)
- 가로(optical flow) 세로(stereo 거리) 움직임 따로 예측 후 결합
- probabilistic hierarchical trajectory matching (PHTM)
- Longest Common Subsequence 뭐 이런걸 사용
- Kalman filter
- 2가지 있음
-
- 자체제작 스테레오 DB
- 경로 수집 부분 다시 보기
- Is the Pedestrian going to Cross? Answering by 2D Pose Estimation
- 3월달에 봤던 거
- JAAD dataset
- crossing/not-crossing classifier
- it does not require information such as stereo, optical flow, or ego-motion compensation.
- 스켈레톤 사용, RF 사용
- On-Board Detection of Pedestrian Intentions
- 스켈레톤 정보 사용
- does not require ego-motion compensation
- (위와 같은 저자, 위보다 1년 전에 나온 거..)
- procedure for detecting pedestrian intentions that is based on the following binary classifiers
- Continue walking perpendicularly to the camera (∼crossing) vs. stopping
- Continue walking parallel to the camera vs. bending
- Continue stopped vs. starting to walk perpendicular to the camera
- Pedestrian Path Prediction with Recursive Bayesian Filters: A Comparative Study에 나오는 데이터셋 사용 (아마 Daimler인듯)
- RF, SVM 사용
- intention probability vs. TTE / accuracy vs. TTE
- 약간 뭘하겠다는건지 모르겠음
- RNN-based Pedestrian Crossing Prediction using Activity and Pose-related Features
- JAAD dataset 사용
- 도식이 예쁘다 현대미술 같다
- 행동 특징 분석에 CNN, 특징에서 정보 추출에 RNN(LSTM, GRU) 사용
- 바운딩박스 부분 crop해서 input으로 사용한듯함
- 행동 분류를 한 건 아니고, 횡단의도 건넌다/안건넌다 이진 분류
- precision/recall/accuracy로 분석
행동분류/인식 관련
Driver and pedestrian awareness-based collision risk analysis - IEEE Conference Publication
운전자가 보행자를 보았는지 여부, 보행자가 운전자를 보았는지 여부를 사용
주행 차량과 보행자의 충돌 위험 분석 논문 (확률로)
자체제작 DB
테스트한 시퀀스 n개중에 몇개맞췄나 이런식으로 나타냄
driver state를 고려
Dynamic Bayesian Network를 사용
SC “Situation Critical” (collision course latent state)
Sees-Pedestrian (SP)
Has-Seen-Pedestrian (HSP)
Driver-Head-Orientation(DHO) : serves as evidence for the Sees-Pedestrian (SP) variable
Sees-Vehicle (SV)
Focus-of-Attention (FOA)
A collision warning is emitted if the collision probability is above a threshold which we empirically set to 0.8 for both SLDS and LDS.
Temporal and Fine-Grained Pedestrian Action Recognition on Driving Recorder Database
걷기, 회전, 자전거 타기, 횡단, 서기
자체제작 DB? Driving Recorder Database?
Pedestrian Action Recognition Using Motion Sensor and k-NN Classifier
walking, stepping(제자리걸음?), running
모션센서 사용.. 관련성 X
Pedestrian activity classification using patterns of motion and histogram of oriented gradient
a walk, b turn opposite to camera, c turn towards camera, d halfway return, e run, f cross walk, g fall down, h fall down and get up
standing, starting, stopping, walking
- Pedestrian Path Prediction with Recursive Bayesian Filters: A Comparative Study
- Estimation of walking direction for Pedestrian from Moving Vehicle
- 단안카메라. lateral trajectory. centroid.
- 보행자 8 방향 중 하나를 고름 ( 어디에 쓴다는건지 파악 못했음)
- 로컬라이즈는 카메라 외부 파라미터와 거리 아는 지표 사용, 평면 바닥 가정
- 미터로 측정
- 경로예측은 바운딩박스 바닥에 투사한 중점을 Kalman filter에 적용
미터로 측정- crossing, stopping, bending-in and starting
- Daimler mono pedestrian detection 데이터셋
- Image Based Estimation of Pedestrian Orientation for Improving Path Prediction
- 보행자 방향
- Estimation of Pedestrian Walking Direction fo 추정r Driver Assistance System
- 위 Estimation of walking direction for Pedestrian from Moving Vehicle에서 사용한거
- 보행자 방향
Ego-Motion Compensation
?
- (MonoDepth) Unsupervised Monocular Depth Estimation with Left-Right Consistency
- 단안카메라 비전에서 depth map 생성하는 네트워크
- GT 없이 훈련? epipolar geometry constraints 사용하여?\
- ?










댓글
댓글 쓰기