세미나 필기 | 2020 10월 14일 Two-Stage Approach for Grounding Text Queries with Moments in Large-Scale Video Corpus
지난주 세미나 진짜 듣고 싶었는데 너무 바빴다 ㅂㄷㅂㄷ
온라인 세미나의 몇 안되는 장점이 녹화를 해놓고 다시 들을 수 있다는 건데 녹화가 자꾸 끊겨서 그마저도 포기했다...
이번주는 구글에서 일하시는 이준석 박사님께서 강연을 해주셨다.
영어 진짜 넘 잘하시고 간지 폭발임...
주제는 Two-Stage Approach for Grounding Text Queries with Moments in Large-Scale Video Corpus.
corpus가 말뭉치라는 뜻인 걸 난 오늘 처음 알았다.
포스터 참고하시고, 이제 필기 시작~
"Moment"
영상에서 semantically meaningful한 짧은 클립/부분을 뜻한다.
인간에 의해 자연어로 묘사될 수 있음.
Moment localization in a single video
비디오에서, 자연어 쿼리로 묘사된 부분의 time window를 찾는 것이 목표이다.
"Can you show me how to line the pan with the parchment paper?" 하면 그 부분을 찾아주는거.
Moment localization in >Video Corpus<
유튜브에 'how to butterfly a chicken'이라고 쳤을때 여러가지 영상에서 딱 그부분에 해당하는 time window를 찾아서 보여주고 싶은 것.. 'untrimmed, unsegmented' 영상에서??
왜 어려운가?
1. (발표자님 인터넷이 끊겨서 첫번째껀 놓침)
2. 영상이 엄청 많음. (scaling to arbitrarily large corpus)
3. 아직 evaluation 기준이 딱히 없음
Two-stage Approach
--> 왜 어려운가? 의 2번째 항목
Video Retrieval(VR)
아무튼 빨간 글자는 negative case를 말하는 것
이해는 못했지만 이게 스탠다드라고 함...
Moment Localization in single video(MLSV)
- BEO (Begin End Other) Frame Classification 스킴.
B, E, O로 어노테이트하는 방식. B와 E 사이도 O로 어노테이트됨.
이후 클래시파이어를 사용하여 휴리스틱하게 B와 E를 결정함.
하지만 이건 좀 간단하고 noisy하기 때문에 Higher-order BEO classification을 사용
2개씩 붙여서, OO, OB, BE, EO, OO 이런 식으로 한다고 함
Model Architectures: Two-tower Transformer
Model Architectures: cross-modal Transformer
생소한 분야라서 이해하기가 쉽지 않다
데이터셋
ActivityNet Captions 라는 데이터셋을 사용.
영상의 타임 윈도우마다 자연어로 어노테이트된 데이터셋이다.
Traditional Evaluation Metrics
- Recall@k (라는 생소한 개념이 등장했다.)
Fraction of queries where ground-truth video is in top-k retrieved results 라는데 사실 내가 쿼리가 뭔지 모른다... 그래서 또 이해를 못함
k개의 모먼트가 있고, 그중에 하나라도 맞는게 있다면 nonzero가 된다..?
아무튼 맞는 비디오를 찾아내는것에 해당하는 평가 메트릭이다
- IoU (처음으로 아는게 나왔다)
GT와 pred를 가지고 Temporal하게 적용한다고 한다.
맞는 타임 윈도우를 찾아내는것에 해당하는 평가 메트릭이다.
- Recall@k over IoU=p
우리는 두가지 task를 다 해내야하기 때문에 둘다 사용한다.
Key Results: Effectiveness
동영상의 시각적 feature를 잡아낼 때, ResNet(2D feature를 찾음)이 아니라 I3D(..? temporal feature??)를 사용하여 더 강력하게 feature extraction을 할 수가 있다.
Key Results: Modularity
Key result: higher-order BEO
뭐 있는데 금방 넘어간걸 보니 명심해야되는 정도는 아닌것같다.
Limitations of Traditional Metrics
어노테이션이 one-to-one 매칭이... 되는가!? 안되는가!?
'dog running up a tree' 를 찾으려고 하면 개가 나무를 올라가는 영상은 1, 나머지는 다 0인가?! (recall@k의 방식)
개가 벽을 타는 영상은?! 나무만 나오는 영상은? (제대로 이해했는지 모르겠다)
New metric: video Segment semantic similarity(VS³)
??????????????????????????????????????????????????????
이게 핵심이었던거같은데 오늘도 핵심만 쏙쏙 뽑아서 이해를 못했다...
아무튼 좀 다르면 무조건 0으로 판단하는 recall@k와 달리 영상 내용에 따라 fractional한 값으로 판단한다.
그래서 결과를 더 정확하게 평가할 수 있다.
Key result: Evaluaton using VS³
이 평가 시스템으로 평가했더니 현실을 잘 반영하여 더 높은 점수가 나왔다.
결론
original task를 video retrieval과 moment localization in single video로 decouple하여 해결하였으며, 이렇게 개발한 방식이 효과적이고 유연하고 scalable하다.
second-order frame transition을 사용했음
더 적합한 평가방식인 VS³을 만들었음.
구글 홍보
이 부분은 필기하지 않겠음...
내가 죽었다 깨어나도 구글에 들어갈 수 있을 리가 없기 때문임...
근데 엄청 좋아보임...
배고파 죽겠다... 당 떨어져서 머리도 아프다 지금...
오늘 저녁은 김천에서 치즈라볶이랑 군만두 먹을거다...
간지 무슨일... 구글색 자전거 간지 무슨일... 컴퓨터 고장나면 알아서 고쳐주는 간지 무슨일... 이름도 TECH STOP인거 간지 무슨일...
간지 무슨일... 구글색 자전거 간지 무슨일... 컴퓨터 고장나면 알아서 고쳐주는 간지 무슨일... 이름도 TECH STOP인거 간지 무슨일...
실리콘밸리에서 취업하려면 데구? 데구 잘해야된다구???? 그래서 저는 죽었다 깨어나도 못들어갑니다 저 데구 C인가 받았음 객프는 D였다 "나는 2트랙이 없다"라는 마음가짐으로 살아왔지만 지금 머신러닝을 공부하는 나를 보라 인생은 정말 한치앞도 내다볼수가 없다 나도 당장 김밥천국에 가서 치즈라볶이를 먹을지 부대찌개를 먹을지 내다볼수가 없는것이다
아무튼 미국에서 학교 나오면 구글에 입사하기 쉽다고 한다 ('OPT' 참고)
인턴부터 시작해서 정규직으로 들어갈수도 있다고... 그렇다
QNA
배고파서 필기안함
오늘도 이해를 못했지만... 아무튼 이러한 종류의 기술도 있다는 것을 알게 되었으니까 좋다.
매주 그런 기분으로 듣는 것 같다...
댓글
댓글 쓰기