세미나 필기 | 2020년 11월 11일 Learning Physics Using RL: Application of Reinforcement Learning for Understanding/Explaining Science

 

오늘 진짜 너무 춥고 배고프고 졸리지만(거지의 3원소 달성) 그래도 강화학습은 들어야 한다는 일념으로 눈뜨고있는다... (막상 고급머신러닝 녹강은 밀렸음)

강화학습에 대해서도 늘 알고싶었고 요새 물리법칙을 러닝시키는게 핫해서 많이 기대가 된다.

오늘도 짱 대단한 발표자님 머신러닝 전문가 김수경 포닥님이 나와주셨다 (이력부분 영어 못알아들음)

영어 진짜 잘하심...



필기 시작


1. basic of reinforcement learning

supervised(함수를 러닝함), unsupervised(숨겨진 구조를 러닝함)와 다르게

agent가 environment와 상호작용했을때 받는 reward와 panelty를 통해 reward를 최대화하는 방향으로 행동하도록 러닝

Design RL: Objective, State, Action, Reward

예를 들면 로봇이 넘어지지 않고 걷게하는 거(Objective).

State: Angle and position of each joint

Action: Torques applied on joints

Reward: 1 at each time step upright + forward movement

또 다른 예시로는 아타리 게임이 있겠다

State: Raw pixel input of the game

Action: game controls (UDRL)

Reward: score increase/decrease at each step of the game

어떻게 implement? DQN(Deep Q Network 이건 나도 파이토치 공부할때 들어봤다)

state를 observe하고 다음 action을 predict하는 구조.


Optimizing single aromatic hydrocarbon molecule

Motivation

분자의 에너지... 그거... 를 모델링하는데 gradient descent를 ... 사용하려고 하였음

1도 못알아들었기 때문에 ppt 가져옴...


분자의 초기상태에 따라 글로벌 미니마가 아닌 로컬 미니마로 갈 수가 있다는 게 gradient descent의 단점이다.

그래서 강화학습의 exploration&exploitation를 사용

완전히 랜덤하게 이동하는것.

이때의 강화학습 설계는

O: Find 3D crystal structure with the maximum score

S: 3D position(point cloud) of all atoms in unit-cell

A: Move atom

R: Score increase/decrease at each time step

가 된다.


6가지 방향족 분자 어쩌구를 가지고 실험하였다.

6번째... unseen 분자..?? ??? 이해 X

DD(actor-critic based... 네?)

???? ??? ????


Reward

3가지의 reward를 설계하였는데,  E_ans 주변으로 continuous하거나, discrete하거나, 필기하다가 놓쳤거나...


Stopping Criteria

1. Bonds are too far from each other

2. Bonds are too close to each other

3. Find the answer: When ener....... 아무튼 이 3 조건 중 하나이면 term 함


Results

Discrete reward 상ㅇ하였을때 가장 잘됨

30스텝 이내에 컨버지하느데 기존 방식으로는 200스텝정도 걸리므로 엄청난 발전


Understanding Control Dynamics using RL

Motivation

DQN 너무 잘 작동하지만 왜 되는지 모른다 (역시 컴공의 난제는 "왜 안되지"와 "왜 되지")

즉 블랙박스 상태인것. 이해/신용/이용이 힘듦

깆ㄴ의 interpretable RL(decision tree 등)

model distillation

regression based approach

또 놓쳤다 아 진짜 필기하기 힘드네


object mismatch problem

트레이닝에서 사용하는 objective와 evaluation에서 사용하는 objective가 다르다는 문제

예를들면 회귀 러닝할때는 트레이닝셋에 대한 MSE손실을 최소화하는걸 목적으로 하는데

eval할때는 episode를 기반으로 평가함 MSE가 아니라 cumulative future reward 사용함


symbolic policy controller, policy evaluator

앞에꺼는 RNN이랑 비슷한건데... ?? ??? ? ?/ mathematic token을 sample out 한다고요..??

그걸로 function of state을... 구축한다고요...??

그 결과가 action이라고요...? 진짜 1도 이해 못함

뒤에꺼는 이 policy(이건 어디서 나온거야????) 를 가지고... ??/ ?? 네?/?

이 환경에 가장... reward signal을 계산... 여러번 반복... RNN이 이 환경에 최적인 방정식을 구함...

그런데 이 방정식은 시퀀스... Expression tree 사용... 토큰을 시퀀스로 샘플아웃... 토큰은 또 어디서 나온거...??


액션이 여러개이면 어떡하나? 즉 방정식이 여러개가 되면 어떡하나?

--> Anchoring method 사용

대략 정신이 혼미해진다

anchor는 pre-trained network... 첫번째 액션을 먼저 배운다... 죄송해요 정말 하나도 이해를 못했어요...

근데 아무튼 n번에 걸쳐서 n개의 액션을 배우게 된다


헐 대박 Deep Symbolic Policy도 약자가 DSP고 Digital Signal Processing도 약자가 DSP다


local optimal constant value를 찾기가 어렵기땜ㄴ에 DSP 이후에 실수 상수값은 파인튜닝한다


결과

기존 방식보다 잘된 환경이 많다


예시

cartpole: 막대기 안넘어지게하는거

미쳤다 이니셜스테이트에 상관없이 항상 컨버지한대


mountaincar: 자동차가 최소 에너지로 언덕위의 깃발에 다다르게하는거

log가 클리핑 기능을 해서 언제나 깃발 쪽으로 가게 된다 ? 오케 이해했어


pendulum: 펜듈럼이 안넘어지고 서게 만드는거


액션을 히트맵으로 그렸어... 때애애애애암.... 개멋있네


펜듈럼 한방에 서는거 봐... 떼애애애야아아아암... 하나도 보링하지 않아요... 개멋있어요...

inverted double pendulum 수렴하는 거 봐... 때애애애애얌....

액션 그냥 a1 = 12.28s8인거봐...

ㅁㅊ 인버티드 펜듈럼 스윙업 간지 무엇... 호퍼무엇...

강화학습개멋이성...


QnA:

저도 질문을 하고싶은데요... 이해를 하지 못해서... 질문을 못하겠습니다 포닥님...

와 맥으로 한시간만에 러닝하셨다고;;;;;;

강화학습은 파이토치보다 텐서플로 많이 쓴다고 하심

Lawrence Livermore National Laboratory 너무 시골에 붙어있어서 연구원들이 우울해하신다고;;ㅋㅋㅋ 유니스트랑 비슷한듯

Q. In molecule structure estimation the  reward depends on optimal energy?

A. 3차원 분자구조에서 DFT가 에너지의 스냅샷을 계산하면 그 스냅샷에 기반하여 ?? 네?? 
에너지가 ... 그... 감소할때가 플러스 ... 가 된다고 함 ??? ?



오늘의 소감:

오늘도 슬라이드 3까지밖에 이해하지 못했다

댓글