IT 특강/교내 IT 특강

[2021 인공지능 자율주행 특강] PILCO

sleesm 2021. 7. 22. 11:45

 

이전 내용

 

2021.07.20 - [IT 특강/교내 IT 특강] - [2021 인공지능 자율주행 특강] MATLAB 설치 및 간단한 실습

 

[2021 인공지능 자율주행 특강] MATLAB 설치 및 간단한 실습

오늘은 인공지능 자율주행 특강 2번째 시간이다!!! 드디어 실습 시간 시작을 알리는 MatLab  설치!!!! 30일 평가판으로 설치했고, 사이트는 -> https://kr.mathworks.com/products/matlab.html MATLAB(매트랩) -..

sleecode.tistory.com

 

 

 

 


 

 

 

어려운 이론 시간이 지나고...

이제 시작할 실습시간!!!!!

 

 

 

가장 먼저 한 것은 PILCO code 다운 받기!!!

 

Swing-Up 예제 코드를 받아서 실습하기로 했돠!!!!

강화학습의 예제로 엄청 유명하고 좋은 예제라고 한다..

 

 

예제코드 받을 사이트 : http://mlg.eng.cam.ac.uk/pilco/

 

PILCO Web site

 

mlg.eng.cam.ac.uk

 

 

Cart-Pole Swing-Up with a Real System

 

바로 보이는 영상이다

강화학습을 통해서 7번 만에 세울 수 있었다...

완전 신기...

 

 

 

그 뒤에 다른 영상들도 조금씩 살펴봤는데, 너무 신기하다

 

나도 어렸을 때는 저런 로봇을 만들고 싶었는데...

 

 

 

 

 

 

 


 

다운 받은 코드 파일에서

 

scenarios > pendulum > pendulum_learn.m 을 클릭하면 밑에 있는 코드가 나온다!!!

 

pendulum_learn.m

 

 

코드를 F5를 눌러 실행 시키면 이런 화면이 뜬다!!!!

마치 아까 봤던 영상이랑 똑같다!!!!

 

 

실행 화면

 

 

 

오른쪽 화면 그래프를 살펴보자!!!

 

굉장히 중요한 그래프다!!!

 

 

 

빨간색은 실제 reward 이고, 파란색은 기대한 reward이다!

 

즉, 파란색은 신뢰성을 기반으로 한 결과!!!

 

파란 색의 막대바는 확률이기 때문에 저 모양으로 나타나는 것이다.

가운데에 있는 파란색 선은 mean 값인 것이고, 

막대바는 기대값으로 나타나는 표준편차 어쩌고 인 것이다!!!!

막대 바의 길이가 계속 줄어든 다는 것은 학습에 자신이 있다는 말!!

 

Internal Simulations 가 끝난 직후에 그래프를 보면, 학습이 어느 정도 됐는 지를 확인할 수 있다!!!

 

 

강화학습은 언젠가는 수렴을 하게 되겠지만, 나쁜 방향으로 갈 가능성이 많다!!!

 

 

그래서 이 그래프를 유심히 살펴보면서 학습을 시켜야 한다!!!!!!!!!

 

 

 

명령 창

 

 

 

 

 

 

멈추고 싶으면 ctrl + c 를 누르면 된다!!

 

 

 

 

 

 

 

 

 


생각보다 학습 시간이 굉장히 느려서 놀랬다...

 

많은 양의 데이터를 학습 시켜서 그런 것일가...?

 

강화학습이 가장 빠르다고 하는데 꽤 많이 기다려야 해서 놀랬다....