본문 바로가기
IT Geek/Certification & Education

ADP (데이터분석전문가) 11회 실기 후기

by Melting Point 2018. 11. 16.
반응형

ADP (데이터분석전문가) 11회 실기 후기


지난 10월 27일에 시험을 보고 왔던 ADP 11회 실기 후기...

아직 결과가 나오지는 않았다 (11/27에 발표)


나는 ADP 실기를 작년에 이미 떨어진 경험이 있다.

첫번째, 아무 생각 없이 보러 갔을때, 공부의 방향을 완전 잘못잡아 한번 충격을 먹고 이번에는 모자란 시간을 쪼개어 공부를 좀 하고 갔다.

결과는 또 막막할 따름이다.


시험은 강남 선릉역 인근에 있는 웹타임 교육센터에서 응시를 하였고, (한국데이터진흥원 본사와 웹타임센터 중 랜덤배정임)

10회차 부터 시험에 사용할 언어도 선택할 수 있게 바뀌었는데,(Python, R 중 응시자가 택1할 수 있음) 나는 기존과 동일하게 'R'을 선택하였다.

시험장은 꼭 토익스피킹 시험치는 곳과 같이 다닥다닥 붙은 컴퓨터들 사이에 자리마다 칸막이가 쳐져있는 형태였고,

크게 뭐 불편하거나 다른 Issue는 없었던 것 같다.

아 그리고 오픈북 진행이고 사용한 자료들/책들은 모두 다시 반출이 가능하다.  (작년 시험볼때는 반출 불가였음..)



실기 시험의 후기와 소회를 아래 정리 해본다.


문제 유형

   문제유형은 회차를 거듭하면서 기본적인 골자는 비슷한 형태에서 살짝살짝 detail만 바뀌어 왔는데,  일반적으로 아래와 같다.

   1. 통계학 기반 분석

   2. Text Mining을 적용한 분석

   3. Data mining(ML) 학습을 통한 결과 도출 

   상기 3개의 주제를 잘 분석하려면 당연히, 

   분석 언어를 통한,  'Data 전처리', 'Model 생성', '분석 Model별 검증', '결과 해석' 역량이 있어야 한다.

   거기다 2번문제를 잘 풀기 위해, Text 전처리, KoNLP 패키지를 다양한 방식으로 사용해본 경험이 있어야한다. 

   (wordcloud 만드는 수준으로는 해당 문제를 풀 수가 없다...)


   금번 회차에도 위와 같이 크게 세가지 주제의 문제가 나왔고 각 큰 단위 문제 안에 세부적으로 3~4문제씩 세부문제가 있는 형태로 출제가 되었다.

   금번에는


   1. 통계학 기반 분석 (40점)

      - 각 설명변수들과 출산률(종속변수)의 관계를 회귀분석으로 정의 및 결과를 해석하는 문제  

   2. Text mining (20점)

      - 영화평 Data를 전처리 후, '형용사'를 추출 하여 감성 분석 하는 문제

   3. Data Mining/ML (40점)

      - (R을 공부하는 많은 사람들이 익숙한) 타이타닉 생존자 Data를 Data mining 학습하여, 생존여부 예측을 하는 문제 

      - 금번회차의 경우 분석 과정은 상관없고,  오직 제공된 Test Data의 정답만을 제출해서, 예측한 정답의 적중률이 얼마나 높은지로 채점을 함


   이렇게 출제가 되었다.



응시 소감

사실 1,3번의 난이도는 기존의 실기 출제 문제보다는 쉬운편이 아니었나 싶다.... 왜냐하면 전처리가 그렇게 까다로운 Data도 아니었고, 

특히 3번 문제같은 경우, ADP를 공부하는 많은 수험생이 참고하는 'R을 이용한 Data처리 & 분석실무 (길벗)' 책에 나오는 대표적인 예시 Data이기 때문이다. (사실 문제보고 좀 당황했음... 설마 이게 나올까 했는데..)

물론 Data 일부를 조금 변형해놔서 추가적인 전처리가 필요했지만, 적어도 정확도가 어떻든 Model을 만들고, 예측 결과를 뽑는데까지는 크게 어려운 단계가 없었던 것 같다.


다만 이번에 멘붕이 왔던 문제는 2번 Text Mining이였다.

나는 배점이 높은 1,3번을 먼저 풀고 딱 1시간이 남은 상황에서 2번 Text Mining문제로 진입했는데,

결국 세부 문제 한문제도 제대로 풀지 못했다.

첫번째로 Text Data(Text file이였음)를 불러오는 부분에서 구분자를 가지고 Parsing을 하는데 문제가 발생하여 많은 시간을 잡아먹었고,

(파일 용량 자체가 커서 한번 불러오는데 분단위 시간이 걸림)

문제가 '형용사'를 추출하는 건데 여기서 결국 막힌 것이다.

사실 R을 활용한 Text Mining 대부분의 예시는 '명사'를 추출하는 형태로 되어 있고, 명사 추출은 extractNoun 함수로 쉽게 수행을 할 수 있다.

그런데 형용사 같은 경우는.... SimplePos22 함수를 써야하는데 해당 부분을 제대로 숙지하지 못하고 가서, 결국 for문을 만들다 시간이 부족해 실패를 해버린 것이다.


결국 2번문제를 아예 통으로 못풀다시피 하고 시험을 마쳤다.

1,3번 문제도 완벽히 맞았다는 보장이 없기때문에... 또 망한건가...라는 생각이 들고 있다.

일단 결과가 나오면 또 포스팅을 하도록 하겠다. 

떨어지면 또... 준비를 해서 재응시를 해야겠지..







반응형