꽤 시간이 지난 이야기인데,
2022년 10월 AWS의 가장 기초 자격증이라 할 수 있는 CCP (Certified Cloud Practitioner)를 응시하였습니다.
 
당시  오전 시간으로 PSI 센터 (TGL 경복 빌딩, 선정릉역 1번출구 근처)에서 오프라인으로 시험을 보았는데..
(온라인으로 시험을 볼 경우, 영어 시험 감독관이 들어와서, 소통도해야되고, 카메라 켜놓고.. 움직여도 안되고 등등
 더 귀찮아 질 것 같아서.)
 
9시 시험인데, 8시반에 도착을 했고,  도착하자마자 입장시켜서, 바로 시험 응시를 하도록 안내를 받았습니다.
(일괄 시작이 아님)
신분증 과 보조신분증(신용카드 등)  두개를 확인하구요.
4층에 있는 PSI센터(다른이름으로 표기되어있었음) 입장 때 부터 휴대폰을 끄고 몸수색(?) 을 한 후, 사물함에 들고온 물건들을 다 넣고, 종이랑 연필받아서 시험보는 방으로 입장을 하고 바로 시작했습니다.
 
90분 제한시간 내 한글 영어 바꿔가며 시험을 보았구요.
 
시험문제는 생각보다 생소한 문제가 많았습니다.  
공유하고자 필기한 종이를 시험끝나고 회수 당해서, 기억을 더듬어 복기를 해보자면..;;;
 
아래와 같은 문제들이 나왔습니다.
1. 공동책임모델 (AWS, 고객) 에 대한 문제가 4개 정도 나옴
2. RDS 지원 Database 종류에 대한 문제 나옴
3. Aurora DB 호환 가능 DB 문제 나옴 (postgre, mysql)
4. AWS well- architected framework 에 대한 문제가 3개 정도 나옴
5. AWS Artifact가 답인 문제나옴  (보안규정 보고서 어디서 찾을 수 있나)
6. AWS Redshift가 답인 문제 나옴 (데이터웨어하우스 어쩌고 저쩌고 DB)
7. elasticache 가 답인 문제 나옴 (데이터베이스 성능 향상을 위한 인메모리 캐시)
8. AWS Organization 의 장점 묻는 문제 나옴 (큰 규모의 사용 계약가능해서 비용 이점,  계정 중앙관리 가능)
9. AWS Cost explorer 묻는 문제
10. AWS Support ,  종류별 구분 문제 (Business support plan 고객이 장애발생하면 대처할수 있는 수단이 뭐가 있나?)
11. AWS Cloudfront 가 답인 문제 나옴
12. AWS SQS 가 답인 문제 나옴 (어플리케이션간 통신할 때 서비스 )
13. EFS가 답인 문제 나옴 (공유하기  위한 스토리지..)
14. AWS Fargate가 답인 문제나옴 (고객이 도커 컨테이너 사용하고있는데 AWS에서 사용가능한 옵션..)
15. EC2 중단해도 비용나오는 이유 두가지 (Elastic IP, EBS)
 
참고로 시험 종료 후,  시험에 대한 설문조사 하고 나면 합격여부가 바로 표출이 되는데요.
문제가 정말 애매모호 아리까리해서 좀 걱정이 되었지만, 
무난히 합격을 한 듯 합니다.
 
공부는 AWS Cloud에 대한 지식이 기본적으로 있어서 그런지..
AWS에서 공식 지원 해주는 강의 (한글판으로도 지원함... 약 6시간 분량?)

https://explore.skillbuilder.aws/  의 AWS Cloud Practitioner Essentials (Korean)

강의 정도 보고 합격을 한듯합니다.

아래와 같은 문제은행 사이트도 받아두었지만.. 몇 문제 보려하다가... 질려서 포기.
근데 대략 어떤 형태로 문제가 나오는지 감을 잡기에는 좋은 것 같습니다.
 
문제 은행사이트 

1.  Shiheum       link1  

 2.  Examtopics   link2 

 

 

 

그리고 어떤 분이 CCP 요약을 매우 잘해놓은 글을 블로그에 올려서,  
많은 도움을 받았습니다.   링크 아래와 같이 공유드리니, 정리하실분 한번 보시구요.
 
모두들 잘 준비해서 합격하시구요~ 

화이팅!

반응형

이전 포스팅에 빅데이터 분석기사 응시 후기를 올린 적이 있다.
https://0dood0.tistory.com/m/160

뒤 늦게 올리는 빅데이터 분석기사 필기, 실기 후기(2회)

매우 뒤늦은 빅데이터 분석기사 필기, 실기 통합 패키지 후기 입니다. 아마 이런 시험 준비하시고, 심지어 블로그까지 찾아 들어와 보신 분들은, 이미 카페나 블로그 등에서 많은 정보를 접했겠

0dood0.tistory.com

자세한 공부과정은 해당 포스팅을 참고하면 될 것 같고....


결론을 먼저 이야기하면 합격을 했다.

발캡쳐..

실기 점수를 보면 굉장히 평가가 후 했다는 것을 알 수 있다. 특히 작업 제2유형이 만점이 나온 것이 인상적이다. 너무 고점이 나와 오히려 찝찝할 정도인데, 변별력을 만들기 위해 다음 차수부터는 보완이 되어야 더 공신력있는 자격증이 되지않을까? 하는 생각이 든다.

단답형 유형과
제1유형은 명시적으로 정해진 답을 도출하는 것이라 충분히 고득점 및 만점이 나올수가 있다 생각하였다.

제2유형은 점수나온 것을 보고 채점기준을 추측해보면, roc auc score가 일정 점수 이상을 넘으면 그냥 만점을 주는 형태였던 것 같다.
(기준이 60이었지 않을까 예상)

지난 응시 후기에 썼던 것 처럼 데이터 전처리도 다 안했고 랜덤포레스트만 돌려서 roc 스코어가 60정도 인것만 확인을 했었는데... 만점이 나왔으니..


사실 빅분기 이번 회차는  ADP와는 비교할 수 없을 정도로 낮은 난이도가 아니었나 싶다. 클로즈드북임을 감안하더라도..

그렇다면 빅분기 자격증이 가지는 의미와 개인적으로 응시생이 얻을 수 있는 지식은 무엇일까?
머신러닝, 통계를 통한 '데이터 분석' 의 기초개념을 숙지하게 되고 머신러닝의 전과정이 아~ 대략 이런 것이구나~ 이런 절차로 분석결과가 나오네~ 정도를 알  수있는 정도 수준이 아닐까 싶다.
물론 이정도도 가치있는 공부라 할 수 있지만  대부분의 기사자격증이 그렇듯, 실무와는 괴리가 있고  실무 수준의 지식과 경험을 쌓기위한 정말 첫걸음을 떼는 수준이라 보면 될 듯하다.

개인적으로 분석쪽 커리어패스는 꿈꾸는 사람중 '분석이 뭔지 잘 모르는' 사람에게는 개인 지식 수준 향상을 위해 도움이 될수도 있는 자격증이라 생각한다.

여튼 다음 응시생들에게도 응원을 보내고.. 모두가 원하는 결과를 얻으시길..

반응형

매우 뒤늦은 빅데이터 분석기사 필기, 실기 통합 패키지 후기 입니다.

 

아마 이런 시험 준비하시고, 심지어 블로그까지 찾아 들어와 보신 분들은,

이미 카페나 블로그 등에서 많은 정보를 접했겠지요.

 

저도 그와 크게 차별점을 가진 , 특별한 내용은 없지만,

 

- ADSP 를 취득했고,

- ADP 실기를 3번 쳐서 떨어진 사람,

- IT Background를 보유한 사람 (전산실에서 기획업무 수행, 분석 업무를 하지는 않음, 코딩은 손놓은지 좀 되서 감각만 있음)

 

으로서 한번 소견을 정리해봄.

(참고로 잘 정리된 소견이라기 보다는 주절주절 소회)

 

 

일단 빅데이터 분석기사를 응시하게 된 것은,

 

ADP의 거듭된 실기 낙방때문입니다. ADP 실기를 2년에 걸쳐 3번이 떨어졌습니다. 3번!!!

나름 이유를 복기해보면,

희안하게도,  Text Mining을 준비안한 회차에는 Text mining이 나와 통으로 문제를 날리고,

무슨 설문지 요인분석? 그런거 듣도보도 못한 회차에는 그게 나와 통으로 날리고...

시스템 timestamp 변환이란거 난생 처음 보던 회차에는 그게 나와 통으로 날리고..

 

가장 높은 점수를 취득한 회차에는 5점차로 탈락을 하면서, 정말 현타를 맞고, 나의 능력부족이든, 인연이 없든 뭔가 이 시험과 나는 맞지 않구나.. 라고 생각하며 ADP를 접게 되었습니다.

 

참고로 3번의 실기를 응시하며 가장 길게 준비한 기간은 약 1달정도입니다. (다른 분들 공부하시는 거 보면 노력 부족일수도 있겠지요)

개인적으로 ADP 준비하시는 분께 드리고 싶은 의견은, 

 

- 본인이 정말 분석의 다방면을 알아야 한다는 것

   (꽤 많은 책을 봐야할 수도 있음, 단순히 엑셀형식 데이터를 ML 패키지 돌려서 평가해서 정확도 높이는 것만 아는 수준은 안됨, 그리고 간혹 실무적 경험이 있어야만 풀 수 있는 문제가 나오는 회차도 있음)

- 아니면 본인이 공부한 내용만 기가 막히게 나오는 대운을 가지고 있어야 함

 

둘 중 하나여야 합격할 수 있는 시험인 것 같습니다.

 

어쨋든, 그러나 빅데이터 분석기사라는 시험이 신설되는 것을 알게 되었습니다.

시험 요강을 읽어보고, 자격증 정보를 찾다가,  난이도가 대략

 

ADSP < 빅데이터 분석기사 < ADP

 

라는 정보를 획득 하고, 

(3개의 시험을 모두 응시한 지금 생각해봐도 저 난이도의 기준은 맞는 것 같다..)

 

끝내 못버린 미련과, 마음속의 한으로 ㅋㅋ 빅데이터 분석기사 공부를 시작했습니다.

 

1회차, 필기를 생각보다 열심히 준비했습니다.

 

교재는 수제비 교재를 샀습니다.

교재 링크 : https://book.naver.com/bookdb/book_detail.nhn?bid=17766665

 

사실 ADSP, ADP의 필기와 거의 내용이 중복된다고 봐야하기 떄문에

(데이터 보안관련 및 통계 쪽 내용이 조금더 추가되어 나오는? 느낌)

오래전 응시했던 ADP의 내용이 드문드문 생각나며 그다지 공부에 어려움은 없었습니다.

 

그래도, ADP의 3번의 실패를 겪으며, 더이상 실패할 수 없다!!는 심리적 절벽 앞에 서있어서 그랬는지,

기존 시험들 보다는 조금 더 열심히 준비를 했습니다.

그리고 1회차 시험이어서 유형파악이 안되었다는 Risk 또한 부담으로 다가왔었죠..

 

당시 와이프가 임신하고 몸이 안좋아 병원에 입원한 상태인데다, 

코로나 사태로 배우자만 출입이 가능하여, 낮에는 회사에 출근하고 밤에는 병원으로 출근하며,

아내의 병실 바닥에서 나름 투혼을 불태우며 공부를 했습니다.

 

약 3주간 수제비 교재를 다 보고, 시험을 준비하던 즈음,

코로나 사태가 악화되며 시험이 전면 취소되는 초유의 사태가 발생을 합니다 ㅎㅎ

(빅데이터 분석기사 1회차가 전면 취소,   응시생 모두 2회차로 넘어감)

 

맥이 풀려서 그냥 공부를 놓아버리고, 만삭인 아내를 보살피는데 전념하다가, 4월 5일, 아이가 태어나고,

조금 뒷바라지하다가, 아내를 조리원에 보내고, 4월 12일 부터 4월 17일이 시험일인 2회차 시험을 준비하게 됩니다.

(약 5~6일정도 복습, 근데 하루에 한시간정도밖에 안한듯.. 책전체를 보지는 못함)

 

당시 똑같은 책을 보기 싫어서, 

빅데이터분석기사 필기(2021)(이지패스)(위키북스 데이터 자격검정 시리즈 1) 

 

위 링크의 책을 보았습니다.

 

참고로 필기 교재로 본 2개의 책을 평하자면,

둘 다 엄청나게 높은 적중률 (100점을 맞을 수 있는)은 아니었지만, 충분히 좋은 교재였다고 봅니다.

수제비 교재는 아주 상세하지는 않지만 포괄적인 내용과, 잘 정리된 문제를 가지고 있었고,

이지패스 교재는 어려운 통계적 개념이나, 알고리즘들을 나름 잘 풀어 설명해서 시험용도 뿐만아니라, 

지식 습득에도 좋았었던 것 같습니다.

 

물론 2회차 필기 시험 이후, 카페에서는 멘붕 일색이었습니다.

지나치게 많이나온 통계 문제들과,

첫 회차라서 그런지 뭔가 어설픈(?) 문제들 (문제를 내기위한 문제?),

생각보다 필기교재의 연습문제 적중률이 높지 않다라는 관점이 많았는데,

여기서 우리가  간과하지 말아야 할 것은, 우리는 '60점' 만 넘으면 된다는 것이고,

개인적으로 그런 기준으로는 저 두개의 교재 다 모자람이 없지않나? 라는 생각이 듭니다.

 

참고로 저 위에 공부한 만큼의 분량을 해도 70점이 넘는 점수로 필기 합격을 했습니다.

(솔직히 핑계지만 출산도 있고해서, 들인 시간에 비해 집중도도 그렇게 높지않았음)

 

즉 필기 시험의 난이도를 따지면, ADSP와 비슷하거나, 솔직히 60점만 넘긴다는 관점에서는 그것보다 쉬운(?) 느낌도 없지않아 있었습니다.

(제2회 합격률도 실제 고사장 와서 응시한 사람 기준  40%정도라고 함. IT 자격증  기사 시험 관점 낮은 수준은 아닙니다.)

 

 

 

 

그리고 이제 대망의 실기...

 

실기 준비야 말로 정말 

'무엇이 나올지 모르겠다.'

라는 압박감을 가지고 준비를 하게 되었습니다.  특히 ADP 실기를 거듭 미끌어진 관점에서 부담감은 더했지요..

 

ADP실기와  빅데이터 분석기사 실기의 차이점은,  우선 크게 보면,

ADP 실기 : 오픈 북,    빅데이터 분석기사 : 오픈북 아님

 

이라는 '큰' 차이가 있습니다.

 

물론 이를 보아 빅분기가 문제 자체의 난이도는 쉽겠구나.. 라는 것을 유추 해볼 수 있겠습니다만..

아무리 코딩을 자주하는 사람도,

구글 복붙과 발전된 IDE 시대에 살면서, 자동완성에 익숙해져 있는 손가락과 머리를 가진 사람이 대부분이기 때문에,

족보가 없는 비오픈북 코딩시험을 친다는 것은 부담이 아닐 수 없습니다.

 

거기다 시험환경이 일반적인 주피터 노트북이 아니고, (저는 파이썬으로 응시)

구름IDE이라는 국산 클라우드 코드 환경인데, 자동완성이 없다(?)는 공지가 시험전 나왔지요.

(help(), dir() 함수는 사용 가능)

 

추가로, chart rendering 기능또한 없다는 공지가 나오면서, (시험환경에서 그래프 패키지를 사용해 차트를 그릴 수 없음)

EDA를 제대로 하지도 못하는 정말 요상한 분석 실기 시험이 따로 없네???

라는 생각과 실기를 응시한 많은 분석 학도의 지탄을 받지 않았나 싶습니다.

(사실... 오히려,  차트를 못쓴다던지... Python package가 생각보다 얼마 없다던지 하는 부분은

오히려 시험 준비의 범위를 좁혀주는(?) 효과를 주기도 했던 것 같습니다.)

 

 

 

개인적으로는 한국데이터진흥원에서 시험관리의 편의성에(R, Python을 같은, 클라우드 환경으로 통합 제공) 무게를 둔 점과, 공공기관의 국내 기업 제품쓰기 운동이 짬뽕되면서 이런 결과가 나온게 아닌가 싶긴한데..

 

여튼 시험 전에는 종잡을 수 없는 부분이 많았습니다.

참고로 저는 이번 실기시험 준비하면서, 어떠한 책도 보지 않았고,

https://cafe.naver.com/sqlpd

 

데이터 전문가 포럼 (빅데이터분석기사... : 네이버 카페

빅데이터분석기사, ADP, ADsP, SQLP, SQLD, DAP, DAsP, 자격증 취득 등 데이터 전문가 커뮤니티입니다.

cafe.naver.com

 

카페의 여러 분석 고수분들과 지식 나눔의 선한 의지를 가진 많은 분들의 도움만 받았습니다.

(지금 생각해보면 제가..받기만하고 나눈건 별로 없어서 죄송하네요..)

 

 

향후 회차 시험은 어떻게 보완될지 모르겠지만 문제 유형은 총 세 가지 입니다.

 

첫번째, 단답형 주관식 필기 문제 10개 (총 30점)

두번째, 파이썬 코딩으로 단답형 답을 도출하는 문제 3개 (총 30점)

세번째, 주어진 데이터를 가지고 모델을 만든후, 테스트 셋으로 정답지를 출력하는 문제 1개 (총 40점)

         (금번 회차는 predict_proba를 통해 정답지가 아닌 정답 확률을 출력)

가 나옵니다.

 

여튼 카페에 올려주신 여러 예상 문제 및 코드들을 보고, 

참고하여 제가 직접 풀어보기도 하고, 손가락에 익숙해지도록 풀고 응시를 했습니다.

2주정도 준비했는데 회사가 급격히 바빠지고, 야근을 하면서 사실 집중도가 높지않아,

또 핑계인형으로 변신하면서 걱정이 크긴 했습니다. (시험 전날은 그냥 해탈해버림)

 

시험당일..

산골짜기에 있는 학교를 열심히 기어올라가 응시를 했습니다.

첫 회차 시험이라 그런지 사실 운영이 아주 프로페셔날 하지는 않았던 것 같고..

(장비 문제 등..)

어떻게 어떻게 진행이 그래도 되긴 했습니다.

(시험도중 문의사항이 생기면, 시험 사이트 아래 있는 버튼을 통해 채팅으로 문의를 해서 답변을 받을 수 있는 시스템)

 

실기 시험의 결과는?

 

아직 발표가 나지 않았고, 합격할지 안 할지 모르겠지만,

 

개인적인 견해는... 비 오픈북 시험을 감안하더라도

'생각보다 쉽게 나왔다?'

 

라는 생각이 들었습니다.

 

뭐 단답형 주관식 10개야 필기시험의 연속이라 보면 되고,

(블로그, 카페등을 검색해서 예상 문제들을 시간날때마다 숙지, 착한분들이 예상문제를 많이 올려주셨습니다.

 수제비 카페의 예상문제도 참고하고 ..)

 

2번유형인 단답형 파이썬은,  판다스만 잘 알면 , 실수만 없다면 누구든 풀수있는 수준이지 않을까?

라는 정도의 난이도였던 것 같습니다.

 

3번 모델만들고 평가하기는, 범주형 분류 문제가 나왔는데, 사실 후기를 통해 트레이닝 데이터에 이상치가 있다는 것을 알게되었지만... (너무 피곤해서 시험 한시간만에 치고 나가느라.. 거기까지 못봄)

그걸 제가 안하고 랜덤포레스트로 돌리니 ROC AUC 점수가 60점 이상은 나왔었습니다..

 

물론 제공된 문제의 테스트셋의 결과는 어떨지 모르겠지만..

여튼 그렇게 1시간만에 시험이 끝났습니다.

이러고 또 떨어질지도 모르죠 ㅎㅎ.. 여튼 승산은 있겠다라는 생각은 들었습니다.

 

 

시험에 관심이 있으신 많은 분들께 조금이라도 도움이 되었으면 하고..

 

결과가 7/16에 나오는데 결과 나오면 다시한번 포스팅 하겠습니다...

 

모두 합격 건승하시길...

반응형

나 참... 

 

이 자격증이 뭐길래 자격증 접수가 이렇게 힘든 건 처음 봤다.

 

한국데이터진흥원은 아마 비난을 피하기 어려울 듯..

 

이 정도로 서버 리소스 추산을 못하나 라는 생각이...

시스템 아키텍처 같은 부분에 밀접한 일을 하다보니.. 이런 생각도 들면서..

지금 뺑이치고 있을 담당자가 짠하기도 하고..

 

이틀에 걸친 광클릭 덕에 다행히 완료했다.

 

힘들게 접수한 만큼... 힘내자.

 

반응형

ADP (데이터분석전문가) 17회 실기 후기 (불합격...확정)

 

 

휴... 정말 씁쓸해서 이 포스팅을 하기 싫었는데, 

내 삶의 기록이라 생각하고,

또 정말 다른 IT 자격증 대비 터무니 없이 부족한, ADP 의 정보를 찾아해매는,

다른 IT/분석 학도들을 위해 글을 적어본다.

 

지난주 화요일 , 회사 사정으로 휴업을 하고, 약 5일간 벼락치기를 하여 또 한번 ADP 실기에 도전하게 되었는데,

(이번이 사실상 필기 유효기간의 마지막이라, 거의 마지막 시험이라고 생각했다)

 

물론 시간이 조금 부족하긴 했지만, 그 핑계 조차 댈 수 없을 정도로, 

시험 이후, 또 멘붕을 겪었다.

 

 

문제는 크게 세 문제가 나왔다.

그리고 나는 15회차 처럼 파이썬(Python)으로 응시를 했다.

 

[데이터 전처리/기계학습]  - 50점

1. 주택가격 예측을 위한 ML 모델 생성/평가

   - 여러 설명변수들로 Price (수치형 종속변수) 를 예측하는 모델을 만드는 문제였음

   - 집값에 영향을 미칠만 항목 (방개수, 부엌, 모델링여부 등)이 독립변수로 나오고 집값이 종속변수로 나옴

   - 시각화, 전처리, 회귀 모델 평가, 규제, 앙상블 , +a 등 3개의 모델을 Training 시켜 결과를 보는 문제였음

 

2. 코로나 바이러스 시각화/시계열/비시계열 예측 모델 만드는 문제

   - 국가별, 일별, 인구수, 확진자수, 사망자수, 완치자수, 검사자수   를 데이터로 줌

   - 시각화, 전처리 등은 모델 생성하는게 목표기 때문에 기본으로 깔고 감

   - 인구대비 확진자수를 도출해서 (파생 컬럼) Top 5인 국가를 추출 후 시각화 하는 문제 나옴

   - 분석가의 역량을 보고자 낸 것 같은데,  확진자수, 사망자수, 인구수, 검사자수, 완치자수 등 변수를 활용하여

     '위험지수'라는 파생컬럼을 만들어 보라고 함. 그리고 왜 그렇게 위험지수를 도출했는지 설명,

     Top10 위험지수 국가 시각화

   - 시계열 분석해서 '한국' 국가의 확진자수를 예측하는 문제가 나옴

   - 시계열 모델뿐만아니라 비시계열 모델로도 모델을 별도 생성 문제 나옴

 

 

[통계 문제]  - 50점

설문조사 데이터가 문제로 나옴

데이터는 대략

조사 번호, 그룹, 문항1-1 , 1-2, 1-3 .....     6-8  

이런 컬럼을 가진 테이블 데이터를 주고,  문항 컬럼에 들어가는 값들은 만족도 지수를 1~5점척도로 조사를 한 값이었음

1-1~ 1-x 는 항목 1,

2-1 ~ 2-x 는 항목 2

이런식으로 항목 영역이 규정된다고 전제를 함

그리고 역항목이라고 해서 1-1번의 역항목은  1-3 이고..

(설문조사시 동일내용에 대해 서로 긍정/부정 상반되는 문항을 제시해서 신뢰도를 올리기 위한 그런 항목으로 이해를 했다.)

 

그리고 특정 항목의 

1. 그룹별, 영역별 기술통계량 (평균, 표준편차, 첨도, 왜도)

   각 영역별 그룹별 만족도 추세가 어떤지? 탐색

2. 그리고 요인분석

3. 신뢰성 지수라는 걸 구하는 식을 주고 (대략 각 영역별 correlation의 평균과 개수가 필요한 식이었음)

  그걸 구하는 문제

 

이렇게 나왔다..

 

 

사실 완전 멘붕을 쳐맞은 이유는,

통계문제가 저렇게 나왔다는건데,  여러책을 보았지만 단한번도 겪어본적이 없는 내용이라

문제를 이해하는데도 오랜 시간이 걸렸다.

거기다 저런식의 데이터를 만져본 적이 없어서, 전처리를 어떤방식으로 해야할지가 감이 안잡혔다는 것이다.

 

 

지난 15회차 시험을 생각하고 사실,

머신러닝쪽만 중점적으로 준비를 했던 터라...

 

사실 머신러닝 분양의 항목들은 그래도 좀 풀었는데...

그 두 문제나 되는게 고작 배점이 50점밖에 안되지 않는가.... 이게 좀 굉장히 시험치면서도 짜증이 났다.

 

 

이게 일반적으로 통계 백그라운드가 없는 사람이 단기간에 준비를 하면, 운에 맡겨야하는 시험인가 보다.. 라는 생각이 들기도 했다.

 

 

금번에도 응시를 하면서 정말 나와 맞지 않는 시험이구나 느낀 것은,

(아마 특히 파이썬 응시자에게 해당되는 내용일 것 같다... R과는 조금 다른느낌이다..)

 

나는 코딩도 느적느적 모르는 거 있을때 마다 찾아가면서 하는 스타일인데,

 

이 시험은 오픈북이지만, 시간이 부족해서 이미 손에 코드가 숙달이 되어있어야 할것 같다는 생각이 들었다.

(시험이 상대평가가 아닌 절대평가기 때문에, 시간이 부족해서 어느정도 못풀면 얄짤없이 탈락이다...)

4시간이 결코 시험문제대비 긴 시간이 아니기 때문에

특히  '데이터 전처리'   '시각화'  이 부분에 80% 몰빵을 해서 공부를 하되, 직접 본인이 손으로 열심히 타이핑해서,

웬만큼 가져온 자료를 안보고도 기본적인 전처리/시각화는 할 수 있을정도로 숙달이 되어있어야한다.

뒤에 모델 적용이라던지 평가 부분은 어차피 규정화된 코드가 있기 때문에 그것만 적어가면 되는거지만..

저 전처리와... 시각화는 정말 손에 익을정도로 많은 사례를 직접 타이핑 해봐야 할 것 같다는 느낌이 들었다.

 

 

여튼... 정말 이 광활한 인터넷 정보의 바다속에 몇안되는 ADP 정보를 남기기 위해 

내용이 미흡하지만 포스팅을 해보았는데, 

다른 사람들에게는 도움이 좀 되었으면 좋겠다... 나와 같은 실패를 안할 수 있도록..

 

 

아 정말 ADP는 나와 인연이 없는 건가!!!

 

물론 합격자도 존재를 하니, 내 공부가 부족했던 거겠지...

 

그런데 정말 한동안은 쳐다보고 싶지도 않다라는 생각이 들었는데...

헐 빅데이터 분석기사가 신설되서 접수를 받고있네...

ADP는 접고 이쪽을 해볼까.. 또 구미가 당기기 시작한다... 

 

 

내 전문 분야를 분석 분야로 해봐야겠다는 결심을 한 이상... 결국 공부를 계속 해나가야 할 것이다..

그것이 가시적인 성과로 당장 보이지 않을지라도...

(분석영역은 전문성을가지고 실무를 하는 상황에서도... 대부분 금방 가시적인 성과가 보이지 않는다..)

 

 

조금만 쉬고 다시 생각해봐야겠다..

반응형

결국 데이터 분석 전문가 실기 17회차를 등록했다..

 

정말 애증의 자격증 시험이다...

한 시험에서 (그것도 실기 시험만... ) 이렇게 여러번 떨어져본건 인생에서 처음인데,

이정도면 내가 소질이 없다고 봐도 되는건가 싶다.

 

사실 이렇게까지 할 가치가 있는 자격증 시험인가? 라는 의문점이 계속해서 내 마음을 때리기도 하고..

하지만.. 준비 과정만으로도 내가 공부를 할 수 있는 원동력이 되기 때문에,

긍정적인 마음으로 임하고자 한다.

(마치 지금 하고 있는 코어소리영어 장학금 미션 처럼..)

 

아직까지 코로나의 여파 때문에 한국데이터진흥원 2분기 자격시험을 치려면,

아래와 같이 마스크도 시험 시간 내내 착용해야하고, 시험치고 14일간 증상 모니터링도 해야한단다..

(증상 모니터링이 어떤 방식으로 하는 건지는 문의예정이다.)

그리고 상황이 상황인 만큼 시험전날 까지 전액 환불도 해준다고 하고..

 

여튼.. 코로나 때문에 어디 못가게 된 마당에 공부나 더 열심히 해야겠다..

 

꼭 이 블로그에 합격 수기를 올릴수 있기를 바라며..

 

이번에도 Python이다....

 

----------------------------

참고.. 아래 데이터 자격시험 2분기 공지 중, 수험자에 대해 향후 2주간 모니터링을 한다는 내용이 있는데,

그 2주간 모니터링의 의미는 문의를 통해 받은 답변에 따르면 아래와 같다.

수험생들은 참고하기 바람..

 

 

 

 

* 아래는 코로나 관련 한국데이터진흥원 2분기 시험 공지

https://www.dataq.or.kr/www/board/view.do?bbsattrSeq=1&bbsSeq=501525&boardKind=notice

 

데이터자격시험

 

www.dataq.or.kr

정부의 코로나19 위기 경보가 심각 단계를 계속 유지함에 따라 

2020년도 데이터자격검정 2분기 시험에 대한 수험자 안내사항을 

아래와 같이 안내드리오니 협조하여 주시기 바랍니다.

 

1. 환불기간 연장 : 시험일 전일(~23:30) 까지 100% 환불

- 신용카드 및 계좌이체를 이용한 접수는 [마이페이지] -> [접수조회] -> [결제완료] - 신용카드 결제 환불의 경우 신용카드사 정책에 따라 최대 5일까지 소요됩니다.

- 계좌이체 환불 접수 시 매입금액 부족 메시지가 나올 경우 아이디, 시험명을 포함해서 담당자 이메일***로 신청해 주시기 바랍니다.

- 무통장입금 결제에 대한 환불은 아이디, 시험명, 환불받을 계좌 정보를 포함해서 담당자 이메일***로 신청해 주시기 바랍니다.

- 담당자를 통한 환불 신청도 환불 기간 내에만 접수 가능합니다.

 

2. 긴급연락을 위한 연락처 정보 최신화

- 감염병 관련한 긴급한 연락(시험장 변경, 연기, 취소 등)을 위하여 변경된 개인정보는 반드시 수정해 주시기 바랍니다(홈페이지 내 [마이페이지] -> [개인정보수정]).

 접수원서 등 개인정보 기재 착오 및 누락에 따른 연락 미수신 등으로 초래되는 불이익은 수험생 귀책사유임을 알려드립니다.

 

3. 시험장 입실

- 수험자는 반드시 마스크를 착용해야 하며, 퇴실하실 때까지 계속 착용해 주셔야 합니다.

- , 신분 확인 시에는 시험위원의 안내에 따라 협조해 주시기 바랍니다.

- 고사장 입구에서 발열체크(37.5) 후 입장하실 수 있으며, 고사실 입실하실 때마다 입구에 비치된 손소독제로 반드시 손 위생을 실시해 주시기 바랍니다.

- 발열체크 등으로 인한 시간 소요를 예상하여 시험장 미리 도착해 주시기 바랍니다.

 

4. 응시 불가자

- 코로나19 확산방지를 위해 확진환자와 감염의심자*는 시험에 응시하실 수 없으며, 시험장 출입을 금지합니다.
* 의사환자, 조사대상 유증상자, 격리대상자**(자가격리대상자 포함)
** 모든 해외입국자로 입국 후 14일이 경과하지 않은 자 포함

- 응시 불가 해당자 중 미응시자는 시험일 이후 30일 이내 증빙서류*를 첨부하여 담당자 이메일***로 환불 신청을 하시면 100% 환불 가능합니다.
* 증빙서류 : 출입국사실증명서 또는 기타 사실을 입증할 수 있는 증명서(진단서, 출입국 사실 증명서, 격리대상 확인서, 신분증 등)

 

5. 기타 당부사항

- 수험자는 시험 시행일로부터 14일간 증상 모니터링이 필요합니다.

- 타인과 대화하지 말고 반드시 건강거리두기를 실천하여 주시기 바랍니다.

- 수험자는 시험장 내에서 기침 또는 재채기를 할 경우 휴지, 손수건, 옷소매 등으로 가리는 등 에티켓을 지켜 주시기 바랍니다.

- 수험자는 시험 중 발열, 호흡기 질환 등 증상이 있을 경우 시험위원에게 도움을 요청할 수 있으며, 필요 시 별도 시험실에 격리하여 응시할 수 있습니다.

- 코로나19 주요 증상(발열, 기침, 인후통, 호흡곤란 등) 의심 수험자는 본인의 의사와 관계없이 질병관리본부 또는 보건소 등에 신고할 수 있음을 알려드립니다.

 

예상치 못한 코로나19 확산으로 인한 조치이오니 안전한 시험운영이 될 수 있도록 협조바랍니다.

반응형

ADP (데이터 분석 전문가) 외 한국데이터진흥원 자격증 1분기 취소ADP 외 한국데이터산업진흥원 자격증 1분기 취소..

 

코로나의 여파가 생활 각 부문에 미치고 있다.

 

내가 삼수를 하고 있는, ADP 실기 포함, 

한국데이터산업진흥원 자격 시험 일정들이, 연기를 하기 시작하더니 결국은 1분기 스케쥴들이 모두 전격 취소 되었다.

 

https://www.dataq.or.kr/www/board/view.do?bbsattrSeq=1&bbsSeq=500968&boardKind=notice

 

데이터자격시험

 

www.dataq.or.kr

 

필기시험 면제 기간이 간당간당 하게 걸린 사람들이 궁금해할만한 내용은 아래와 같이 FAQ가 되어있다.

 

금년 빅데이터 분석기사도 데이터진흥원이 수탁기관이 되어 개설진행을 한다는데,

그건 또 어떻게 되는지 모르겄다..

 

 

여튼 다들 힘냅시다. 기간이 늘어난 만큼 공부 더 열심히 하고..

 

 

반응형

ADP (데이터분석전문가) 15회 실기 후기 (불합격...확정)

 

 

마지막일줄 알았던...... 

합격하던, 불합격하던 내 기억속에서 지워버리려고 다짐했던,

ADP 15회 실기의 후기를 늦게나마 기록해 본다.

 

일단 결과적으로는 1,2 번 2개의 큰 항목의 문제 중,  2번을 통째로 못풀었기 때문에 불합격 확정이다.

 

15회 실기 후기는 별로 없지만, 그래도 네이버 카페나, 그런 곳에 몇몇 분이 다소 후기를 자세하게 써주신 분들이 계셔서,

대략 내용은 다른 글을 봐도 파악이 가능할 듯 하다..

 

일전 응시했던 ADP 실기 11회와 비교하면, 

Text mining이 출제되지 않은 것을 감안하고도, 난이도가 확 높아졌다는 것을 느꼈다.

솔직히 금번 Python으로 사용 언어를 바꾸는 모험을 했지만 서도,

공부 시간이 꽤 되었는데 , (책 두권을 대략 다 보았다.)

 

책에서 전혀 보지도 못한, timestamp 형 data가 2번에 출제되면서, Data변환 자체도 못해보고,

2번 문제를 통으로 날려먹었다.

(Timestamp가 DB에서 이야기하는 그 Timestamp가 아니다.  결론적으로 표현형태는 같겠지만... 여튼 일반적으로 DB query날리는 사람들이 접한 그 Timestamp 가 아님)

 

 

 

일단 시험 문제를 통해 후기를 좀 정리해보자면,

 

1번은 무슨 제철회사 Iot data 같은 것들을 제공해 주고,

 - EDA(탐색적 데이터 분석) 해보는 거

 - 독립변수 선별 (feature engineering)

 - 종속변수(y)를 이항으로 바꾸고 로지스틱 회귀 분석하기

 - 종속변수(y) 다항인 상태에서 SVM 포함하여 3가지 알고리즘으로 돌려보고 평가

 - 위에서 만든 모델 중 하나 적합한 모형 찾아서 군집분석 실시하고 군집분석을 반영하여 F1 score값을 통해 

   모델이 나아지는지 확인

 

과 같은 것을 진행하는 것이다.

1번문제도 기존 11회 실기의 머신러닝 문제와 비교해 나름 난이도가 낮은 편은 아니었지만, 

그나마 손을 댈 수는 있었는데, 솔직히 군집분석을 기존 머신러닝 결과에 반영하라는게 무슨 의미인지 몰라서,

좀 벙찌기도 했었다.

(나중에 카페 글을 보니 해당 군집을 또 독립변수로 놓고 학습을 하면 모델의 질이 높아질 수 있다. 뭐 그런 뜻인 것 같다. 솔직히 이와 같은 분석 방식을 난 전혀 모르고 있었다)

 

그리고 python으로 언어를 변경하면서, 준비를 안해서 좀 문제가 되었던 부분은, EDA와 Feature engineering이다.

기존 상관분석 등으로 독립변수 선별할 때 사용했던 R code를 백프로 python으로 숙지를 못하고 가서,

(대체 준비할때 난 뭐한거지?)

for 문으로 일일히, 구현을 해서, 그래프를 하나하나 뽑아낸 후 붙이는 노가다를 했었다.

 

뭐 여튼 1번도 어버버 했는데 어떻게어떻게 했는데..

 

 

 

2번은.. 전력사용량 관련 data를 제공해주었는데

그 망할 timestamp라는 무슨 열 몇자리 숫자로 구성된 데이터가 나와서,

이걸 어떻게 변환하지? 머리가 새하얗게 변하면서 그냥 망해버렸다.

가장 기본이 되는 시계열 column (3개의 data의 key가 되어야 하는 column이었음) 을 변환을 못하니 뭐 그냥 문제 자체에 손을 못대고 넋을 놓게되어 버렸다.

 

솔직히 2번문제 접하고 나서,  와... 이건 내가 이 Data형을 실무에서 경험하지 못했다면, 

아무리 공부를 많이 했어도, 책을 3~4권 더 봤어도 이걸 풀 수 있었을까? 라는 생각이 들면서

마음속 깊이, 내 자질을 의심했다. 

 

이것도 알고보니 python 함수하나로 간단히 해결되는 문제인데,  뭐 내가 이런걸 봤어야지 .ㅠ

(datatime package안에 fromtimestamp 뭐이런 함수가 있음... 열라 간단...)

사실 내가 참고한 python 데이터 분석 관련 책, R 책에는 정말 조금이라도 비슷한 유형이 하나도 나오지 않아.. 

정말 당황스러운 시간이었다..

 

여튼 이렇게 시험이 끝나고...

시험이 끝나는 동시에 불합격을 확정지으며, 씁쓸한 발걸음을 집으로 옮겼는데..

 

 

아 왜 이렇게 분한지... 3월 시험을 한번 더 응시해볼까 하는 생각...

 

 

 

그리고 그런 생각이 든 이유는 ,

이번에 R -> python으로 전환하면서, 의외로 걱정했던 것 만큼 크게 'library 공백' 이 없었다.

즉 R에서 지원하는 대부분의 분석에 필요한 Library가 python에 대부분이 구현되어 있어,

크게 불편함을 느끼지 못했다는 뜻이다.

물론 일부... 뭐 상관관계라든가... 변수 선택관련 step(전진선택법, 후진소거법, both 뭐 그런거...) 이라던가... 그런 일부는 R처럼 보기 편한 형태로 구현되어있지는 않지만... 여튼 python의 위대함을 알게되면서, 조금더 공부해보고 싶다는 생각이 들었다.

R도 좋은 언어긴 하지만, 결국 미래에는, python이 데이터 분석 계열 언어 지분을 지배할 수도 있겠다는 생각이 들었음.. 다른 또 기똥찬 뭔가가 나오지 않는 이상..

 

 

여튼 ADP 15회 실기에 대한 넋두리는 이것으로 끝...

 

ADP라는 힘든 싸움을 하는 전국의 데이터 분석 전문가 지망생들에게 repect를 보내며...

(2020에는 빅데이터 분석기사도 나온다드만....)

 

 

 

반응형

ADP (데이터분석 전문가) 실기 출제 범위 관련..

 

얼마 안되는 ADP 실기 후기를 인터넷 세상에서 뒤지다가, 어떤 분이 올려놓은 후기에서 흥미로운 사실을 발견했다.

 

- 13, 14회차에는 Text Mining 문제가 나오지 않았다는 것이다!!

 

사실 내가 이전 ADP 11회차에서 고배를 마신 이유는 Text Mining 대문제 하나를 통째로 못풀어서 였기 때문에,

금번에는 Text Mining을 열심히 준비하고 있었는데, 골이 띵 해지는 사실이었다.

 

뭘해도 병신은 병신인가.. 

생각을 하다가 ADP 실기 응시 공지사항을 유심히 보았다.

 

- ADP 실기 12회차 공지 

  ... 가만보니 응시 범위가 나와 있다.

ADP 12회차 실기 응시 공지

 

- ADP 실기 13, 14회차 공지 

   헐!! 텍스트 마이닝이 없다. 그리고 심지어 빨간 글씨로 강조가 되어있다... 이래서 텍스트 마이닝이 안나온 것인가..

13회차
14회차

 

그래서 금번 15회차 공지를 기다리며... 대기를 타고 있는데... 이번 공지를 보니..

 

 

 

 

- 아래 ADP 15회차 실기 응시 최초 공지....

http://www.dbguide.net/da.db?cmd=snb9_1_view&boardConfigUid=12&categoryUid=&boardGroupUid=7&boardType=1&boardUid=205166&boardSummary=1

 

:: DBguide.net :: 데이터 전문가 지식포털

안녕하십니까. 데이터 자격검정센터입니다. 제15회 데이터분석 전문가(ADP) 실기시험 응시에 관한 사항을 아래와 같이 안내드립니다.                                     - 아          래 - 1. 일시 및 장소      o 일시: 2019년 12월 14일(토요일) 13:00~17:00(240분)     * 입실시간: 11:50~12:30분, 입실가능시간 엄수                   (사전 안내사항 전달 및 검정

www.dbguide.net

 

엥? 출제 범위 관련된 부분이 공지에 없다.

헐 뭐지 ㅋㅋㅋ 나를 시험에 들게 하는군요..

 

그래서 데이터 진흥원 쪽으로, 수고많으십니다만... 과거에는 이러이러 했는데... 향후 혼선이 없도록 시험범위 공지를 해주세여.... 라고 부탁 90, 컴플레인 10... 의 요청을 지난주에 하고... 오늘 보니..

 

오... 어제일자로 신규 공지가 올라와있다.

 

내용을 보니..

15회차 ADP 공지..

오... 텍스트 마이닝이 없다..

 

 

다행이라고 생각하면서 시험준비 의욕이 +1 증가하는 날이었다.

 

덧붙여, 응시생의 의견 하나하나를 잘 반영해주시는 (물론 나 말고도 여러 사람들이 요청을 하였겠지만..)

데이터진흥원에 감사하는 마음을 전한다...

 

합격도 시켜주세요... 남은 기간동안은 열심히 할게요..

반응형

요즘 옛날 구 Blog에서 한창 이사 중이다.

블로그 이사도, 대행업체가 있으면 좋으련만 ㅋㅋㅋ 

그러다 2015년도에 Big Data Trend 관련 Blogging을 해놓았던 글을 발견했다.

4년이 지난 지금 Big Data는 과연 어디쯤 와있을까?

그때의 내 생각이 대충 맞았을까? 아닐까?

한번 아래의 기록을 기준으로 비교해보았다.



현재기준의 Comment는 퍼어런 색상으로 해서 적어보았다.

---------------------------아래 부터 2015년 적은 원글 ---------------------------------------------------------------------


Big Data Trend..... 불고있는 바람?


한동안 Big Data의 새로운 기술, 동향을 조사하고자 하는 노력이 뜸했다. 

-> 다행인지 불행인지, 4년이 지난 지금 나는 여전히 회사에서, Big Data를 조사하고 검토하고 있다 ㅎㅎㅎ


Big Data가 한없이 뜨거웠던 2012년이 가고...

2013년, 2014년 초까지 본격적으로,

기업들이 Big Data에 관심을 가지며 POC를 진행하고 도입 타당성을 검토하였다.

-> 국내(한국) 기준 도입/활용 사례가 많이 늘긴 했다... 특히 AWS, Google Cloud가 확산되면서, 수요가 점점 증가추세..

 

이러한 성장기를 지나 비로소 그 실체가 어느정도 윤곽이 잡혀가고 더 이상의 괄목할만한 새로운 개념이 나오지 않았기 때문에.. 

나 또한 관심에서 멀어진 것인가 보다.

 

최근 2015년도 사업 계획에 대한 내용을 작성하며, 문득 생각이나 다시금 Big Data Trend를 검색하다가 CIOBIZ에서 

'빅데이터 분야에 부는 8가지 바람' 글을 보게 되어, 나의 생각을 정리해본다.

 (기사 원문 :http://www.ciokorea.com/news/22762 )

 

* 해당 기사에서 제시하는 Big Data의 8가지 Trend별 생각 정리

1. 클라우드에서의 빅데이터 애널리틱스

    -  Big Data 특성상 대규모 Storage Infra를 필요로 하는 부분 때문에 Data Center를 가진 회사들이                

        Cloud 형태의 Big Data 분석 서비스를 제공하고 있고 이러한 부분은 기업 내 자연스럽게 정착될 것이라 생각. 

        빠른 Delivery를 요구하는 요즘 사회에 자연스러운 흐름이고 시기의 문제이지. 미래의 기술이 될 것인가? 아닌가의 문제가 아니라고 생각.

        현재는 대부분의 서비스가 단기성으로 보았을 때 On-premise보다 고가이고, 보안성에 대한 확신이 정착되지 않아 아주 활성화되고 있지는 않은 것으로 보임.

        -> 현재 본인도 회사에서 Cloud 전환 프로젝트에 참여하고 있음.... 장기적인 관점에서의 비용 체계 유연성, 빠른 적용가능, 

            자연스러운 Infra outsourcing화,  Big Data 저장 수요 등이 합쳐져서 대부분의 기업이 Cloud 기반으로 환경을 전환하는 것은 시간 문제일 뿐

            거스를 수 없는 Trend가 될 것 같다.  다만 Cloud 공급자 경쟁 체제가 AWS, Google로 편중이 되었고, 이것을 후발주자가 도저히 따라잡지는

            못하는 그림이다.... (선택지가 별로 없음.. 그런데 굳이 그래도 상관없는 느낌?) 

2. 하둡: 새로운 엔터프라이즈 데이터 운영체제로 부상

    -  여전히 하둡은 뜨겁다. 이미 성숙기로 가고 있는 기술이라고 생각. 당사도 언젠가는 도입하지 않을까?

       -> 지금 시점에서는 Hadoop은 Hadoop이지만, Nice to have이지 필수가 아닌 플랫폼이라는 생각이 든다. Hadoop가 유사한 file system 방식의

          저장소를 많은 Cloud 공급자들이 내놓고 있고,  물론 Hadoop Paas Service 또한 제공을 하지만 굳이 Hadoop을 쓸필요가 없을 정도로

          선택지가 많아졌다.  그리고 Hadoop또한 Log분석과 같은 비정형/반정형의 Big Big Data 분석시에만 유용한 것 같고, 만병통치약은 아닌 것

          같다는 생각이 든다.

3. 빅 데이터 호수(Big data lakes)

    -  대규모 비정형 Data 처리 기술이 확산되면서 생겨난 개념인이다. 다양한 형태의 Data들을 한 곳에 통관리 하는데 효율적인 형태를 가진 DB의 개념이 

        이 Big Data lakes가 아닌가 싶다.

        이러한 DB들은 미리 스키마를 치밀하게 설계하여 Data를 맞춰 넣어 사용하는 것이 아니라 자유도가 높은 유연한 형태의  스키마를 정해놓고 

        여러 형태의 Data를 해당 스키마로 변형시켜서 통합관리할 수  있는 환경을 제공함.

       -> Data Lake 개념이 나왔을때, 솔직히 긴가민가 이게 뭔가 했었다..

          사실 뭐 좋은 개념이지만 Data Lake란것도 본인은 말장난이라 생각하는데, 옛날 DW (data Warehouse) 개념이 확장된 형태라고 생각한다.

          DW 개념에다가 + 다양한 형태의 Data(비정형/반정형에 관련된 Source들) + 외부 Data   개념이 추가된 것이라 보면 된다.

          Big Data 시대의 wanna be Enterprise 분석 환경 구성이기 때문에 많은 기업들이 수행/고려를 하고 있다. 심지어 본인도... 회사에서 수행인력으로..

4. 예측 분석 적용의 확대

     -  예측 분석은 새로운 개념은 아니고... 시뮬레이션과 같은 분석으로 변수에 따른 결과 예측. 처리 기술의 발전에 따라 더 완성도가 높아졌다는 이야기를 하고 있음

       -> 여기에 추가된 것은 AI/머신러닝이다.   알파고 붐이 일어나고... 그 이후 AI/머신러닝에 대한 관심이 급증하면서,

           해당 알고리즘을 활용한 예측분석에 대한 시도가 증가 추세다.

           물론 해당 기술을 통해 의미 있는 Output을 내고 있는 곳은 몇몇 특별한 업종 뿐인 것 같지만... (개인화된 추천, 사기 탐지 등)

           개인적으로 기대감이 큰 분야이다.

5. 더 빠르고 우수해지는 하둡의 SQL

     -  SQL on Hadoop 이야기인 듯 한데... 여전히 Hive를 기본으로 해서 클라우데라의 Impala가 많이 사용되는 듯. 

         EMC Pivotal 제품 언급도 보이고.. IBM,  것도 성능이 좋다는데, Big SQL 같은 것 확인 필요.

      -> 딱히 중요한 개념은 아니었다 생각. SQL on ~~ 은 특수 개념이라기 보다는 Big Data Platform 기술들에 보편화되버린 것 같다.

6. 더 풍부하고 좋아진 NoSQL

     -  NoSQL도 여전히 뜨겁고... 안본 새 ArangoDB 란 것도 떠오르는 듯. 여전히 MongoDB가 강세가 아닐까 생각해본다. 

      -> NoSQL도.. 이제보니 무조건 사용해야 된다는 아닌 정도.... 모르겠다. 내가 아직 비정형 Data를 아주 많이 다룰 기회가 없어서 그럴지도..

7. 딥러닝(Deep Learning)

     -  신경망 기반 머신 러닝의 발전된 개념이라고 한다.  컴퓨터가 특정 모델이나 프로그램 명령없이 대량의 데이터에서 관심 대상을 인식해 관계를 

          추론한다고하는데,알고리즘의 발전은 계속 되는 것 같다.

      -> 위 예측분석 항목에서 언급했지만, 매우 중요한 개념이고 앞으로도 발전할 가능성이 많다고 생각한다.  최근에는 나아가 XAI (설명가능한 AI)

          등의 개념까지 나오고 있다.

8. 인-메모리 애널리틱스

     - 한참 화제가 되었던, In-memory DB를 통해 빠른 처리 속도를  제공한다는 부분.

        실제로 당사는 In-memory DB를 탑제한 Endeca 제품을 도입하였으나, Memory라는 부분에 한계가 

       있는 것은 확실 하다. (대규모 데이터의 처리 등)

       만능이라는 생각을 버리고 용도에 맞게 사용하는 것이 가장 중요하다고 생각.

       -> Cloud 시대가 도래하면 In-memory도 뭔가 고객이 꼭 고려를 해야하는 중요한 Trend는 아니게 되어 버린 것 같다.

           사용자 입장에서는 In-memory든 뭐든 신경안쓰고 성능이 빠르기만 하면 되니까.... 중요 Trend라고 할만한 개념은 아니게 된듯..




반응형

ADP (데이터분석전문가) 실기 응시조건 변경



갑자기 한통의 문자가 날아 왔다.




http://www.dbguide.net/da.db?cmd=snb9_1_view&boardConfigUid=12&categoryUid=&boardGroupUid=7&boardType=1&boardUid=200737&boardSummary=1


ㅎㅎ 여기서도 확인 가능.


기존에는 필기합격 회차 포함 실기 3회차 응시 가능해서,  그냥 기간으로 2년동안 응시가능한 것으로 변경됨.


나는 11회 필기를 합격했으므로, 합격일자인 2018-9-21  ~ 2020-9-21 까지 실기 응시 가능..

'합격자 발표일로 부터 2년이내 시행되는' 이므로, 실기 시험일 기준이지 않을까 싶다.


여튼 그전에 합격해야 할텐데...

2019년 ADP/ADSP 데이터 분석 (준) 전문가 일정을 한번 올려본다.. 

세상 탓, 시험 탓을 하지말고 내 탓을하자... 떨어지면 내가 공부를 덜한 탓...

시험이 어려운게 아님..






반응형

조금 늦은 ADP (데이터분석전문가) 11회 실기 불합격 후기


이미 시험결과 발표난지는 꽤 되었다.




당당하게 11회 실기 불합격을 했다.

사실 2번문제를 전혀 풀지 못해서 큰 기대는 안했으나, 1,3번에서 75점을 획득해서 일말의 합격 가능성이 있지 않을까 기대하고 있던 참이었다.


사실 나 자신이 만족할 정도로 시간을 쏟아서 준비를 하지는 못했지만, 

시험을 준비하는 과정에서,   다른 외부적인 여러가지 이유로 스트레스를 많이 받았던 기간이었고, 정말 정신적으로 어렵게 공부를 했던 시험이라...

그래도 정말 합격하면 좋겠다는 마음을 많이 가지고 있었던 것 같다.



뭐 결과는 불합격!!!!!!!!!!! 

그러나 이게 내가 딱 노력한 만큼의 결과겠지... 생각을 했다.


참 이 시험이 신기한게,   시험 이후에도 찾아보면 유독 인터넷상에 후기가 없다. 그래서 ADP를 준비한다는 것은 매우 외로운 싸움이다.

후기가 몇개 naver 카페에 올라온게 다.... 너무 점수가 못나왔어요 ㅠ 어려워요 ㅠ 이런 것들 뿐임 ㅋㅋㅋ

그나마 이런 수험생들이 동지의식을 느끼게 하고 내 마음을 위로해주네..


여튼 결과 점수는 아래와 같다.



1,3번 (총 80점) 에서 67.5점을 획득 했다는 이야기인데,  2번 (총점 20점)에서 반정도라도 맞출 수 있는 실력이 필요하다는 결론이다.

text mining을 좀 더 보완해야 하겠네..



ADP 관련해서 사실 매우 많이 찾아봤는데,  어떤 블로그에 어떤 분이.... 또 떨어졌다...도저히 어떻게 공부를 해야할지 모르겠다... 라고 글을 올리신게 문득 기억이 났다.


사실 지금 같은 심정이긴 한데.... 막막하긴 하지만, 내년에 또 도전을 해야겠지... 

이 어려운 과정들이 다 내 커리어에 도움이 되지 않을까?


자신을 위로해본다


반응형

ADP (데이터분석전문가) 11회 실기 후기


지난 10월 27일에 시험을 보고 왔던 ADP 11회 실기 후기...

아직 결과가 나오지는 않았다 (11/27에 발표)


나는 ADP 실기를 작년에 이미 떨어진 경험이 있다.

첫번째, 아무 생각 없이 보러 갔을때, 공부의 방향을 완전 잘못잡아 한번 충격을 먹고 이번에는 모자란 시간을 쪼개어 공부를 좀 하고 갔다.

결과는 또 막막할 따름이다.


시험은 강남 선릉역 인근에 있는 웹타임 교육센터에서 응시를 하였고, (한국데이터진흥원 본사와 웹타임센터 중 랜덤배정임)

10회차 부터 시험에 사용할 언어도 선택할 수 있게 바뀌었는데,(Python, R 중 응시자가 택1할 수 있음) 나는 기존과 동일하게 'R'을 선택하였다.

시험장은 꼭 토익스피킹 시험치는 곳과 같이 다닥다닥 붙은 컴퓨터들 사이에 자리마다 칸막이가 쳐져있는 형태였고,

크게 뭐 불편하거나 다른 Issue는 없었던 것 같다.

아 그리고 오픈북 진행이고 사용한 자료들/책들은 모두 다시 반출이 가능하다.  (작년 시험볼때는 반출 불가였음..)



실기 시험의 후기와 소회를 아래 정리 해본다.


문제 유형

   문제유형은 회차를 거듭하면서 기본적인 골자는 비슷한 형태에서 살짝살짝 detail만 바뀌어 왔는데,  일반적으로 아래와 같다.

   1. 통계학 기반 분석

   2. Text Mining을 적용한 분석

   3. Data mining(ML) 학습을 통한 결과 도출 

   상기 3개의 주제를 잘 분석하려면 당연히, 

   분석 언어를 통한,  'Data 전처리', 'Model 생성', '분석 Model별 검증', '결과 해석' 역량이 있어야 한다.

   거기다 2번문제를 잘 풀기 위해, Text 전처리, KoNLP 패키지를 다양한 방식으로 사용해본 경험이 있어야한다. 

   (wordcloud 만드는 수준으로는 해당 문제를 풀 수가 없다...)


   금번 회차에도 위와 같이 크게 세가지 주제의 문제가 나왔고 각 큰 단위 문제 안에 세부적으로 3~4문제씩 세부문제가 있는 형태로 출제가 되었다.

   금번에는


   1. 통계학 기반 분석 (40점)

      - 각 설명변수들과 출산률(종속변수)의 관계를 회귀분석으로 정의 및 결과를 해석하는 문제  

   2. Text mining (20점)

      - 영화평 Data를 전처리 후, '형용사'를 추출 하여 감성 분석 하는 문제

   3. Data Mining/ML (40점)

      - (R을 공부하는 많은 사람들이 익숙한) 타이타닉 생존자 Data를 Data mining 학습하여, 생존여부 예측을 하는 문제 

      - 금번회차의 경우 분석 과정은 상관없고,  오직 제공된 Test Data의 정답만을 제출해서, 예측한 정답의 적중률이 얼마나 높은지로 채점을 함


   이렇게 출제가 되었다.



응시 소감

사실 1,3번의 난이도는 기존의 실기 출제 문제보다는 쉬운편이 아니었나 싶다.... 왜냐하면 전처리가 그렇게 까다로운 Data도 아니었고, 

특히 3번 문제같은 경우, ADP를 공부하는 많은 수험생이 참고하는 'R을 이용한 Data처리 & 분석실무 (길벗)' 책에 나오는 대표적인 예시 Data이기 때문이다. (사실 문제보고 좀 당황했음... 설마 이게 나올까 했는데..)

물론 Data 일부를 조금 변형해놔서 추가적인 전처리가 필요했지만, 적어도 정확도가 어떻든 Model을 만들고, 예측 결과를 뽑는데까지는 크게 어려운 단계가 없었던 것 같다.


다만 이번에 멘붕이 왔던 문제는 2번 Text Mining이였다.

나는 배점이 높은 1,3번을 먼저 풀고 딱 1시간이 남은 상황에서 2번 Text Mining문제로 진입했는데,

결국 세부 문제 한문제도 제대로 풀지 못했다.

첫번째로 Text Data(Text file이였음)를 불러오는 부분에서 구분자를 가지고 Parsing을 하는데 문제가 발생하여 많은 시간을 잡아먹었고,

(파일 용량 자체가 커서 한번 불러오는데 분단위 시간이 걸림)

문제가 '형용사'를 추출하는 건데 여기서 결국 막힌 것이다.

사실 R을 활용한 Text Mining 대부분의 예시는 '명사'를 추출하는 형태로 되어 있고, 명사 추출은 extractNoun 함수로 쉽게 수행을 할 수 있다.

그런데 형용사 같은 경우는.... SimplePos22 함수를 써야하는데 해당 부분을 제대로 숙지하지 못하고 가서, 결국 for문을 만들다 시간이 부족해 실패를 해버린 것이다.


결국 2번문제를 아예 통으로 못풀다시피 하고 시험을 마쳤다.

1,3번 문제도 완벽히 맞았다는 보장이 없기때문에... 또 망한건가...라는 생각이 들고 있다.

일단 결과가 나오면 또 포스팅을 하도록 하겠다. 

떨어지면 또... 준비를 해서 재응시를 해야겠지..







반응형
ADP (데이터 분석 전문가) 11회 필기 합격

 

두번째 ADP 필기 합격이다 ㅎㅎ

작년 ADP 필기를 한번 합격했으나, 실기 탈락 및 합격 유효기간이 지나가면서,

결국 한번 더 공부를 해야 했던 슬픈 현실...

 

거의 1년만에 책을 처음보는데 Detail 한 것은 정말 하나도 기억이 나지 않았다.

 

ADP 필기의 경우 전반적인 지식이나 맥락만 이해하고 있으면 되는게 아니고,

꽤 많은 비율의 문제가 정말 Detail 하고 치사하게 출제가 되기 때문에

전반적인 이해뿐만 아니라, 실제 책에 기술된 항목/절차명 등등을 외워야 한다.

 

하지만 공부기간이 턱없이 짧아 힘든 싸움이였던 것 같다.

 

거기다 서술형에서 말도 안되는 실수를 해서, (거저 주는 Tree Grouping 문제, 잘못 적음 ㅠ)

 5점을 그냥 날려먹어 큰 걱정을 안고 시험 결과를 확인하였다.

 

그래도 한번 본 가락이 있어서 인지, 서술형의 참패를 객관식이 만회하며 합격!

이번에는 실기 대비를 철저히 해보도록 해야겠다.

 

언제나 누구와도 아닌 나 자신과의 싸움임을 되새기며...

 

 

 

 

 

 

 

 

반응형

Data Virtualization? (데이터 가상화)?


회사 서 숙제를 받아, Data Virtualization (데이터 가상화)이라는 기술에 대해 알아보았는데,

헐? 왜 이런 개념을 몰랐지? 라는 생각이 들었다.

현재 Data 시장 화두가 되고있는 Data Lake와 같이 물리적으로 ETL을 하여 Data 통합을 하는 것이아니라,

Logic을 통해 논리적 View를 만들어서 이기종 DB들을 통합하는? 정말 간편하고 희안한 개념이였다.

그리고 그렇게 통합된 이기종 DB를 동일한 문법의 Ansi SQL로 통합 조회할 수 있도록 추상적 계층을 만들어준다는 것인데...


 - 이러면 당장 성능보장은? 

 - 어떻게 수많은 이기종 DB를 표준 SQL 문법으로 다 제공을 할까?

 

등등의 의문점이 들긴하는데, 더 공부를 해봐야 할 부분이다.


국내 시장에서 사례를 들어본적이 없는 것으로 보아, 뭔가 Data 통합을 하는데 있어서 제약사항이 있거나 비용이 비싼게 아닌가 싶은데 더 알아봐야겠다.

그리고 웃긴게, Gartner 2017 Data Management hype cycle을 보면, 성숙기에 있는 기술이다. ㅋㅋㅋ 그냥 나만 몰랐던 것일까?


아래 조사해서 정리한 내용 일부를 블로깅 해본다


* Data Virtualization concept


 Concept

  이종으로 구성된 Data Infra를 논리적으로 하나의 통합된 Resource로 만드는 기술

  

  • RDBMS, NoSQL, Hadoop 같은 이기종의 DB Source를 마치 하나의 DB인 것처럼 동일한 문법의 SQL

   로 통합 조회를 가능

  • 내부 이종 DB 뿐 아니라, /외부(Cloud, 비정형 등) 통합을 위한 Platform 제공

 동작방식

  ETL, EAI와 같이 물리적 Data의 이동이 발생하는 것이 아니라, 논리적 View를 생성

  

  • Adaptor를 통해 연결된 Data Source들의 Meta Data를 실시간 구성하여, 커다란 하나의 논리적 

    Database를 생성

  • Data 통합 추상화 계층

 제공 기능

  Data Integration을 위해 Data 가공, 성능 향상, 보안 기능을 제공

  

  • Logic을 통해 Data Transformation을 할 수 있는 기능 제공

  • In-memory, MPP, Caching, Dynamic Query 최적화를 통해 기본 성능 향상

  • Schema에 대한 권한관리/보안 기능 제공


반응형

+ Recent posts