2021 사이버보안 AI 빅데이터 활용 경진대회 대상 수상 후기
잡동사니/각종 후기

2021 사이버보안 AI 빅데이터 활용 경진대회 대상 수상 후기

2021 사이버보안 AI 빅데이터 활용 경진대회에 참가하고 대상까지 수상했던 후기를 작성해보겠습니다.

한 동안 이 대회를 진행하면서 블로그 포스팅을 많이 못 했네요.

어떤 대회인지부터 어떤 식으로 대회를 진행해나갔는지 소개해드리겠습니다.

 


 

2021 사이버보안 AI 빅데이터 활용 경진대회 

 

2021 사이버보안 AI 빅데이터 활용 경진대회

 

우선 이 대회는 과기부와 KISA에서 주최, 주관하는 대회입니다.

 

1-1. 대회 소개

 

대회 소개

 

대회의 주최 목적은 지능형 사이버위협에 대응하기 위해 AI 학습, 빅데이터 분석을 기반으로 한 다양한 접근이 필요하며 참가자들의 새로운 아이디어를 제시받는다는 뭐 그런 이유인 것 같습니다.

이 대회에서는 위 그림처럼 트랙이 3가지 존재합니다.

 

1-2. 운영 트랙

 

대회 운영트랙 3가지

 

파워쉘을 활용하여 스크립트 탐지 모델을 개발하는 대회인 A 트랙

빅 데이터를 분석하여 침해사고의 흐름과 공격자의 특성을 파악하는 B 트랙

사이버보안 분야에서의 이슈에 대해서 AI를 통해 사이버보안 빅데이터를 활용할 수 있는 아이디어를 제시하는 C 트랙

저는 4인 팀을 구성하여 위 3 개의 트랙 중 B 트랙에 참여했습니다.

 

대회 일정은 10월 15일 예선 데이터 배포를 하면서 본격적으로 시작됩니다.

 

1-3. 대회 기간

 

대회 일정

 

09.28 학습 데이터 셋 배포

10.15 예선 데이터 셋 배포

10.15 ~ 10.21 예선 데이터 분석 및 보고서 작성

10.21 예선 당일

11.12 본선 데이터 셋 배포

11.12 ~ 11.17  본선 데이터 분석 및 발표 자료 작성

11.18 본선 당일

11.19 본선 발표 당일

 

학습 데이터 셋 배포는 대회가 시작되기 전 어떤 데이터로 구성이 되어 있는지 대회 진행을 하는데 감을 잡을 수 있도록 사전에 학습용 데이터 셋을 제공해주는 것입니다.

예선 데이터 셋은 예선을 위해서 분석해야 할 데이터 셋을 제공하는 것입니다. (데이터 셋 : 침해 사고 로그 json 파일)

제공받은 예선 데이터 셋을 분석하고 CSV의 각 항목에 해당하는 값을 채워야하고, 침해 사고 보고서를 작성해야 됩니다.

예선 당일 날은 작성한 CSV 파일을 제출해서 점수를 확인할 수 있는 날입니다. 총 5번의 제출 기회가 주어지며 마지막으로 접수한 CSV 파일의 점수가 최종 점수가 됩니다.

본선도 예선과 같은 과정으로 진행이 되고 차이점은 보고서 작성 대신 발표용 PPT를 작성해야 하는 점입니다. 본선은 마지막 날 작성한 PPT를 가지고 심사위원 앞에서 발표를 진행해야 합니다.

 

1-4. 평가지표

 

(예선) 탐지점수 70 % + 보고서 평가 30 %

(본선) 탐지점수 70 % + 발표 평가 30 %

 

데이터 셋 구성 - 침해사고 로그 데이터(json) + 라벨 파일(csv)

학습 셋 : 공격 이벤트 약 50건을 포함한 전체 이벤트 4만 건

예선 셋 : 공격 이벤트 약 60건을 포함한 전체 이벤트 약 12만 건

본선 셋 : 공격 이벤트 약 60건을 포함한 전체 이벤트 약 19만 건

 

1-5. 평가항목

 

No. 평가항목
1 데이터 구성의 이해
2 전반적인 침해사고 시나리오 해석 수준
3 Threat Hunting 분석 방법론 수준
4 각 이벤트에 대한 Tactic, Technique 분석 수준
5 기타 배점(독창성 등)

 

1-6. 시상내역

 

시상 내역

 

국가에서 주관하는 대회이다보니 상금규모가 꽤 큽니다.

 


 

B 트랙 Threat Hunting

 

2-1. 라벨 파일

 

라벨 파일

 

대회의 참여자들은 json 형태의 침해사고 로그가 기록된 데이터 셋과 위와 같은 형태의 라벨 파일을 제공받게 됩니다.

데이터 셋은 공격과 관련한 민감한 데이터가 포함이 되어 있기 때문에 공개 및 배포를 할 수 없도록 서약서를 작성하고 진행하게 됩니다. 따라서 라벨 파일에 대해서만 간단하게 짚고 넘어가겠습니다.

라벨 파일은 MITRE ATT&CK V7을 기준으로 각 이벤트 별로 테크넘버가 부여되어 있습니다.

참가자들은 json 파일을 분석하고 MITRE ATT&CK 테크에 맞는 이벤트 ID 값을 도출한 뒤 csv의 id 항목에 작성하면 됩니다.

 

2-2. 대회 진행에 사용한 것들

 

ELK

 

저희 팀은 ELK를 구축해서 json 데이터를 삽입한 뒤 엘라스틱 서치 쿼리 문을 작성하여 검색하는 방식으로 분석을 진행했습니다.

 

MITRE ATT&CK, Atomic Red Team

 

그리고 MITRE ATT&CK 홈페이지에서 테크 항목 별로 어떤 공격에 해당하는 테크인지, 예제는 어떤 것이 있는지 확인을 했습니다.

추가로 Atomic Red Team 깃허브 페이지도 참고하면서 대회를 진행했습니다. 특히 이 Atomic Red Team 깃허브에서 MITRE Tech에 해당하는 예제 코드들을 많이 다루고 있기 때문에 분석에 도움을 많이 받았습니다.

 

그리고 구글 Office 공유 기능을 통해 라벨 파일을 팀원들과 같이 보면서 작성하고 주어진 라벨 파일의 값 외에 ELK 작성 쿼리, 의심 후보 ID 등 셀을 추가로 만들어서 팀원 간 교차 검증을 하면서 분석을 해나갔습니다.

 

https://attack.mitre.org/

 

MITRE ATT&CK®

MITRE ATT&CK® is a globally-accessible knowledge base of adversary tactics and techniques based on real-world observations. The ATT&CK knowledge base is used as a foundation for the development of specific threat models and methodologies in the private se

attack.mitre.org

https://github.com/redcanaryco/atomic-red-team

 

GitHub - redcanaryco/atomic-red-team: Small and highly portable detection tests based on MITRE's ATT&CK.

Small and highly portable detection tests based on MITRE's ATT&CK. - GitHub - redcanaryco/atomic-red-team: Small and highly portable detection tests based on MITRE's ATT&CK.

github.com

 

 

2-3. 본선 데이터 셋 시나리오

 

본선 데이터 셋 분석 결과를 요약하면 다음과 같습니다.

침해사고는 사용자가 스피어피싱 메일을 다운로드하는 것으로부터 시작됩니다.

해당 파일은 매크로 기능이 포함된 xlsm 파일이었으며, 사용자가 xlsm 파일을 실행하자 추가로 공격자의 프로그램들이 사용자의 시스템에 설치가 됩니다.

추가로 다운로드 받은 프로그램들이 작동하게 되면서 새로운 계정도 생성되는 등 공격자는 시스템을 장악하게 됩니다.

이어서 공격자는 다른 시스템으로 넘어갈 수 있는 경유지인 공유 폴더에 접근하게 되고 공유 폴더를 통해 악성 파일이 다른 시스템으로 전파되고 결론적으로는 다수의 시스템이 랜섬웨어에 감염되는 시나리오 입니다.

 

2-4. 본선 발표 항목

 

본선 발표 항목

 

저희는 본선 발표 항목을 위와 같이 7가지로 구성을 하여 발표를 진행했습니다.

 

2-5. 대회 결과, 후기

 

본선 당일 리더보드

 

결론부터 말하자면 저희 팀은 예선 5등, 본선 1등의 성적으로 대상을 수상했습니다. (예선 성적은 본선에 영향x)

예선에서는 아무래도 대회를 처음 참여하다보니 전략같은 것이 없어 무대뽀로 답안을 제출하고 해서 5등을 했었습니다.

본선에서는 저희가 전략을 잘 짜서 막판 대역전을 통해 1등을 할 수가 있었습니다.

이 대회 당일 날 답안을 제출하는 것이 굉장히 중요한데요, 기회가 총 5번 밖에 주어지지 않기 때문에 제출을 했을 때 감점된 부분이 어디인지 정확하게 파악을 하고 수정해야 기회를 헛되이 소비하지 않을 수 있습니다.

저희 팀은 본선 분석을 진행할 때 헷갈리는 부분을 미리 다 표시를 하고, 예비 답안을 마련해두어 당일 날 틀린 부분에 대한 신속한 수정이 가능했습니다.

또 초반에 답안을 제출할 때는 가장 헷갈리는 부분만 답안을 작성하여 제출하고 점수가 저희가 예상한 것과 어느정도 일치하는 지, 경우의 수를 고려하면서 진행을 했기 때문에 마지막에 역전이 가능했던 것 같습니다.

본선 당일 날은 참 우여곡절이 많았습니다. ELK를 돌리고 있는 컴퓨터를 원격으로 켜두고 있었는데 하필 아파트 전기점검을 해서 다른 사람이 대신 집에 가서 컴퓨터를 재부팅하질 않나... 발표 자료를 작성하던 파워포인트가 다운되질 않나..

그래도 대회를 잘 마무리해서 참 다행이라고 생각이 드네요.

 

MITRE ATT&CK 말만 들어봤지 실제로는 어떤건지 잘 몰랐었는데 이번 대회를 하면서 제대로 알게 되었습니다.

침해사고 데이터를 분석할 때에는 타임스탬프와 프로세스 ID가 분석의 핵심요인이라는 것도 느끼게 되었구요.

실제 공격이 이런식으로 이루어지는구나라는 것도 알게 되어 정말 좋은 경험이 되었던 것 같습니다.

안 그래도 침해사고 쪽으로는 제가 공부를 해본 적이 없었는데 이번 기회를 통해 흥미가 좀 생긴 것 같습니다.

 

대상 수상