티스토리 뷰
[Samsung SDS Brightics] Brightics 개인 분석 프로젝트, Week 6 : 분석 모델링 (1)
hae._.won1 2020. 10. 13. 22:52
여러분, 안녕하세요~?
이번 포스팅에서는 'Brightics 개인 분석 프로젝트, Week 6 : 분석모델링 (1)' 에 대해서 이야기해보려고 합니다 !!
주차 | 일정 | 순서 | 내용 |
9주차 | 9월 2일 (수) ~ 9월 8일 (화) | [ 주제선정 ] | 분석 주제 선정 및 데이터 확보, 전체 계획 수립 |
10주차 | 9월 9일 (수) ~ 9월 15일 (화) | 선행 연구 및 도메인 지식 학습, 세부 계획 수립 | |
11주차 | 9월 16일 (수) ~ 9월 22일 (화) | [ 데이터전처리 ] | 데이터 전처리 1 - 인천국제공항공사 데이터 |
12주차 | 9월 23일 (수) ~ 9월 29일 (화) | 데이터 전처리 2 - KAC 한국공항공사 데이터 | |
13주차 | 9월 30일 (수) ~ 10월 6일 (화) | 데이터 전처리 3 - 공공 WIFI 데이터 | |
14주차 | 10월 7일 (수) ~ 10월 13일 (화) | [ 분석모델링 ] | 분석 모델링 1 - 공공 WIFI 데이터 기반 |
15주차 | 10월 14일 (수) ~ 10월 20일 (화) | 분석 모델링 2 - KAC 한국공항공사 데이터 기반 | |
16주차 | 10월 21일 (수) ~ 10월 27일 (화) | 분석 모델링 3 - 인천국제공항공사 데이터 기반 | |
17주차 | 10월 28일 (수) ~ 11월 3일 (화) | [ 리포트 ] | 최종 모델링 완성 및 결과 정리 ( 리포팅 ) |
18주차 | 11월 4일 (수) ~ 11월 10일 (화) | 결과 정리 및 제출 |
미리 공지해드렸던 수정된 주차별 프로젝트 계획에 따라서 이번 포스팅도 으짜으짜 진행해보려고 하는데요 :)
지난 시간에 소개해드렸던 '공공 WIFI 데이터' 전처리 과정과 더불어
이번 시간에는 분석 모델링의 첫번째 단계도 함께 시작된다는 놀라운 사실 !!
뿐만 아니라, 데이터 시각화를 위해 '공항 Location 데이터'를 추가하기로 결정하면서
계획했던 것보다 프로젝트 진행이 조금 더 바빠질 예정이기에 부지런하게 시작해보도록 하겠습니다 !!
특히 Week 3 : 데이터전처리 (1)에서 진행되었던 ☆ 문제해결과정 (Problem - Solution) ☆ 을 복습할 수 있는
마.지.막. 데이터 수집과 로드 과정도 포함하고 있기 때문에 ~
지난 포스팅을 못 보고 오신 분들은 링크를 참고 부탁드립니당 ~ !
≫ Week 1 : 주제선정 (1)
https://haewon-world.tistory.com/22
[Samsung SDS Brightics] Brightics 개인 분석 프로젝트, Week 1 : 주제선정 (1)
여러분, 안녕하세요~? 이번 포스팅에서는 9월 2일 수요일부터 11월 10일까지 ~ 앞으로 10.주.간. 진행되는 대망의 장.기.미.션. 바로 'Brightics 개인 분석 프로젝트, Week 1 : 주제선정 (1)'에 대해서 이야�
haewon-world.tistory.com
≫ Week 2 : 주제선정 (2)
https://haewon-world.tistory.com/23
[Samsung SDS Brightics] Brightics 개인 분석 프로젝트, Week 2 : 주제선정 (2)
여러분, 안녕하세요~? 이번 포스팅에서는 'Brightics 개인 분석 프로젝트, Week 2 : 주제선정 (2)'에 대해서 이야기해보려고 합니다 !! 먼저, 지난 시간에 9월 2일 수요일부터 11월 10일 화요일까지 ~ 10주�
haewon-world.tistory.com
≫ Week 3 : 데이터전처리 (1)
https://haewon-world.tistory.com/24
[Samsung SDS Brightics] Brightics 개인 분석 프로젝트, Week 3 : 데이터전처리 (1)
여러분, 안녕하세요~? 이번 포스팅에서는 'Brightics 개인 분석 프로젝트, Week 3 : 데이터전처리 (1)' 에 대해서 이야기해보려고 합니다 !! 주차 일정 순서 내용 9주차 9월 2일 (수) ~ 9월 8일 (화) [ 주제��
haewon-world.tistory.com
≫ Week 4 : 데이터전처리 (2)
https://haewon-world.tistory.com/25
[Samsung SDS Brightics] Brightics 개인 분석 프로젝트, Week 4 : 데이터 전처리 (2)
여러분, 안녕하세요~? 이번 포스팅에서는 'Brightics 개인 분석 프로젝트, Week 4 : 데이터전처리 (2)' 에 대해서 이야기해보려고 합니다 !! 주차 일정 순서 내용 9주차 9월 2일 (수) ~ 9월 8일 (화) [ 주제
haewon-world.tistory.com
≫ Week 5 : 데이터전처리 (3)
https://haewon-world.tistory.com/26
[Samsung SDS Brightics] Brightics 개인 분석 프로젝트, Week 5 : 데이터 전처리 (3)
여러분, 안녕하세요~? 이번 포스팅에서는 'Brightics 개인 분석 프로젝트, Week 5 : 데이터전처리 (3)' 에 대해서 이야기해보려고 합니다 !! 주차 일정 순서 내용 9주차 9월 2일 (수) ~ 9월 8일 (화) [ 주제
haewon-world.tistory.com
◆ 데이터 전처리 3 - 공공 WIFI 데이터 ◆
* 지난 포스팅에 이어서 !
▣ 데이터 수집 과정 - How to Collect ?
공공 와이파이 데이터를 수집하기 위해 문의를 남겼던 전파누리에서 받은 답변을 통해서
'서울시 공공와이파이 정보', '와이파이프리', '공공데이터 포털' 이렇게 세 곳으로부터 데이터를 얻을 수 있다는 정보를 알 수 있었는데요 !
공공 와이파이 데이터 분석의 목적은 결국 'AirFi - Thru' 프로젝트에서 공항 와이파이 분석을 수행하기 위한 것이기 때문에
우리나라 공항이 분포되어 있는 전국 공공 와이파이 데이터셋이 필요하다는 점에서 첫 번째 출처인 '서울시 공공와이파이 정보'를 제외하고 두 번째 '와이파이프리'와 세 번째 '공공데이터 포털' 홈페이지의 탐색을 진행했습니다.
- 와이파이프리 -
공공와이파이
시군구 선택 시군구 선택
wififree.kr
와이파이프리 홈페이지의 메인화면에 있는 '오픈 API 서비스'를 클릭하면 공공 와이파이 관련 오픈 API와 DB를 쉽게 다운로드 받을 수 있었는데요 !
홈페이지의 이름만 들었을 때 공공 와이파이 데이터를 구할 수 있을 것 같다는 강한 예감에
기분 좋게 ~ 오픈 API를 신청하여 인증키도 발급받았고, 파일데이터 DB도 다운로드 받아서 진행해보았는데 !
안타깝게도 데이터 전처리를 진행하는 과정 중 치명적인 오류를 발견하여 결국 다른 데이터셋을 사용하기로 결정했다는 슬픈 소식입니다 ... ㅠㅠ
- 공공데이터 포털 -
https://www.data.go.kr/data/15013116/standard.do
공공데이터 포털
국가에서 보유하고 있는 다양한 데이터를『공공데이터의 제공 및 이용 활성화에 관한 법률(제11956호)』에 따라 개방하여 국민들이 보다 쉽고 용이하게 공유•활용할 수 있도록 공공데이터(Datase
www.data.go.kr
너의 사랑 나의 사랑 ♥ 공공데이터 포털 ♥
전파누리에서 알려주었던 첫 번째 출처였던 서울시 공공 와이파이 데이터 뿐만 아니라 전국의 데이터 목록이 통합되어 있고, 수정일도 2020년 10월 6일로 따끈따끈한 최근 데이터셋을 드디어 구할 수 있었습니다 !!
와이파이프리 데이터와 공공데이터 포털 데이터를 마지막까지 고민고민하다가 와이파이프리 데이터로 전처리를 진행했었는데, 처음부터 공공데이터 포털 데이터를 선택했다면 이번 한 주가 조금 덜 바쁘지 않았을까 하는 아쉬움이 들지만 ... ^^ ;;;
시행착오가 있었던 것만큼 보다 더 의미있는 분석 모델링이 나올 것을 기대하면서 공공데이터 포털에서 앞서 말씀드렸던 '공항 위치정보 데이터'도 추가적으로 수집하기로 결정 ~~~ !
◆ 데이터 전처리 4 - 공항 Location 데이터 ◆
▣ 데이터 수집 과정 - How to Collect ?
https://www.data.go.kr/data/15002851/fileData.do
공공데이터 포털
국가에서 보유하고 있는 다양한 데이터를『공공데이터의 제공 및 이용 활성화에 관한 법률(제11956호)』에 따라 개방하여 국민들이 보다 쉽고 용이하게 공유•활용할 수 있도록 공공데이터(Datase
www.data.go.kr
최종 모델링과 리포트 작성을 위한 데이터 시각화 부분을 위해 좋은 보조자료가 될 것 같다는 생각이 들어서 공항 위치정보 데이터도 추가적으로 공공데이터 포털에서 다운로드를 완료했답니다 !
다행히 KAC 한국공항공사 데이터를 수집할 때 눈여겨보았던 데이터 중 하나여서 바로 작업할 수 있었어요 ~ ㅎㅎ
◆ 데이터 전처리 3 - 공공 WIFI 데이터 ◆
▣ 데이터 로드 과정 - How to Load ?
1. Project View에서 AirFi - Thru 프로젝트에 새로운 WIFI_model 모델을 생성합니다.
2. Model View에서 화면 오른쪽 날개창에 위치한 Palette의 Data 탭을 통해, Add Data 팝업창이 뜨면 수집한 CSV 파일 데이터를 업로드합니다.
※ Problem (1) - 파일 이름 오류가 뜨면 ???
※ Solution (1) - 파일 이름을 영어로 바꾸어 저장합니다.
※ Problem (2) - 파일 데이터 형식이 깨져서 이상한 문자가 나타나면 ???
※ Solution (2) - CSV 파일의 인코딩 형식을 UTF-8 (with BOM) 로 바꾸어 저장합니다.
※ Problem (4) - 이것저것 다 했는데도 파일 업로드에 실패하면 ???
※ Solution (4) - CSV 파일 내용 자체의 문제일 가능성이 크기 때문에 원본 파일을 수정합니다.
※ Problem (4 - ①) - CSV 파일의 큰 따옴표 (") 기호 없애기 ???
※ Solution (4 - ① - ⓐ) - CSV 파일을 텍스트 프로그램으로 실행하여 Replace 기능을 이용하여 Find what에 큰 따옴표 ("), Replace with에 'delete' (구분 가능한 문자) 를 입력한 후 Replace All 버튼을 클릭하여 전체 적용합니다.
( 큰 따옴표의 경우 텍스트 프로그램을 실행했을 때에만 나타나기 때문에 엑셀 프로그램을 실행했을 때에 작업을 처리할 수 있도록 구분 가능한 문자로 대체합니다. )
※ Solution (4 - ① - ⓑ) - CSV 파일을 엑셀 프로그램을 실행하여 앞서 텍스트 프로그램에서 큰 따옴표 대신에 추가한 구분 가능한 문자로 구성된 셀을 모두 찾고, 시트 행 삭제 기능을 통해서 해당 문자가 포함된 행을 제거합니다.
3. Select Function 팝업창이 뜨면 Load 함수를 생성합니다.
4. Load(WIFI_Loc) 함수의 경로를 업로드한 해당 CSV 파일로 지정하고 Run 버튼을 클릭하여 함수를 실행합니다.
◆ 데이터 전처리 4 - 공항 Location 데이터 ◆
▣ 데이터 로드 과정 - How to Load ?
5. 동일한 방법으로 Model View에서 화면 오른쪽 날개창에 위치한 Palette의 Data 탭을 통해, Add Data 팝업창이 뜨면 수집한 CSV 파일 데이터를 업로드합니다.
※ Problem (3) - 컬럼 이름 오류가 뜨면 ???
※ Solution (3) - 특수문자인 괄호 ()가 포함된 컬럼 이름을 변경합니다.
6. Select Function 팝업창이 뜨면 Load 함수를 생성합니다.
7. Load(Airport_Loc) 함수의 경로를 업로드한 해당 CSV 파일로 지정하고 Run 버튼을 클릭하여 함수를 실행합니다.
◆ 분석 모델링 1 - 공항 Location 데이터 ◆
8. Select Function 팝업창이 뜨면 Create Table 함수를 생성합니다.
9. Load(Airport_Loc) 함수에 업로드된 한국공항공사 공항 Location 데이터에 포함되어 있지 않은 인천국제공항 Location 데이터를 생성하기 위해서, 인천국제공항의 행정구역주소와 위도/경도 위치를 검색한 후 Create Table 팝업창에 해당 데이터를 형식에 맞게 입력합니다.
10. 한국공항공사 공항 Location 데이터와 동일하게 공항명, 행정구역, 위도, 경도 컬럼이 입력된 것을 확인한 후 Run 버튼을 클릭하여 함수를 실행합니다.
11. Select Function 팝업창이 뜨면 Bind Row Column 함수를 생성하고, Load(Airport_Loc) 함수와 Create Table 함수를 각각 Bind Row Column 함수의 input으로 연결합니다.
12. Bind Row Column 함수의 Inputs 옵션으로 Load(Airport_Loc) 함수와 Create Table 함수가 연결된 것을 확인하고 Row or Column 옵션을 Row로 선택한 후에 Run 버튼을 클릭하여 함수를 실행합니다.
KAC 한국공항공사 데이터에 인천공항 데이터가 추가된 총 15개 공항의 데이터가 통합된 결과가 출력됩니다.
13. Pop up Chart 버튼을 클릭하여 함수의 실행 결과를 큰 화면으로 살펴본 후 Chart Settings의 Data 탭에서 Chart Type을 Map, Map Type을 world.json으로 설정하여 세계 지도 모양으로 데이터를 시각화합니다.
14. Chart Settings의 Layers 탭에서 Latitude를 위도, Longtitude를 경도, Color By를 공항명, Size By를 Count(공항명)으로 설정하여 공항별로 색깔이 구분되어 공항 위치 데이터의 위도와 경도를 지도에 표시합니다.
15. Chart Settings의 Map Style 탭에서 지도가 실행되었을 때의 중심 위치와 화면 비율을 설정하기 위해서 Center View-Port의 longtitude와 latitude를 구글에서 한국의 경도와 위도를 검색했을 때 나오는 127.7669와 35.9078로 설정하고, Chart Zoom의 size를 30으로 설정하여 보여지도록 합니다.
16. Select Function 팝업창이 뜨면 Unload 함수를 생성합니다.
17. Upload 함수의 경로를 설정하고 Unload mode 옵션으로 Overwrite를 선택한 후에 Run 버튼을 클릭하여 함수를 실행합니다.
[ 주제선정 ] → [ 데이터전처리 ] → [ 분석모델링 ] → [ 리포트 ]
Brightics의 개인 분석 프로젝트 미션 6주차 : 분석모델링 1탄은 여기까지 ~ ! ★☆★
새롭게 추가하기로 결정한 공항 Location 데이터의 전처리와 분석 모델링을 진행하느라 원래 계획했었던 공공 WIFI 데이터의 전처리와 분석 모델링을 다음 포스팅까지 이어서 작업하게 되었지만, 그래도 우여곡절 끝에 분석 모델링 과정을 시작하게 되어서 개인적으로는 다행이라고 생각합니다 ... ! ㅎㅎ
휴우 ... 이제 진짜 진짜 데이터 수집과 로드 과정 끄으으으읕~!~!~!
그러면 ~ 다음 포스팅에서는 분석모델링 2탄으로 다른 실제 데이터를 분석해보는 시간을 가지겠습니다 !
감사합니다 :)
'Samsung SDS Brightics' 카테고리의 다른 글
- Total
- Today
- Yesterday
- Pre-processing
- ANOVA 검정
- 삼성 SDS
- ANOVA
- 브라이틱스
- Wifi Free
- 이상값
- Missing Value
- 분석 프로젝트
- Brightics Studio 실습
- Brightics 개인미션
- 삼성 SDS 데이터 분석 프로젝트
- Brightics 홍보 UCC
- Brightics 개인 분석 프로젝트
- mtcars
- 삼성 SDS 데이터 분석
- 데이터 전처리
- Outlier Detection and Removal
- 데이터전처리
- 결측치 처리
- data analysis
- Brightics 팀 분석 프로젝트
- Brightics vs R
- Brightics 서포터즈
- Brightics 팀미션
- Brightics AI
- 전파누리
- Brightics Studio
- 브라이틱스 스튜디오
- 전처리
- Brightics Tutorial
- 데이터참쉽조
- 브라이틱스 튜토리얼
- 이상값 탐지 및 제거
- Brightics 분석 프로젝트
- Public Wifi
- 결측값 처리
- eda
- 한국공항공사
- 전처리 과정
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | ||||
4 | 5 | 6 | 7 | 8 | 9 | 10 |
11 | 12 | 13 | 14 | 15 | 16 | 17 |
18 | 19 | 20 | 21 | 22 | 23 | 24 |
25 | 26 | 27 | 28 | 29 | 30 | 31 |