티스토리 뷰
[Samsung SDS Brightics] Pre-processing : 이상값 탐지 및 제거 (2)
hae._.won1 2020. 8. 4. 01:40
여러분, 안녕하세요~?
이번 포스팅에서는 Pre-procesing의 네 번째 단계인 이상값 탐지 및 제거 (2) 과정을 이어서 실습 해보려고 합니다 !
지난 포스팅에서 데이터 전처리 과정이 필요한 이유 중 또 다른 하나인 이상값 ( Outlier ) 에 대해서 알아보면서,
이상값의 첫 번째 탐지 방법 ! Tukey 방법 실습을 진행 해보았는데요 ~
이번 포스팅에서는 두 번째 탐지 방법 ! Local Outlier Factor 방법을 알아보려고 합니다 !
지난 시간과 이번 시간 두 시간에 걸쳐서 학습하니만큼 전처리 과정에서 이상값 처리 또한 ★ 매우 중요 ★ 하기 때문에,
지난 포스팅과 이번 포스팅을 꼼꼼하게 비교해보면서 학습하는 것을 추천드립니다 :)
https://haewon-world.tistory.com/16
[Samsung SDS Brightics] Pre-processing : 이상값 탐지 및 제거 (1)
여러분, 안녕하세요~? 이번 포스팅에서는 Pre-processing의 네 번째 단계인 이상값 탐지 및 제거 (1) 과정을 실습 해보려고 합니다 ! 데이터 전처리 과정에서 결측값 ( Missing Value ) 처리와 더불어 가장
haewon-world.tistory.com
이상값을 탐지하는 대표적인 방법 두 번째 ! Local Outlier Factor 방법이란,
데이터의 밀도를 고려한 Local Outlier Factor ( LOF ) 값을 기반으로 이상값을 정의합니다.
즉, 주변 데이터의 분포에 비해서 간격이 넓고 밀도가 낮은 데이터를 이상값으로 표현합니다.
Tukey, Local Outlier Factor 등 다른 방법으로 이상값을 탐지하는 경우 다른 결과가 나타날 수 있으며,
방법마다 각각의 장단점이 존재하기 때문에 유의하여 사용해야합니다 !
자 ! 그러면 이제 본격적으로 [Pre-processing] Outlier Detection and Removal (2) Local Outlier Factor 실습을 시작해보도록 할까요~?
■ Data Preparation
[ 201_py_outlier_detection_lof.csv ]
[ 201_py_outlier_detection_lof_test.csv ]
■ Data Load ( Load 함수 )
1. Load 함수의 경로를 업로드한 데이터인 201_py_outlier_detection_lof 로 지정하여 실행한 결과와 데이터 분포를 동시에 알아보기 위해서 Duplicate 버튼과 Chart Settings 버튼을 클릭합니다.
2. Chart Settings에서 Chart Type을 Scatter plot로 선택하고, X-axis를 Longitude로, Y-axis를 Latitude로 설정합니다.
3. Load 함수의 Scatter Plot 차트의 결과를 통해 낙뢰 관측 분포를 확인할 수 있습니다.
■ Pre-processing ( Filter 함수 )
1. 새로운 함수를 생성하기 위해서 Select Function 팝업창이 뜨면, Filter 함수 버튼을 클릭합니다.
2. Filter 함수에서 낙뢰강도가 0이 아닌 행만 선택하여 분석하기 위해서
Filter 팝업창이 뜨면, Condition 옵션에서 And를 선택하고 Value != 0 조건을 설정한 후 Run 버튼을 클릭합니다.
3. Filter 함수의 실행 결과 Value 변수에서 0인 행이 제거된 것을 확인할 수 있습니다.
■ Modeling ( Outlier Detection (Local Outlier Factor) 함수 )
▶▷ Outlier Detection (Local Outlier Factor) 함수를 사용하여 공간 데이터의 Outlier을 확인하고 제거하기 ◁◀
1. 새로운 함수를 생성하기 위해서 Select Function 팝업창이 뜨면, Outlier Detection (Local Outlier Factor) 함수 버튼을 클릭합니다.
2. Outlier Detection (Local Outlier Factor) 함수에서 Local Outlier Factor 방법으로 이상값을 제거하기 위해
Input Columns로 Latitude와 Longitude를 선택하고, Number of Neighbors로 20을 입력하고, Result로 Remove Outliers를 선택한 후 Run 버튼을 클릭합니다.
3. Outlier Detection (Local Outlier Factor) 함수의 실행 결과 데이터 분포를 시각화하기 위해 Chart Settings를 클릭합니다.
4. Chart Settings에서 Chart Type을 Scatter plot로 선택하고, X-axis를 Longitude로, Y-axis를 Latitude로 설정합니다.
5. Outlier Detection (Local Outlier Factor) 함수의 Scatter Plot 차트의 결과를 통해 데이터 2145개 행 중 제거된 194개의 행에 따라 낙뢰 관측 데이터 분포가 달라진 것을 확인할 수 있습니다.
■ Evaluation
1. Load (test) 함수의 경로를 업로드한 테스트 데이터인 201_py_outlier_detection_lof_test 로 지정하여 실행한 후
Chart Settings에서 Chart Type을 Scatter plot로 선택하고, X-axis를 Longitude로, Y-axis를 Latitude로 설정합니다.
2. Load (test) 함수의 Scatter Plot 차트의 결과를 통해 테스트 데이터의 낙뢰 관측 분포를 확인할 수 있습니다.
3. Filter (test) 함수에서 낙뢰강도가 0이 아닌 행만 선택하여 분석하기 위해서
Filter 팝업창이 뜨면, Condition 옵션에서 And를 선택하고 Value != 0 조건을 설정한 후 Run 버튼을 클릭합니다.
4. Filter (test) 함수의 실행 결과 Value 변수에서 0인 행이 제거된 것을 확인할 수 있습니다.
▶▷ Outlier Detection (Local Outlier Factor) Model 함수를 사용하여 공간 데이터의 Outlier을 확인하고 제거하기 ◁◀
5. 새로운 함수를 생성하기 위해서 Select Function 팝업창이 뜨면, Outlier Detection (Local Outlier Factor) Model 함수 버튼을 클릭합니다.
6. Outlier Detection (Local Outlier Factor) Model 함수의 Input table로 Filter (test) 함수, Input model로 Outlier Detection (Local Outlier Factor) 함수를 연결하여 Run 버튼을 클릭합니다.
7. Outlier Detection (Local Outlier Factor) Model 함수의 실행 결과 테스트 데이터 분포를 시각화하기 위해
Chart Settings에서 Chart Type을 Scatter plot로 선택하고, X-axis를 Longitude로, Y-axis를 Latitude로 설정합니다.
8. Outlier Detection (Local Outlier Factor) Model 함수의 Scatter Plot 차트의 결과를 통해 테스트 데이터 16개 행 중 제거된 194개의 행에 따라 낙뢰 관측 데이터 분포가 달라진 것을 확인할 수 있습니다.
지금까지 ~ 전처리 - 이상값 탐지 및 제거(2) Local Outlier Factor 방법 활용 튜토리얼 실습이었습니다 !
※ Tutorial → [ Pre-processing ] Outlier Detection and Removal (2)
감사합니다 :)
https://www.brightics.ai/kr/docs/ai/s1.0/tutorials/201_py_outlier_detection_lof?type=insight
Brightics Studio
www.brightics.ai
'Samsung SDS Brightics' 카테고리의 다른 글
[Samsung SDS Brightics] EDA : 모집단이 한두개일 때 평균 비교 분석하기 → T-Test (0) | 2020.08.12 |
---|---|
[Samsung SDS Brightics] EDA : 모집단이 여러개일 때 평균 비교 분석하기 → ANOVA와 사후검정 (0) | 2020.08.11 |
[Samsung SDS Brightics] Pre-processing : 이상값 탐지 및 제거 (1) (0) | 2020.08.03 |
[Samsung SDS Brightics] Pre-processing : 결측값 처리 (2) (0) | 2020.08.02 |
[Samsung SDS Brightics] Pre-processing : 결측값 처리 (1) (0) | 2020.08.01 |
- Total
- Today
- Yesterday
- 전처리
- Brightics 개인 분석 프로젝트
- Pre-processing
- Outlier Detection and Removal
- Missing Value
- 데이터전처리
- Public Wifi
- 데이터참쉽조
- 전파누리
- 데이터 전처리
- 결측값 처리
- 분석 프로젝트
- Brightics 홍보 UCC
- Wifi Free
- 삼성 SDS 데이터 분석
- eda
- Brightics Studio 실습
- 이상값
- Brightics Tutorial
- 브라이틱스 튜토리얼
- 브라이틱스
- 전처리 과정
- Brightics AI
- Brightics vs R
- ANOVA
- 브라이틱스 스튜디오
- 삼성 SDS
- Brightics 팀 분석 프로젝트
- Brightics 서포터즈
- 이상값 탐지 및 제거
- 삼성 SDS 데이터 분석 프로젝트
- mtcars
- 결측치 처리
- Brightics 분석 프로젝트
- Brightics 개인미션
- Brightics Studio
- Brightics 팀미션
- 한국공항공사
- data analysis
- ANOVA 검정
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | ||||
4 | 5 | 6 | 7 | 8 | 9 | 10 |
11 | 12 | 13 | 14 | 15 | 16 | 17 |
18 | 19 | 20 | 21 | 22 | 23 | 24 |
25 | 26 | 27 | 28 | 29 | 30 | 31 |