티스토리 뷰
[Samsung SDS Brightics] Pre-processing : 데이터 샘플링
hae._.won1 2020. 7. 28. 22:36
여러분, 안녕하세요~?
이번 포스팅에서는 Pre-processing의 두 번째 단계인 데이터 샘플링 과정을 실습 해보려고 합니다 !
https://www.brightics.ai/kr/docs/ai/s1.0/tutorials/10_py_sampling?type=insight
Brightics Studio
www.brightics.ai
지난 포스팅부터 Brightics를 활용한 튜토리얼 실습을 처음 진행해보았는데요 !
그동안 Youtube 채널 brightics TV 교육 동영상을 토대로 진행해오던 Brightics 기본 사용법 익히기 실습과 비교했을 때,
이렇게 Brightics 홈페이지 Tutorial 실습을 기반으로 진행하는 새로운 실습 컨텐츠가 여러분에게 어떻게 다가왔을지 의견이 궁금하네요 :)
개인적으로는 Brightics 서포터즈를 진행하기 전에 처음 튜토리얼을 맞닥뜨렸을 때는 낯설고 막막한 느낌이 들었었다면,
Brightics 서포터즈 활동을 진행하면서 열심히 교육 동영상을 통해 실습 과정을 따라하고 포스팅도 꾸준하게 올린 덕분인지 이제는 튜토리얼을 보면 자신감 있게 ! 씩씩하게 ! 따라해보고 싶은 의지가 드는 것 같아요 !!!
Brightics Studio와 친숙해지면서 스스로 성장해나가는 뿌듯한 시간 속에서 여러분과 그 과정을 공유할 수 있어서 영광입니다 ♥
자 ! 그러면 이제 본격적으로 [Pre-processing] Data Sampling 실습을 시작해보도록 할까요~?
■ Data Preparation
[ 10_py_sampling.csv ]
■ Data Load ( Load 함수 )
1. 데이터를 업로드 하기 위해서 Brightics 오른쪽 날개창에 위치한 Palette창의 Data탭에서 Add 버튼을 클릭한 후
Add Data 팝업창이 뜨면, 01) Select Data 단계에서 Local 버튼을 클릭합니다.
2. 자신의 Local 저장소로부터 업로드 할 데이터 파일을 선택한 후 Next 버튼을 클릭합니다.
3. 02) Set Delimiter 단계에서 데이터 업로드시 컬럼 구분자로 사용할 delimiter로 Comma(,) 를 선택하고 Next 버튼을 클릭합니다.
4. 03) Set Column Data Format 단계에서 컬럼 별로 데이터 타입이 올바르게 지정된 것을 확인하고 Finish 버튼을 클릭합니다.
5. 새로운 함수를 생성하기 위해서 원하는 Model View 공간 위치를 더블클릭한 후에
Select Function 팝업창이 뜨면, Search Functions 탭에서 Load 함수 버튼을 클릭합니다.
6. Load 함수의 경로를 지정하기 위해서 Input Path 버튼을 클릭한 후에
Setting Path 팝업창이 뜨면, 해당 데이터의 경로를 찾아 선택된 것을 확인한 후 OK 버튼을 클릭합니다.
7. 경로가 지정된 Load 함수를 실행하기 위해서 Run 버튼을 클릭하여 데이터가 정상적으로 로드 되었는지 확인합니다.
■ Modeling 1 ( Split Data 함수 )
▶▷ Split Data 함수를 사용하여 데이터를 2개의 Set 으로 분할하기 ◁◀
1. 새로운 함수를 생성하기 위해서 원하는 Model View 공간 위치를 더블클릭한 후에
Select Function 팝업창이 뜨면, Search Functions 탭에서 split data를 검색 결과로 찾은 Split Data 함수 버튼을 클릭합니다.
2. Split Data 함수의 Properties Panel에서 데이터를 지정한 비율대로 Train Set과 Test Set으로 분할하기 위해서
Train Ratio를 4, Test Ratio를 6으로 입력한 후 Seed 값을 123으로 고정하여 Run 버튼을 클릭합니다.
※ Data Set 1000개 ( 100% ) = Train Set 400개 ( 40% ) + Test Set 600개 ( 60% )
3. Input Panel의 1000개 데이터 중에서 Output Panel에 Train Set 400개 데이터가 결과로 출력됩니다.
결과화면에 출력되지 않은 Test Set도 함께 보기 위해서 Duplicate 버튼을 클릭합니다.
4. 복사된 데이터의 Chart Settings 버튼을 클릭하여 Data 탭의 DataSource로 Split Data (test_table) 를 선택합니다.
5. Output Panel에 Test Set 600개 데이터도 결과로 함께 출력됩니다.
( 상단 데이터 - 전체 데이터의 40%인 Train Set / 하단 데이터 - 전체 데이터의 60%인 Test Set )
■ Modeling 2 ( Random Sampling 함수 )
1. 새로운 함수를 생성하기 위해서 원하는 Model View 공간 위치를 더블클릭한 후에
Select Function 팝업창이 뜨면, Search Functions 탭에서 random sampling을 검색한 결과로 찾은 Random Sampling 함수 버튼을 클릭합니다.
2. Random Sampling 함수의 Duplicate 버튼을 클릭하여 복사한 Random Sampling 함수 3개를 생성합니다.
3. Load 함수의 Connect 버튼을 클릭하여 Random Sampling 함수 3개의 Input 값으로 Load 함수를 각각 연결합니다.
▶▷ Random Sampling 1 함수를 사용하여 지정한 비율만큼의 데이터 랜덤하게 추출하기 ◁◀
4. 지정한 비율만큼의 데이터를 추출하기 위해서 Random Sampling 1 함수의 Properties Panel에서
Method로 Fraction ( 비율 ) 을 선택하고 Fraction으로 0.3의 비율을 입력합니다.
또한 이미 선택된 데이터도 중복으로 추출되도록 Replacement를 True ( 복원추출 ) 로 선택하고
Seed값은 123으로 고정한 후 Run 버튼을 클릭합니다.
5. 전체 데이터 내에서 특정 비율 0.3의 데이터를 랜덤하게 복원추출한 결과가 출력됩니다.
▶▷ Random Sampling 2 함수를 사용하여 지정한 개수만큼의 데이터 랜덤하게 추출하기 ◁◀
6. 지정한 개수만큼의 데이터를 추출하기 위해서 Random Sampling 2 함수의 Properties Panel에서
Method로 Number ( 개수 ) 를 선택하고 Number로 150의 개수를 입력합니다.
또한 이미 선택된 데이터는 중복으로 추출되지 않도록 Replacement를 False ( 비복원추출 ) 로 선택하고
Seed값은 123으로 고정한 후 Run 버튼을 클릭합니다.
7. 전체 데이터 내에서 특정 개수 150개의 데이터를 랜덤하게 비복원추출한 결과가 출력됩니다.
▶▷ Random Sampling 3 함수를 사용하여 그룹 내에서 데이터 랜덤하게 추출하기 ◁◀
8. 지정한 비율만큼의 데이터를 추출하기 위해서 Random Sampling 3 함수의 Properties Panel에서
Method로 Fraction ( 비율 ) 을 선택하고 Fraction으로 0.3의 비율을 입력합니다.
또한 이미 선택된 데이터는 중복으로 추출되지 않도록 Replacement를 False ( 비복원추출 ) 로 선택하고
Seed값은 123으로 고정합니다.
9. 그룹별로 데이터를 추출하기 위해서 Group By 옵션의 컬럼값으로 GROUP을 선택하고 Run을 클릭합니다.
10. 전체 데이터 내에서 Group By 내에 지정된 컬럼의 값 별로 데이터를 랜덤하게 비복원추출한 결과가 출력됩니다.
'Samsung SDS Brightics' 카테고리의 다른 글
[Samsung SDS Brightics] Pre-processing : 결측값 처리 (2) (0) | 2020.08.02 |
---|---|
[Samsung SDS Brightics] Pre-processing : 결측값 처리 (1) (0) | 2020.08.01 |
[Samsung SDS Brightics] Pre-processing : 데이터 업로드 & 데이터 결합 (0) | 2020.07.25 |
[Samsung SDS Brightics] 미리 만들어진 Pre-built 함수로 무엇인가 부족하다면 ? 걱정하지 말고 새로운 UDF를 만들자 ! (0) | 2020.07.23 |
[Samsung SDS Brightics] 한번에 ! 한눈에 ! 관리할 수 있는 Variable 모음집 (0) | 2020.07.20 |
- Total
- Today
- Yesterday
- 분석 프로젝트
- Brightics 개인미션
- Brightics 개인 분석 프로젝트
- 한국공항공사
- Brightics Studio
- 전처리
- Brightics 분석 프로젝트
- Brightics Tutorial
- ANOVA 검정
- 이상값
- 전파누리
- Brightics 팀 분석 프로젝트
- Wifi Free
- Pre-processing
- Brightics 서포터즈
- 삼성 SDS 데이터 분석 프로젝트
- eda
- Brightics 홍보 UCC
- Public Wifi
- 데이터참쉽조
- mtcars
- 브라이틱스 스튜디오
- Brightics vs R
- 전처리 과정
- Brightics 팀미션
- 데이터 전처리
- ANOVA
- Brightics Studio 실습
- 이상값 탐지 및 제거
- 삼성 SDS 데이터 분석
- 브라이틱스
- 데이터전처리
- 결측치 처리
- Missing Value
- data analysis
- Brightics AI
- 브라이틱스 튜토리얼
- 삼성 SDS
- 결측값 처리
- Outlier Detection and Removal
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | ||||
4 | 5 | 6 | 7 | 8 | 9 | 10 |
11 | 12 | 13 | 14 | 15 | 16 | 17 |
18 | 19 | 20 | 21 | 22 | 23 | 24 |
25 | 26 | 27 | 28 | 29 | 30 | 31 |