[DAY 2] 빅데이터 이해하기 & 데이터 리터러시 함양하기 - 오수은 강사님
1. Why Data Driven is Important
- 기존의 업무 프로세스와 Digital Transformation 등의 모든 것을 융합하기 위해서 Big Data가 강력한 enabler로 작용
- 데이터 드리븐(Data Driven) : 데이터를 기반으로 의사결정 하는 것
- 데이터로 유의미한 인사이트를 도출하고 이를 필요한 곳에 반영하는 일련의 과정은 일회적이지 않고, 계속 맞물리면서 수정, 보완된다.
- 데이터 드리븐은 굳이 어려운 머신러닝 전문용어나 기술로서만 얻어지는 건 아니다!
- tip1 : 평소 관심분야의 관련 뉴스기사를 분석해볼 것(모델관점/비즈니스 관점으로 두 번 보기)
위의 예시에서, 스캔앤다이브 섬유 원사의 굵기, 마모도, 직조방법 → multiclass classification 피노랩 음식 매칭 알고리즘 탑재 → 학습데이터로 활용 매장 추천 → 실시간 데이터 확보 필요 와인 라벨 촬영 → 이미지 인식 모델 필요 |
- tip2 : 기업 공고 속 요구 자격과 역량 등을 분석해보기
2. Since when is data driven important How long will it be important
- 빅데이터로부터 Actionable Insight를 발굴하는 것이 가치창출의 핵심
- 23년도 Analytics 방향
- 떠오르는 AI: ChatGPT와 Generative AI는 AI Trend의 선두주자. 이에 맞게 기업 운영방식을 변화시킬 것 - AI 리스크 관리: 새로운 윤리적 문제, 리스크들이 떠오름. 책임감 있게 관행으로 이끌어나갈 방법을 모색할 필요가 생김 ex) chat-GPT에 기업의 보안 소스를 올리는 것에 대한 규제 생성 등 - ChatGPT의 등장으로 검색 시장은 이용자의 '검색 생성 경험' 제공에 집중 - 생성AI 플러그인 생태계의 출현 |
3. What's going to on with the data
- 데이터 Analyst : 프로덕트 분석가, 비즈니스 분석가, 퍼포먼스 마케터, CRM 마케터, 데이터 사이언티스트 등
4. What competencies do you need / What do you need to prepare from now on
- 프로그래밍, 통계, (ML/DL), communication skill, Domain knowledge 등
[DAY 3] 실무 엑셀 데이터 분석 - 이동훈 강사님
CH01 이것만 알면 되는 엑셀 기초
- 엑셀의 기본참조는 상대참조
- 절대참조는 F4키를 눌러서 행,열을 잠가주는 것(주로 함수에 들어가게 되는 범위는 절대참조)
- 혼합참조는 F4키를 여러번 눌러 행 또는 열만 잠가주는 것
- 빠른 실행 도구모음 (Alt + 숫자)
- 행숨기기 ctrl+9 , 취소 ctrl+shift+9
- 열숨기기 ctrl+0 , 취소는 마우스로
- 틀고정 : 선택영역의 상위가 틀고정됨
- 병합하고 가운데 맞춤 : 지양(복사 붙여넣기도 안되고, 서식을 자주 깬다)
* 표시형식의 이해와 활용
- 사용자 지정 기호 : #, 0 , @, ,
- 숫자 데이터의 계산도 필요한데, 문자데이터처럼 서식이 필요할 때
- 셀 선택 후 CTRL+1 누르면 '표시형식' 지정가능
CH02 반드시 알아야 할 엑셀함수
- CTRL과 SHIFT를 이용해서 더미 값을 채운 후 합계 평균 채우기
- COUNT(),COUNTA(),COUNTBLANK(),COUNTIFS(범위, "조건") -함수의 조건으로 쓰이는 인수는 "" 잊지 말기
- IF함수의 목적: 데이터 분류, IF함수를 N번 중첩하면 데이터는 N+1개로 분류
- 엑셀의 꽃 VLOOKUP
- 공통 기준열(1)로부터 일정 거리(N) 떨어진 정보를 찾아오는 함수 - 공통 기준열이 찾는 데이터보다 왼쪽에 존재(찾는 범위의 가장 첫 열이 공통기준열)해야하며, 중복값이 없어야함 =VLOOKUP(찾을 데이터, 범위(공통기준열부터~), 불러올 데이터의 열번호, 0(정확히 일치할 때만, 디폴트가 1이니까 꼭 0 쓰기)) =MATCH(찾고 싶은 값, 범위(단일 행 또는 단일 열), 정확히 일치여부) - 찾을 범위 지정 시 새로운 데이터(행) 추가가능성이 농후한 경우에는 열 자체로 범위지정 EX) 신입사원 입사 - 함수인수에 하드코딩이 되어있는건 데이터의 변화를 반영하지 못하기 때문에 잘 사용되는게 아니다 - 중복값이 있을 때 : 순번+이름 등으로 중복 값이 없는 새로운 기준 열을 생성해서 사용 - VLOOKUP과 MATCH함수를 같이 쓰려고 할때는 한단계씩 차근차근!(먼저 하드코딩으로 VLOOKUP작성 뒤 치환) - INDEX함수 : 특정 범위에서 행번호와 열번호로 원하는 데이터를 불러옴->MATCH함수와 궁합이 좋음! - VLOOKUP으로 불러올 수 없는 경우(공통 기준열의 왼쪽에 데이터가 있을 때)는 INDEX&MATCH함수 활용! - 공유 데이터의 경우 내가 임의로 열의 순서를 변경하기 어렵기 때문에 INDEX함수를 쓰면 되는데, 그렇지 않은 경우에는 VLOOKUP을 쓸 수 있도록 세팅을 해서 사용하길 권장! |
- SUMIF(S)함수 : 특정 조건에 맞는 데이터들의 합계 계산, CROSSTABLE의 합계란 채우기
- =SUMIF(S)(더할 값들의 범위, 더할 조건들의 범위1, "조건1", ... )
- SUMPRODUCT함수 : 베열의 인자끼리 곱하여 곱들의 합계 계산
- 논리곱 : TRUE * TRUE 만 TRUE
- 위의 두 개념을 결합하여 사용(조건들은 *로 연결 후 마지막에 합계가 적용될 인수전에 , 사용)
= SUMPRODUCT((조건범위1 = 조건1)*(조건범위2 = 조건2), 합계범위)
- SUMIFS와 SUMPRODUCT는 1:1 대체가 가능하다(더 손에 익는 걸로 사용) - IFERROR함수 : 오류값 처리하기(보수적으로 작성하는 방법: 확인요망~)
- 텍스트처리함수
= FIND(찾을 텍스트, 긴텍스트,[찾기 시작할 위치]) 함수 ; 띄어쓰기 포함 대소문자 구분 / 없으면 오류(에러처리가능)
= SEARCH함수 : FIND와 같은데 대소문자를 구분하지 않음
- 키워드를 설정하고, COUNTIFS(,">0")와 함께 해당 키워드가 언급된 정도를 확인가능!
= LEFT(전체 텍스트, 불러올 문자열수)함수 & RIGHT함수(")
= MID(전체 텍스트, 불러올 문자열 시작 위치, 문자열 수)
- FIND/SEARCH함수를 활용해서 LEFT/RIGHT/MID 함수의 위치에 적용!(가변적인 글자수에 대응가능) - 날짜처리함수
- 날짜 데이터는 -(하이픈)으로 연결한 게 정석이다.
- 날짜 데이터가 4~5자리 숫자로 나오는 경우 서식을 날짜로 바꿔주면 대부분 해결됨
- 날짜 데이터의 계산 : 종료일이 포함되어야 하는 경우(EX. 프로젝트기간) 차이에 +1
=DAYS함수, DATEDIF(시작일, 종료일, 형식)함수
=YEAR/MONTH/DAY 함수 : 데이터 추출!
=NETWORKDAYS.INTL(시작일, 종료일,[주말],[휴무일]) : 근무 일정표 작성하기
CH03 알면 편해지는 엑셀기능
- 피벗 테이블 : 기능이 어려운 게 아니라 명확히 무엇을 만들지를 아는 게 중요한 것
- 삽입 > 피벗테이블 / 피벗테이블은 가공이 되지 않은 RAW DATA에 적용하는 게 좋다 - 텍스트 나누기로 데이터 분리하기 : 데이터>텍스트 나누기
- 복사/붙여넣기를 이용해서 원본 데이터의 손실을 막기(선택된 영역부터 데이터가 채워지므로)
- 나뉜 걸 다시 합치는건 &를 이용해서 간단하게 가능 - 중복된 항목 제거하기 : 데이터>중복된 항목 제거
- 해당되는 조건의 첫행만 남기고 나머지 중복항목은 제거
- 중복된 항목을 제거해도 된다는 전제하에 써야하는 기능
- 항목별로 어떤 값이 있는지 한눈에 보고 싶을 때도 사용가능(VLOOKUP의 행 드래그로 보는 것이 더 간단하기는 함) - 필터와 고급필터 :
- 단축키 : ALT D F F
- 고급필터 조건을 한행에 쓰면 AND 조건, 여러행에 TABLE로 쓰면 OR조건 - 데이터 유효성 검사로 데이터 입력 제한 : 셀이나 범위에 상황에 따라 내가 유효하다고 인정하는 데이터만 입력되게 하는 기능
- 범위 선택>데이터>데이터 유효성 검사>[제한 대상], [제한 방법] 지정
- 다시 범위 선택>데이터 유효성 검사>잘못된 데이터 체크!
- [제한 대상]을 목록으로 지정하는 방법을 가장 많이 씀!!
CH04 멋진 자료 작성에 필요한 엑셀 시각화
- 차트 작성하기
* 막대형
- 삽입>차트>원하는 차트 선택
- 데이터 범위 선택시 꼭 레이블을 포함하도록
- 깔끔한 차트 작성 TIP : 윤곽선 제거!
- 원하는 항목만 뽑아서 누적 막대 그래프를 그리려면 CTRL누른 채로 영역 선택하기
* 꺾은선형
- 표식이 없는 차트로 만든 뒤에
- 그래프 선택 후 데이터 계열서식 > 선은 2pt >
- 표식옵션은 원형 7pt > 채우기는 흰색 > 실선은 1.5pt
- 누적 영역형으로 너비 비교 차트도 활용해보기
* 원형
- 데이터 강조하는 방법 : 한 영역만 선택 > 데이터 요소서식 > 쪼개진 요소 10~20%
- 첫째 조각의 각 회전도 가능(45 정도 하니까 안정적)
* 콤보형(혼합형)
- 변경할 데이터 선택 후 우클릭 > 계열차트종류변경
- 단위가 다른경우 보조축 넣기
* 거품형
- 먼저 빈 차트를 생성 후 [데이터 선택]에서 데이터를 입력하는 것이 효율적!
* 폭포형
- 숫자의 증감을 막대 그래프로 표현
- 요소마다 다른 색 적용도 가능
- 조건부 서식 사용하기(홈>조건부서식>규칙관리)
- 조건부서식이 적용될 영역만 드래그하여 적용하기(행 레이블에도 적용하고 싶다면 같이 포함시켜서)
* 2가지 색조, 데이터 막대, 아이콘 집합(지표관리)
- 무조건 기준이 데이터의 최대 최소일 필요는 없다
- 다만 값을 임의로 조정했다면 의도를 정확히 밝혀야 한다(데이터의 성격에 따라)
- 아이콘 집합은 아이콘만 표시도 가능
* 다음을 포함하는 셀만 서식 지정(like IF함수)
- 조건에 = 붙이기
* 상위 또는 하위 값만 서식 지정
* 평균보다 크거나 작은 값만 서식 지정
* 고유 또는 중복 값만 서식 지정
- 후에 색필터를 적용한다든지 해서 중복값에만 빠른 처리를 해준다든지 적용 가능!
* 수식을 사용하여 서식을 지정할 셀 결정
- 상대참조 신경쓰기
- 순위를 기준으로 다양한 필터 적용예제(2이상 5이하는 AND함수 적용)
- 스파크 라인 활용하기
- 연속된 셀들의 데이터들을 한 셀에 그래프로 나타내 주는 기능
- 한눈에 가볍게 많은 데이터 행의 추세를 보고 싶을 때
[DAY 4-5] 실무 엑셀 데이터 분석& 기초 수학/통계 시작하기 - 이동훈 강사님
1. 기초엑셀
- 천자리 입력 단축키 : CTRL+SHIFT+1
- 행열 선택 SHIFT + ENTER , CTRL + ENTER
- 행열 추가 CTRL +,-
- 병합대신 서식 바꾸는 방법 : 영역 선택 후 CTRL + 1
2. EDA
- 데이터 분석 사용시 꼭 열이름을 같이 잡고 첫째 행 이름표 사용 체크
- 평균보다 중앙값이 이상치에 강건하다(ROBUST)
- 데이터에 대해 합계, 평균, 최대, 최소 정도는 그래도 알자!
- 피벗 테이블 : RAW DATA가 어느정도 정리된 형태라면, 데이터 내 어딘가에만 클릭을 해 둔채로 > 삽입 > 제일 첫 번째에 있는 피벗테이블
- 피벗테이블에서 제일 중요한 것은 행, 열, 값을 결정하는 것이 거의 90%
'패스트캠퍼스 학습일지' 카테고리의 다른 글
[패스트캠퍼스 DA 부트캠프 11기]7주차 학습 (0) | 2023.12.07 |
---|---|
[패스트캠퍼스 DA 부트캠프 11기]6주차 학습 (1) | 2023.11.30 |
[패스트캠퍼스 DA 부트캠프 11기]4주차 학습 (0) | 2023.11.17 |
[패스트캠퍼스 DA 부트캠프 11기]3주차 학습 (3) | 2023.11.09 |
[패스트캠퍼스 DA 부트캠프 11기]2주차 학습 (1) | 2023.11.03 |