본문 바로가기

분류 전체보기

(102)
확률 변수 & 분포 확률변수(Random Variable) 머신러닝과 딥러닝, 통계학을 사용하는 데 있어서 확률변수란 아주 중요한 개념이다. 확률변수란 말 그대로 변수인데, 확률에 의해 정해지는 변수이다. 때문에 확률변수는 상황에 따라 항상 변할 수 있다. 이때 우리는 셀 수 있는 확률변수를 이산확률변수(discrete random variable) 셀 수 없는 확률 변수를 연속확률변수(continuous random variable) 라 한다. 💡 이산 확률 변수 (discrete random variable) 확률 변수 X가 취할 수 있는 모든 값을 x1, x2, x3, ... 처럼 셀 수 있을 때 X를 이산확률변수라고 한다. 즉, 값이 무한히 있더라도 순서가 있으면 이산 확률 변수이다. # 이산 : 연결되지않고 끊어진..
시계열 분석 시계열 분석 (time series analysis) 시계열 분석이란 시간 순서대로 정렬된 데이터에서 # 시간을 구분 기준으로 의미있는 내용과 통계 정보를 추출하기 위한 노력이다. 과거 데이터를 진단할 수 있으며 미래 데이터를 예측하는것도 가능하다. 대표적인 분야로의학, 기상학, 경제학, 천문학 데이터가시계열 데이터 분석이 얼마나 중요한지 보여준다. 과거에는 데이터를 사람이 수작업으로 수집하고 처리했다면 지금은 컴퓨터와 좋은 언어를 사용해서 빠른 속도로 발전되고 있다. 시계열 데이터 전처리 시계열 데이터를 전처리하는데 무슨 문제가 발생할까? 정답은 다른 데이터와 다르지 않다는 점이다. 흩어진 column을 하나로 통합하거나 이상치, 널(Null)값이 있는 컬럼들을 리샘플링해주고 시계열 데이터인 만큼 시간..
Toy Project 3일차 2022.12.22 세번째 회의 각자 서로 어떤 주제를 고민했는지 회의하는 시간을 가졌다. 주제선정이 중요하다는 의견이 나왔고몇 일 안남은 올해까지 주제를 고민하기로 했다. 오늘 나온 주제들이다. 1. 항공료 - 조건이 까다로움 2. 대중교통 이용객 수 3. 교통사교 발생건 수 4. 날씨 & 이산화탄소 관련 → https://www.co2.earth/ 5. 직업 선호도 변화 ( 인크루트, 잡코리아, 사람인, 자소설, 점핏… ) & 회사가 원하는 직업 → 크롤링이 변수, 예측은 어려울 수 있음 6. 최신 음악 흥행 예측 주제를 선정함에 있어서 생각보다 많은 조건이 있었다. 1. 우선 크롤링을 할 수 있는가? 2. 시계열 데이터가 맞는가? 3. 예측을 할 수 있는 주제인가? 💡 우리 팀은 시계열 데이터를 크..
Toy Project 2일차 2022.12.20 매도 빨리 맞으라고 했던가, 예비군 일정이 잡혀서 예비군을 다녀왔다. 두 번째 회의에서는 최종 팀원이 정해졌고 서로의 목적을 확인했으며 각자 어떤 데이터를 다루고 싶은지 고민하기로 했다. 간략한 프로젝트 계획은 주제선정 - 데이터크롤링 - DB구축 - 머신러닝 - 시각화 - 서비스 새벽에 잠깐 생각해본 주제는 라는 생각으로 기상청의 날씨 예측을 깨부수는 프로그램을 만들고 싶다는 생각을 했다. 각각의 현실 지역을 좌표로 나눠 날씨 데이터를 크롤링해서 과거의 데이터를 기준으로 예측이 맞았는지 체킹해서 기상청 및 날씨 정보를 제공하는 사이트와 비교하여 신뢰도를 최종 산출물로 내놓는 것이다. 아무튼 다음 회의때의 팀원들의 주제 고민 결과가 너무 기대된다.
Toy Project 1일차 2022.12.19 첫 프로젝트 조원들과의 만남, 부트캠프 교육과정이 진행되고있는 환경의 특수성 때문에 다들 고심이 많았다. 현재 처음 배우는 지식들이 동시 다발적으로 들어오는 상태에서 혼란스러움과 막막함이 찾아왔고, 자신의 상황에 맞춰 얻고자 하는것도 달랐다. 각자, 프로젝트에서 원하는 방향도 달랐고 또 얻고 싶은것도 달랐다. 이번 프로젝트를 통해 내가 바라는것은 딱 하나다. 의미있는 시간을 보내고 결과물을 하나 만드는것. 첫 회의는 우선 개인의 상황을 명확히 파악하여 최종 참여 결정 의사를 정해오기로 마무리 되었다.
Java_클래스(Class) 20221212 45일차 앞의 블로깅에서 자바의 핵심 개념들에 대해 알아봤다. 객체 지향 프로그래밍 언어인 만큼 거의 대부분이 객체로 이루어져 있으며 각각의 기능과 속성들을 자유롭게 사용할 수 있어야한다. 우리가 프로그래밍을 코딩 하는 목적은 현실세계의 객체를 소프트웨어 객체로 변환하기 위함이다. 따라서 현실의 객체를 표현하기 위해 객체를 크게 두 가지의 분류로 나눈다. 바로 속성과 동작이다. 객체는 속성과 동작으로 구성되어있다. 여기서 객체의 속성이란, 변수들이 가장 잘 표현하며 객체의 동작은 메소드가 가장 잘 표현한다. 이렇게 프로그램을 설계하는 방식을 객체 모델링(Object modeling)이라 한다. 객체간의 관계 이렇게 설계된 객체들은 서로 상호작용을 할 수 있으며 관계라는게 생긴다. 이를 크..
주택 전세 가격과 경제 변수간 관계 2022.10.26 Project contributor : 나정민, 도형준, 유하영, 장인성 - 나정민: "가계대출금리", "주택전세가격" data 수집, "결론" 작성 - 도형준: "가계예금총액" data 수집, data visualizaion - 유하영: "주택매매가격" data 수집 - 장인성: "경제활동인구" data 수집, "서론 및 목차" 작성 동기 2012년 한국 건설 관리 학회 논문집 중 "주택 전세가격과 거시경제변수간의 관계연구"를 확인 논문 내용을 바탕으로 기간은 길게 변수는 같게 현재에도 영향을 미치는가? 확인해보자. 논문의 서론 전세가격 역시 거시경제변수의 영향을 받을 것이다. 따라서 본 연구의 목적은 거시 경제 변수가 주택 전세가격에 미치는 영향을 분석하는 것에 있다. 가계대출금리..
MLop_DL_LSTM 실습 20221124 37일차 LSTM(Long Short-Term Memory) 장단기 메모리 시계열 데이터, 순서가 있는 데이터를 학습시키면서 우리는 한가지 불편함을 느끼게 된다. 한가지 예를 들어보겠다. "꽃이 화려하게 피어있는 마당은 내일 일기예보에서 말한대로 비가 올것입니다." 이 문장을 RNN모델에 학습시켜 문장속에서 날씨 정보를 획득하고 싶다. 즉, 내가 원하는건 "내일 비가 올것입니다" 이 세가지 인데 불필요한 문장이 사이사이 많다는것이다. 즉, 순환 구조를 이용해 순서대로 학습하는 RNN모델은 불필요한 데이터 까지 학습해 가중치가 불필요하게 부여된다는 한계를 보여주는 것이다. 💡 = 기울기소실문제를 야기한다. ⭐⭐⭐⭐⭐ 이와 같은 시퀀스 계열의 데이터의 학습에서 LSTM은 단계별 선별을 하는 ..