본문 바로가기

Developer Diary

(11)
NLP_단어 표현(Word Representation) 23.01.09 단어 표현 (Word Representation) ⭐⭐⭐⭐⭐ 단어 표현이란 단어를 컴퓨터에서 판단할수 있도록 하기 위하여 단어를 수치화하고, 또한 주로 벡터 형태로 데이터를 저장하므로 벡터화 해주는 것을 의미한다. 다른 이름으로 단어 임베딩(word embedding), 혹은 단어 벡터(word vector)라고도 불린다. 즉, 단어 표현이란 자연어 처리 과정에서 모델에 들어가기전 어떻게 컴퓨터가 자연어를 받게끔 만드는 과정이다. 분류 모델이면 목적성에 맞게끔 자연어를 준비시켜 컴퓨터에게 표현해 주기 위한 과정이다. 이 단어는 이렇게 관계가 있어라고 컴퓨터에게 보여주게끔 준비시키는 과정? 이다. 단어 표현 방법은 크게 국소 표현(Local Representation) = 이산 표현(Dis..
NLP(자연어 처리)2 23.01.03 자연어 처리(Natural Language Process)란? 인간이 사용하는 언어를 컴퓨터에게 전달하고 학습시켜 원하는 결과물을 얻기 위한 과정이다. 간단하게 자연어처리 수집부터 배포까지의 과정을 보고 과정마다의 내용을 살펴보겠다. 🔥 자연어 처리 머신러닝 플로우 🔥 (Natual Language Process Machine Learning Flow) 1) 수집(Acquisition) 필요한 데이터를 수집 자연어 데이터를 말뭉치 또는 코퍼스(corpus)라고 부른다. 💡 코퍼스(corpus) : 조사나 연구 목적에 의해서 특정 도메인으로부터 수집된 텍스트 집합 ✔ 텍스트 파일 : txt 파일, csv 파일, xml 파일 ✔ 출처 : 음성 데이터, 웹 수집기, 영화 리뷰 등등 2) 점검 ..
Toy Project 6일차 2023.01.04 6일 차 회의날이 찾아왔다. 각자 자연어 처리 분류 학습은 어떻게 했는지 확인했고 처음 배우는 개념이기도 하고 머신러닝 딥러닝의 개념도 아직 잘 잡혀있지 않은 인원들도 있었다. 그래도 각자 전처리 전 단계까지학습을 해왔고 모델은 아직 조사가 미흡했기에최대한 조사한 인원의 자료를 토대로다음 회의까지 계획을 세우기 시작했다. 모델 학습 관련해서 나온 의견으로는자연어 처리 분류 모델의 역사에 대해알고 싶어 하는 인원도 있었고 BERT or GPT 모델을 궁금해하는 인원도 있었다.다만 현재 위 두 모델은 아직 기본적인 모델을 겪지 않고도전하기에는 이해가 어려울 것 같아 차후 프로젝트에서 도전하기로 했다. 위와 같은 학습 자료를 팀원 다 같이 공유하고우리가 어떤 방향성으..
Toy Project 5일차 2022.12.29 프로젝트 회의 5회차. 지난 회의때 서로의 목적성 확인 및 팀의 방향성을 고려해NLP가 큰 주제 범위로 선정되었다. 이번 회의는각자 NLP에 관해 kaggle , DACON, 해커톤 페이지, AIhub등에서원하는 주제 및 이유 링크까지 준비해서 토론을 하기 시작했다. 서로 각자의 주제선정에 관해 토론을 나눴고 우리가 이 주제로 어떤 학습을 할 수 있고 어떤 결과물이 나올 수 있으며 의미는 어떻게 되고 나아가 성장은 어떻게 할 수있는지 토론을 했다. 역시 혼자 생각하는것보다 여러 사람의 의견을 들으면서 나와 다른생각 및 아이디어에 감탄을 했고 또 현실적인 문제점에 대해서 언급이 되었을때각자 의미있는 학습의 시간이 되었다고 자신한다. 비록 주제선정이라는 시작일뿐이지만 이 기본적인 단계에서..
Toy Project 4일차 2022.12.27 4회 차 회의가 시작됐다. 지난 회의 결과대로 계속 주제 생각해본 과정을 공유하는 회의였다. 다양한 의견들이 나왔지만실질적으로는 주제 선정함에 있어 너무 배가 산으로 가는 느낌이 들어 각자 실질적인 프로젝트의 목적을 먼저 공유하고팀의 목적성을 좀 더 견고히하는 과정을 거쳤다. 그리고 다시 주제선정 과정으로 넘어와서지난 회의에서도 언급되었던 고려사항들이 우리의 발목을 잡았다. 고려사항들은 다음과 같다.1. 실질적인 DB구축이 가능한 크롤링2. DE 역할을 하는 구성원이 경험이 되는 범위 내로데이터를 쌓을 수 있는가?3. DS, DA들이 분석 및 모델링이 가능한 주제의 데이터가 모이는가?4. 제한 기간 내의 프로젝트 결과물에 영향을 미치는 주제인가? 등의 의견들이 수립되었고 위의 고려사항..
NLP (자연어 처리) 23.01.01 자연어 처리 (Natural Language Processing) 자연어 처리란, 컴퓨터가 인간의 언어를 이해, 생성, 조작할 수 있도록 해주는 인공지능(AI)의 한 분야 자연어 텍스트 또는 음성으로 데이터를 상호 연결하는 것으로 '언어 입력(language in)'이라고도 한다. Oracle Digital Assistant(ODA)나 Siri, Cortana, Alexa와 같은 가상 도우미의 핵심 기술 웹 검색, 스팸 메일 필터링, 텍스트 또는 음성 자동 번역, 문서 요약, 감정 분석, 문법/철자 검사 등이 있다. 쉽게 설명하면 자연어 처리란 인간이 사용하는 언어를 컴퓨터가 인식하게 학습 하는것. 🔥 NLP의 영역 🔥 💡 자연어 이해(Natural Language Understandin..
확률 변수 & 분포 확률변수(Random Variable) 머신러닝과 딥러닝, 통계학을 사용하는 데 있어서 확률변수란 아주 중요한 개념이다. 확률변수란 말 그대로 변수인데, 확률에 의해 정해지는 변수이다. 때문에 확률변수는 상황에 따라 항상 변할 수 있다. 이때 우리는 셀 수 있는 확률변수를 이산확률변수(discrete random variable) 셀 수 없는 확률 변수를 연속확률변수(continuous random variable) 라 한다. 💡 이산 확률 변수 (discrete random variable) 확률 변수 X가 취할 수 있는 모든 값을 x1, x2, x3, ... 처럼 셀 수 있을 때 X를 이산확률변수라고 한다. 즉, 값이 무한히 있더라도 순서가 있으면 이산 확률 변수이다. # 이산 : 연결되지않고 끊어진..
시계열 분석 시계열 분석 (time series analysis) 시계열 분석이란 시간 순서대로 정렬된 데이터에서 # 시간을 구분 기준으로 의미있는 내용과 통계 정보를 추출하기 위한 노력이다. 과거 데이터를 진단할 수 있으며 미래 데이터를 예측하는것도 가능하다. 대표적인 분야로의학, 기상학, 경제학, 천문학 데이터가시계열 데이터 분석이 얼마나 중요한지 보여준다. 과거에는 데이터를 사람이 수작업으로 수집하고 처리했다면 지금은 컴퓨터와 좋은 언어를 사용해서 빠른 속도로 발전되고 있다. 시계열 데이터 전처리 시계열 데이터를 전처리하는데 무슨 문제가 발생할까? 정답은 다른 데이터와 다르지 않다는 점이다. 흩어진 column을 하나로 통합하거나 이상치, 널(Null)값이 있는 컬럼들을 리샘플링해주고 시계열 데이터인 만큼 시간..