본문 바로가기

글쓰기

개념 정리

데이터 사이언티스트: 정리되지 않은 데이터를 정리하고 그것을 기반으로 전략적 조언을 하는 리더의 참모.

Data Scientist: A leader's advisor who organizes unorganized data and gives strategic advice based on it.

 

정규화: '데이터의 정합성'을 담보하는 설계 사상이다. Normalization: a design idea that guarantees 'data consistency'.
A 농가의 전화번호가 바뀔 경우 3행 모두의 전화번호를 갱신하지 않으면 데이터에 부정합이 생깁니다. If the phone number of farm A changes, the data will be inconsistent if all three lines are not updated.
단, 데이터가 나눠지므로 각각의 데이터만으로는 전체적으로 정보를 파악하기 어렵기에 데이터 결합이 필요합니다. However, since the data is divided, it is difficult to grasp the information as a whole with each data alone, so data combination is necessary.

데이터 결합의 종류 - 내부 결합, 외부 결합 - 레프트/라이트 조인 Types of data joins - Inner join, Outer join - Left/Right joins
내부 결합은 2개의 데이터에서 공통 데이터만을 추출한다. Inner join extracts only the common data from the two data.
외부 결합은 단순히 데이터를 결합하고 싶은 경우에 사용한다. Outer join is used when you simply want to combine data.
레프트/라이트 조인은 어느 한 쪽의 데이터를 메인으로 하고 싶은 경우 유효하다. Left/Right join is valid if you want to make either data the main.
주의점: 중복이 있으면 데이터가 늘어나는 경우가 있기에 데이터의 정합성을 담보하는 정규화는 매우 중요하다. Note: Normalization to ensure consistency of data is very important because duplication can increase data.

머신러닝: 컴퓨터에 데이터를 학습시켜 특징을 추출하고 그 특징을 이용해서 미래 예측과 판단에 활용하는 것이다. Machine learning: to learn data on a computer to extract features and use them to predict and judge the future.
머신러닝은 지도학습, 비지도학습, 강화학습으로 나뉜다. Machine learning is divided into supervised learning, unsupervised learning, and reinforcement learning.
지도학습이나 이미 정답이 있는 데이터를 컴퓨터에 학습시키는 방법으로 분류와 회귀가 있다. Supervised learning is a method of learning data that already has the correct answer to a computer, and there are classification and regression.
학습에 의해 선을 그음으로써 미지의 데이터에 대해 예측할 수 있다. By drawing a line by learning, unknown data can be predicted.
선을 긋는 알고리즘은 분류에는 의사결정 트리, 로지스틱 회귀, 랜덤 포레스트 등이 있으며, 회귀에서는 다중회귀가 유명하다. Line drawing algorithms include decision tree, logistic regression, and random forest in classification, and multi-regression is famous in regression.
비지도학습이란 정답 데이터를 학습시키지 않고 주어진 데이터로부터 규칙성과 같은 의미있는 정보를 발견하는 방법으로 대표적으로 클러스터링이 있다. Unsupervised learning is a method of discovering meaningful information such as regularity from a given data without learning correct answer data, and is typically clustering.
단, 정답 데이터가 없기 때문에 모델의 정확성이 결정되지 않아 그 그룹의 분류가 정확한지 판단할 수 없으므로 사람의 판단이 중요하다. However, since there is no correct answer data, the accuracy of the model is not determined, so it is not possible to determine whether the classification of the group is accurate, so human judgment is important.
강화학습은 일련의 행동에 대해 보상과 같은 환경 정보를 컴퓨터에 주고 어떤 행동이 가장 보상이 높은지를 학습하는 방법이다. Reinforcement learning is a method of giving environmental information such as rewards to computers for a series of behaviors and learning which behaviors have the highest rewards.
반면 행동의 수나 조합이 크면 학습에 시간이 걸리고 인간이 이해할 수 없는 비합리적인 행동을 선택하는 경우가 있다. On the other hand, if the number or combination of actions is large, learning takes time and irrational behavior that humans cannot understand may be selected.

최적화 문제란 정해진 제약 조건 아래 목적함수를 최소화 또는 최대화하는 문제이다. The optimization problem is a problem of minimizing or maximizing the objective function under a predetermined constraint.
사회 속의 최적화 문제는 '더 효율적으로 작업하고 싶다'라고 느끼는 부분에 있으며 철도, 오피스 빌딩, 편의점, 공장, 행정 등에 있다. The optimization problem in society is in the part where you feel you want to work more efficiently, and it is in railways, office buildings, convenience stores, factories, and administration.
이러 문제는 예전부터 연구되어 해결 방법이 이미 정립된 것이 큰 장점이다. This problem has been studied for a long time and a solution has already been established.

최적화 문제는 크게 선형 최적화, 비선형 최적화, 조합 최적화라는 3가지 패턴으로 나눌 수 있다. The optimization problem can be largely divided into three patterns: linear optimization, nonlinear optimization, and combination optimization.
선형 최적화란 행렬 연산의 형식으로 만들 수 있는 것이다. Linear optimization is something that can be made in the form of matrix operations.
비선형 최적화란 행렬 연산으로는 할 수 없는 함수의 형태로 표현되는 것으로, 각각의 요소가 복잡하게 얽혀 있는 것이다. Nonlinear optimization is expressed in the form of a function that cannot be performed by matrix operation, and each element is complicatedly intertwined.
조합 최적화란 시간제 직원의 시프트 스케줄처럼 요소와 요소의 조합 패턴 중 최적을 선택하는 것이다. 

'글쓰기' 카테고리의 다른 글

'한계 없음' 정리  (0) 2022.09.24
프레젠테이션  (0) 2022.09.19
'기억력 수업' 정리  (0) 2022.08.17
'에세이 만드는 법' 정리  (0) 2022.08.17
'한 줄 정리의 힘' 정리  (0) 2022.08.16