머신러닝 데이터 전처리 스케일 조정, 표준화하여 전처리 표준점수로 변환

머신러닝 자료 전처리 스케일 조정, 표준화하여 전처리 표준점수로 변환

한빛소셜 미디어 도서 의 전개를 따른 내용입니다. 최근에 다룰 내용은 “정보량 전처리”입니다. 이전까지는 그냥 날것의 데이터로 훈련시키고 그랬는데, 이 날것의 데이터에는 요상한 데이터가 숨어있을 수도 있습니다. 위험! 그래서 이번에는 전처리한 데이터를 사용해보자. * 머신러닝 알고리즘에 주입할 데이터를 준비하는 방법을 배운다. * 정보량 형태가 알고리즘에 미치는 영향을 이해합니다. 데이터를 전처리하기 전에, 이전과는 다른 몰랐던 방식으로 데이터를 준비할 것입니다.


imgCaption0
# 이번 의도 정리, 정보량 전처리하기 (표준화하기)

# 이번 의도 정리, 정보량 전처리하기 (표준화하기)

1. 거리기반 알고리즘을 사용하기 위해서는 좌표계를 같은 조건으로 맞출 필요가 있었어요. 2. 그래서 특성 값들을 표준점수로 변환하였습니다. (특성의 스케일을 조정) 3. 이렇게 train/test set을 표준화해서 거리기반 알고리즘을 적용한 머신러닝 모델에 fit()하고 score() 하였더니, 이번에는 거리를 객관적으로 바라볼 수 있었기에 제대로 된 결과를 도출하였습니다. * 유의! test data를 표준점수로 변환할 때, 당연히 train data의 mean과 std를 사용해야 합니다.

4. 산점도 게다가 정형화된 데이터들로 그려보니, 시각적으로도 객관적인 거리를 확인가능했다.

# 이렇게 전처리한 데이터를 통해서 모델을 훈련하자

우리들이 사용하는 알고리즘은 k-최근접이웃 알고리즘인데, 이것은 거리 기반 알고리즘이라고 했다. 표준화를 통해서 전처리하여 이제서야 거리를 객관적으로 바라볼 수 있게 되었으니, 이렇게 전처리된 데이터들로 거리기반 알고리즘을 적용하면 성공적이겠다. 지속적으로 그래왔듯이 fit()으로 학습시키고 score()로 테스트해보자. 이같은 경우애 짚고 넘어가야 할 것! test set을 표준화할 때에, train set에서의 mean과 std로 표준화해야 합니다.

체험 자체를 train data의 mean, std로 표준화한 데이터를 통해서 했기 때문에, test data에도 비슷하게 그렇게 적용해야 합니다. 우리의 도미/빙어 판단 머신러닝 모델의 정확도는 1이라고 합니다.

2023학년도 국어, 수학, 영어 과목별 등급컷, 표준점수 정보

2023 수능 채점 결과를 요약하면 국어는 평이하게 출제되어 지난해보다는 쉬웠고 수학과 영어는 변별력을 유지한 것으로 볼 있습니다. 2023학년도 수능 채점 결과를 보면 표준점수 최고점은 국어 134점, 수학은 145점으로 나타났다. 지난해 수능에선 국어가 149점으로 역대 두번째로 높았을 만킄 불수능이었던 점을 감안하면 확실히 쉬워진 것을 알 있습니다.

수학은 지난해 최고점이 147점으로 올해와 비슷합니다. 표준점수는 수험생의 원점수와 평균 성적의 차이가 어느정도로 벌어지는 지를 반영하는 점수로 시험이 어려울수록 최고점은 높아집니다. 현재 해 수능에서 국어는 지난해보다. 쉬워졌고, 수학은 비슷한 수준을 유지했다는 것을 알 있습니다. 만점자 수는 국어는 지난해 28명에서 현재 해 371명으로 늘었고, 수학은 2,702명에서 934명으로 줄었다. 현재 해 수능 만점자는 총 3명으로 나타났다.

# 바로 이곳에서 거리판단시 주의점이 보인다

거리 기반의 알고리즘일 때, 샘플 간의 거리는 x축과 y축의 설정에 따라 영향을 받는다. 지금 이 데이터에서 length와 weight가 같은 단위라는 것을 보장할 수 없습니다.!!!***** 그래서 “나는 거리를 같은 기준으로 판단하겠어!”랍시고, 저렇게 x축 y축을 length, weight인 상태로 “동일한 눈금 간격”으로 맞춰 본다고 해도, 두 단위는 다른 단위기에, 이곳에서 한 점과 다른 데이터들간의 거리를 따지는 건 잘못된 것입니다.

그래서 특성값을 일정한 기준으로 맞춰주는 전처리가 필요합니다. ***** 이때, 일정한 기준으로는 ”표준점수”를 적지않게 사용합니다. 표준점수(z점수) : 각 특성값이 평균(or 원점)에서 표준편차의 몇 배만큼 떨어져 있는지를 나타낸다.

② 난이도 관련

또한, 과목별 난이도는 예년에 비해 상대적으로 조정되며 있음을 알 수 있는데요, 대부분의 과목들이 원점수 기준 40점대 초반에서 일등급 컷을 보이고 있기 때문입니다. 즉, 수능 과학 탐구 영역의 난이도는 점차 높아지고 있습니다. 화학1 과목의 경우도 1등급 컷이 47점에 고정되어 있던 기조에서 벗어나 작년부터 점점 난이도가 상승하여 등급컷이 42점으로 하락하였고 다른 과목들도 비슷한 기조를 보여주고 있다는 점에서 이를 알 수 있습니다.

앞서 말씀드렸듯이, 수능에서 과학 탐구는 수학 못지않게 큰 비중을 차지하고 있는 과목입니다. 시험시간은 다른 과목들에 비해 상대적으로 적지만, 이과 기준으로 정시 전형에서 과학 탐구 지역이 반영되는 비중은 수학과 비슷한 대학이 많을 정도로 대입에서 아주 중요한 과목이기 때문인데요. 그러한 과학 탐구에서 고득점을 획득하기 위해서는 킬러 문항을 잘 준비하는 것이 필수적입니다.

연관 FAQ 빈번히 묻는 질문

이번 의도 정리, 정보량 전처리하기

1

2023학년도 국어, 수학, 영어 과목별 등급컷, 표준점수

2023 수능 채점 결과를 요약하면 국어는 평이하게 출제되어 지난해보다는 쉬웠고 수학과 영어는 변별력을 유지한 것으로 볼 있습니다.

바로 이곳에서 거리판단시 주의점이

거리 기반의 알고리즘일 때, 샘플 간의 거리는 x축과 y축의 설정에 따라 영향을 받는다.