마마 카지노

[유동우의 경제옹알이(30)]ChatGPT를 이해하기 위한 머신러닝 공부

직선으로 데이터 나타낸 선형분석 다음으로 배우는 단계는 로짓분석 데이터 결과 값 0 혹은 1로만 도출 이후 다양한 선택지중 하나 고르는 로짓분석 확장한 일반적 분류 학습 공부 통해 AI 산업 가깝게 느끼길

2023-08-04     경상일보
▲ 유동우 울산대 경제학과 교수

2023년 여름방학, 학생들에게 머신러닝을 강의하고 있다. 방학 때 진행되는 수업이고, 학점도 주지 않기에 쉽지 않을 수도 있다고 생각했다. 하지만 방학 때도 인공지능을 위한 통계학을 더 공부하고 싶다는 학생들의 요청이 있었기에 진행했다. 결과는 놀라웠다. 보통 강의를 하면 시간이 지날수록 학생 수가 줄어든다. 그런데 강의를 할수록 학생 수가 늘어나는 현상이 나타났다. 수업을 듣는 학생들이 친구들을 데리고 왔기 때문이다.

여름방학 때 강의하려고 한 부분은 머신러닝이었다. 머신러닝 강의는 보통 데이터의 특징을 가장 잘 보여주는 직선을 찾는 선형분석부터 시작한다. 선형분석을 통해 데이터는 예측과 분석이 쉬운 직선의 형태로 변환된다. 많은 경우 데이터의 분포는 직선모양을 잘 나타내지 않는데, 데이터의 분포를 직선모양으로 변환하면 예측과 분석이 쉬워지게 된다.

머신러닝 강의의 다음 단계는 데이터의 결과 값이 0 아니면 1만을 가지는 상황인 로짓 분석(logit regression)으로 진행된다. 컴퓨터는 결과 값이 0 아니면 1이 나오는 상황을 좋아하기에 로짓에 대한 강의는 대부분의 머신러닝 강좌에 포함되어 있다. 결과 값이 0 아니면 1이 나오는 상황은 시험을 치고 합격과 불합격이 결정되는 상황으로 이해하면 좀 더 직관적일 수 있다. 공부시간이 많은 학생들은 합격을 하고, 공부시간이 적은 학생들은 불합격을 하는 상황을 생각해 볼 수 있다. 그런데 가끔가다 공부시간이 적은 학생이 합격을 하기도 하고, 공부시간이 많은 학생이 불합격을 하기도 한다. 따라서 합격과 불합격은 확률의 문제가 된다. 공부시간에 따른 합격과 불합격의 확률을 정확하게 예측하기 위한 분석이 로짓 분석이라고 이해한다면, 쉬운 설명을 위해 생략하고 단순화한 부분이 많기는 하지만 전반적으로 큰 무리는 없다.

머신러닝의 다음 단계는 로짓 분석을 확장한 일반적인 분류에 대한 강의로 이어진다. 머신러닝을 통해 인공지능은 0과 1로 나누는 단순분류를 넘어서, A, B, C와 같은 여러 가지 선택지 중에 하나를 골라주는 일반적인 분류와 예측을 수행한다. ChatGPT는 “공부를 잘하기 위해서는”이라는 단어들이 주어지면, 알고리즘을 통해 “공부를 잘하기 위해서는”이라는 단어들 다음에 나올 수 있는 단어를 분류하고 예측하는 작업을 수행한다. 그리고 “공부를 잘하기 위해서는”이라는 단어들 다음에 나올 수 있는 단어들 중 “무엇보다”라는 단어가 가장 높은 확률을 가지고 있다면 “무엇보다”라는 단어를 추가한다.

ChatGPT는 다음 단계로 “공부를 잘하기 위해서는 무엇보다”라는 단어들 다음에 나올 단어를 예측한다. 그리고 예측의 결과로 “규칙적인”이라는 단어가 나오면 또 “규칙적인”을 추가한다. 그리고 “공부를 잘하기 위해서는 무엇보다 규칙적인”이라는 단어들 다음에 나올 단어를 또 예측하는 것이다. 그러한 연속적인 분류와 예측의 결과는 “공부를 잘하기 위해서는 무엇보다 규칙적인 학습습관이 중요하다”라는 문장으로 만들어지게 된다.

인공지능을 이해하기 위한 통계학의 수요는 거의 모든 학과의 학생들에게서 발견할 수 있었다. 학생들은 데이터 분석의 기초인 선형분석부터 잘 이해하지 못하는 경우가 많았다. 피상적으로 이해하거나 외우고 시험만을 친 경우가 많았다. 예전에 통계학을 피상적으로 이해하고, 외우고 시험만을 쳤던 나와 상황이 비슷했다. 나는 개인적인 경험에서 잘 알고 있다. 그렇게 통계학을 공부하게 되면 자료분석을 할 때마다 어딘가 좀 불안하다. 하지만 자료분석은 거의 모든 분야에서 사용되기 때문에 자료분석과 통계학을 피해갈 수 있는 방법도 별로 없다. 그렇다고 혼자 공부하기에는 교과서를 스스로 읽기도 힘들고, 또 설명이 매우 불친절하다. 그러니 쉽고 반복적인 통계강의에 대한 수요는 높을 수밖에 없다.

그래도 선형분석은 비교적 나은 편이다. 직선이기에 비교적 쉽고, 자료분석의 첫 단계이기 때문에 많은 관련자료가 있다. 하지만 학생들에게 로짓 분석을 쉽게 강의하기 위해 관련자료를 찾아보자, 로짓 분석을 이미 알고 있는, 그리고 대학원생들에게 강의하기도 했던 나도 알아보기 힘든 자료들이 많았다. 그렇다고 예전에 대학원생들에게 강의하듯이 어렵게 핵심만 강의하고 알려면 알고, 모르면 학생들이 공부를 열심히 안 한 것이니 어쩔 수 없다는 기조로 강의할 수도 없었다. 그래서 쉬운 강의노트와 책을 학생들에게 강의하며 학생들의 의견을 들으며 직접 만들고 있다. 그리고 그 내용을 앞으로 경제옹알이에서도 최대한 쉽게 설명해 볼 계획이다. 그러면 인공지능이라는 첨단산업이 좀 더 가깝게 느껴질 수도 있을 것이다.

유동우 울산대 경제학과 교수