건축물 별 월간 전기/가스 사용량 예측: 결합확률분포 모델 기반 예측

우리는 집에서 전기와 가스를 사용하고 매달 전기요금 고지서와 가스요금 고지서를 받는다. 여름에는 더위 때문에 에어컨을 많이 사용하고는 전기 요금이 많이 나올까 걱정하고, 겨울에는 추위 때문에 난방을 온종일 틀어놓고 비싼 가스 요금을 걱정하기도 한다.

용도별 단위에너지생산량 [kWh/y] 중 일부/출처=한국에너지공단 신재생에너지센터

송정훈 박사는 지난 5월 12일 개최된 ‘데이터사이언스경영학회 2023년 제1차 세미나’에서 한국에너지공단이 공개한 위의 통계자료를 지적하며, 이러한 전기와 가스 소비는 가정뿐만 아니라 비주거용 건물들 내 에너지 사용량 또한 건물의 용도에 따라 상당한 차이를 보인다고 전했다.

또한 그는 “정부 부처 및 공기업에서 신축/증축 예정 공공건물에 신재생에너지를 도입해 일정량의 에너지를 자체 생산하는 계획을 구상한다고 할 때 해당 건물의 예상 에너지 사용량을 계절적 추이를 반영하여 정확하게 추정하는 작업은 필수적”이라고 했다.

아울러 송 박사는 기존 ‘건축물별 월간 전기/가스 사용량 예측 연구’는 월 별 추정치에 대한 상관관계가 반영되지 않았다는 점을 지적했다. 예컨대 야근이 잦고 에어컨을 많이 트는 건물의 8월 전기 사용량이, 규모가 비슷한 다른 건물들의 8월 사용량 대비 매우 크다면 해당 건물의 1,2, …, 12월도 마찬가지로 규모가 비슷한 다른 건물들 대비 전기를 많이 쓸 것이다. 이를 수학적으로 ‘양의 상관관계가 있다’고 하는데, 기존의 연구에서는 이러한 관계를 반영하지 않았다는 것이다.

지난 12일 ‘데이터사이언스경영학회 제1차 세미나’에서 송정훈 박사가 ‘건축물 별 월간 전기/가스 사용량 예측’ 논문에 대해 설명하고 있다/사진=데이터사이언스 경영 연구소

이런 기존 연구의 한계점에 주목한 송 박사는 월 별 추정치의 상관관계를 반영하기 위해 2차 모먼트 행렬의 비대각성분(서로 다른 두 회귀식들의 오차항들 간 공분산)을 계산한 회귀 모델링을 통해 월별 에너지 사용량을 보다 정확하게 예측할 수 있었다고 강조했다.

이렇게 공분산, 즉 2차 모멘트 행렬의 비대각 성분을 구하게 되면 이를 이용해 월 별 전기/가스 사용량을 확률변수로 하는 다변량 정규분포를 정의할 수 있게 된다. 이 때 송 박사는 동일 규모의 건물들 대비 에너지를 상대적으로 적게 쓰는 건물의 사용량과 많이 쓰는 건물들 간 사용량 편차가 건물의 규모 증가에 따라 커지는 현상, 즉 이분산성(Heteroskedasticity)를 확인하고 이를 보정하기 위해 잔차의 제곱항 및 교차항을 종속변수, 연면적의 제곱을 독립변수로 하는 보조 회귀를 진행했다. 또한 보조 회귀로 구한 공분산행렬을 양의 부정부호(semi-positive)를 충족시키기 위해 대각화 분해 고윳값들 중 음수에 해당하는 값을 0으로 교체하는 추가적인 작업을 거쳤다.

이어 송 박사는 ‘보정된’ 다변량정규분포로부터 1년 간의 월 별 에너지 사용량의 표본을 추출하고 이를 실제 데이터의 추이와 비교해 본인의 모델이 현실을 제대로 설명함을 증명했다. 또한 그는 이번 연구를 통해 조건부 다변량정규분포의 평균을 활용해 공공 기관이 공개한 데이터 베이스 중 월별 에너지 사용량의 누락된 부분을 보다 정확히 추정할 수 있다고 밝혔다. 즉 제대로 기록된 데이터를 조건으로 하는 다변량정규분포의 조건부평균을 사용해 누락값을 합리적으로 추정할 수 있다는 것이다.

아래는 논문 발표 이후 송 박사가 받은 질문과 답변을 요약한 것이다.

(1) 최근 ESG가 각광받으면서 건축물의 연간 에너지 사용량이 가스 및 전기 에너지 사용량이 조금씩 바뀔 것으로 생각되는데, 해당 연구는 시계열 분석이 아니기 때문에 시간의 효과를 제대로 설명 못하지 않나. 시간불변 변수를 고정 효과로 보고, 시간의 영향을 받는 나머지 변수들은 랜덤 효과로 간주해 패널 분석을 진행한다면 나름의 현실을 반영하는 모델링이 가능하지 않나.

답변) 본 연구는 개별 건물 각각에 대한 연구가 아니기 때문에 통상적인 시계열 모델이라고 볼 수 없다고 판단된다. 또한 패널 모델로 이를 분석할 수 있겠으나, 일반적으로 에너지 사용량의 과거항을 포함하는 동적 패널 모델은 사용하지 않는다. 또한 동적 패널모형에서 시간불변 설명변수(연면적, 층수, 사용연수)를 포함할 경우 추정방법이 난해해 모델의 직관적 설명을 방해한다. 따라서 본 연구의 회귀 모델을 연도 별로 꾸준히 업데이트 하는 것이 최선이라고 본다.

(2) 건물 연면적 분포를 보면 왼쪽으로 상당히 쏠려있는 분포임을 확인할 수 있고, 이로 인해 이분산성이 발생한 것으로 짐작된다. 이를 보정하기 위해 로그변환을 시도해볼 수 있지 않았나.

답변) 말씀하신 바와 같이 변수 변환을 적용해봤으나 그 효과가 크지 않았다. 한편 Imputation(결측치 및 이상치 대체) 과정에서 데이터의 범위가 축소되어 이상치 탐지가 기존의 10% 수준으로 떨어지는 등 본 연구의 목적과 부합하지 않게 되는 이슈가 발생했다.

(3) 해당 연구는 2차 모먼트에 집중했는데, 3차 이상의 모먼트 값을 볼 인센티브는 없었나.

답변) 정규분포의 왼쪽 꼬리와 오른쪽 꼬리가 조금 다른 부분은 있었지만, 잔차의 분포의 최빈값(mode)이 0에 가깝기 때문에 3차 모먼트에 해당하는 왜도(skewness)가 유의미하게 나타나지 않았다. 한편으로는 3차 모먼트 이상의 정보를 반영할 시 과적합의 리스크가 있을 것으로 판단해 모델에 포함하지 않았다.

(4) 모델링 과정에서 선택 편향(selection bias)가 존재하진 않았나.

답변) 데이터 전처리 과정에서 이상치를 제거하면서 약간의 선택 편향이 존재 했을 가능성은 있다. 그러나 빈도 수 관점에서 봤을 때 표본이 모집단을 잘 설명한다고 판단했다. 원래 반영되어야 할 모집단의 특성이 전처리로 인해 반영되지 않았다고는 생각하지 않는다. 오히려 전처리 과정에서 이상치를 최대한 적절하게 제거해서 다변량정규분포를 만들고, 제거된 자리에 분포 정보를 이용해 적절한 값을 대체해주는 것이 선택 편향을 줄일 수 있는 방법일 것으로 생각된다.

[논문이야기] 부동산 경매시장의 버블 ④

박혜영 연구원 2022-11-28 09:002023-07-10 AI/DS논문이야기

[논문이야기] 부동산 경매시장의 버블 ③에서 이어집니다. 이전 글을 통해 필자는 최근 부동산 시장이 침체 국면에 들어서고 있으며, 집값 급락으로 인한 버블 붕괴에 대비할 수 있는 지표의 필요성에 대해 밝힌 바 있다. 또한 이전 글을 통해 버블이 인간의 ‘군중 심리’ 본능에 의해 발생한다고도 설명했다. 이번 글에서는 부동산 매매 시장의 버블을 예측하기 위한 수단으로써 ‘경매’ 시장을 들여다봐야…

[논문이야기] 부동산 경매 시장의 할인/할증 요인 ②

유보현 연구원 2022-10-21 09:002023-07-10 AI/DS논문이야기

[논문이야기] 부동산 경매 시장의 할인/할증 요인 ①에서 이어집니다. 이전 글에서는 부동산 경매 시장을 왜 분석해야 하는지, 낙찰가율이라는 경매 시장의 시계열 지표가 어떤 오류를 가지는지, 그리고 법원 감정가 교정 등의 방법이 왜 비지니스에서 사용되기 어려운지를 살펴봤다. 서술한 문제들은 정확히 필자 또한 실무자로서 겪었던 문제들이기도 하다. 의사 결정을 위해 시계열 분석이 필요한 와중에, 낙찰가율의 고질적 문제로 인해…

ChatGPT는 실험에 불과, Attention mechanism도 데이터셋 특화된 계산법에 불과

Keith Lee 2023-02-16 10:562023-11-29 AI/DS논문이야기

지난해 11월 말에 ChatGPT가 출시되고 2개월만에 사용자가 1억명을 넘었다는 보도가 있었다. 이제 만 2개월이 좀 더 지난 시점인데, 수익화를 위해서 개발사인 OpenAI가 서두르는 것을 보면서, 게임 이상으로 현실 서비스를 뜯어 고칠 수 있을까는 의문을 던져봤다. 한 언론사 기자 지원을 했던 학생이 ChatGPT에서 정보를 얻어 기사 샘플을 작성했다며 제출했단다. 솔직히 밝혀줘서 고맙다면서 글을 읽어본 경력직 기자 분은 ‘XX위키 베꼈네요?’라고…

[논문이야기] 우리나라 제약업은 연구개발 중심일까 카피약 판매 중심일까? ②

Keith Lee 2022-07-08 00:002023-03-20 AI/DS논문이야기

공정거래위원회는 2010년 11월에 리베이트를 제공한 제약사 뿐만 아니라 리베이트로 불법 이득을 수취한 의료진까지 양쪽을 모두 처벌하는 이른바 ‘리베이트 쌍벌제’로 처벌 수위를 올렸다. 리베이트를 받은 의료진은 1년 이내 자격정지, 2년 이하 징역 등의 처벌을 받게됐고, 이어 2011년 4월에는 정부합동 리베이트 전담수사반이 만들어진다. 실제로 2012년 7월에 자사 의약품을 써 주는 대가로 의사 400명에게 리베이트성 향응, 접대를 제공한…

[논문이야기] 측정오차 하 광고 시계열 모델링 연구 ②

박정우 연구원 2022-12-13 09:002023-07-10 AI/DS논문이야기

[논문이야기] 측정오차 하 광고 시계열 모델링 연구 ①에서 이어집니다. 이전 글에서는 디지털 광고가 ‘1인 1 스마트폰 시대’에 힘입어 광고 시장의 메인스트림으로 우뚝 올라서게 됐으며, 이제는 업계 차원에서 ‘측정오차’에 대한 적절한 조치가 필요한 시점이라고 화두를 던졌죠. 이번 글부터는 통계적 모델링을 통해 측정오차가 실제 광고 성과에 어떤 영향을 미치는지 본격적으로 살펴보겠습니다. ‘계통오차’와 ‘랜덤오차’로 구분되는 측정오차 측정오차에 대한…

부동산 경매 시장의 할인/할증 요인 발견

하태성 연구원 2023-05-17 15:152023-06-15 AI/DS논문이야기

우리나라 아파트 경매 시장은 매매 시장과 뚜렷한 가격 차이를 보기 어려울 정도로 활성화 되어있다. 이에 따라 실수요 목적으로 경매 시장을 찾는 개인들, 차익 거래를 노리는 투자자들, 담보 대출을 다루는 금융 기관들과 부실 채권 사업자 등 다양한 이해 관계자가 해당 시장에 참여한다. 특히 대부분의 금융 기관은 사업 구조 중 주택 담보 대출이 차지하는 비율이 높고, 채무…