[해외DS] ‘풍자’를 이해할 수 있는 AI?

옴디아 수석 연구원 마크 베큐, 풍자에 관한 AI의 능력 소개해 미국 연구진 발표한 “풍자 탐지기”에 회의적이라는 견해 밝혀… 비대면 상황에서는 인간조차 찾기 어렵다 채트필드 박사 강연 내용 언급하며 인간을 ‘자동으로’ 이해하려는 노력으로 무엇이 사라지겠냐는 질문 던져

pabii research

[해외DS]는 해외 유수의 데이터 사이언스 전문지들에서 전하는 업계 전문가들의 의견을 담았습니다. 저희 데이터 사이언스 경영 연구소(MDSA R&D)에서 영어 원문 공개 조건으로 콘텐츠 제휴가 진행 중입니다.

옴디아 수석 연구원 마크 베큐/사진=AI 비즈니스

해당 기사는 미국 리서치 회사 옴디아(Omdia)에서 자연어 처리 모델을 연구하는 수석 연구원 마크 베큐(Mark Becuue)의 개인적인 견해임을 밝힙니다.

지난 9일 AI 비즈니스에는 미국 리서치 회사 옴디아(Omdia)에서 AI 자연어 처리 모델을 연구하는 수석 연구원 마크 베큐(Mark Beccue)가 ‘풍자를 이해하는 AI’라는 주제로 작성한 기고문이 올라왔습니다.

“당신의 이름이 구글이 아니라면, 모든 것을 안다는 듯 행동하지 마세요(Unless your name is Google, stop acting like you know everything.).”

이 문장은 무언가를 풍자하거나 빈정거리고 싶을 때 쓰이는 문장 중 하나입니다. 이해가 되시나요? 이해하신 분들도, 그렇지 않은 분들도 계실 겁니다.

지난 3월 미국 센트럴 플로리다 대학교의 연구원들이 자연어 처리 모델(NLP)와 딥러닝으로 제작한 “풍자 탐지기”를 설명하는 논문을 발표했습니다. 참 별의별 연구가 다 있다고 생각하실 수도 있겠지만, 연구진에 따르면 이 프로젝트의 목표는 기업이 소셜 미디어 플랫폼에서의 여론과 고객의 피드백을 이해하도록 돕는 것입니다.

음, 한숨이 나오네요.

독자 여러분은 어떠신가요? 할 말이 없다고요? 저도 그렇습니다. 제 한숨 역시 이 발표에 대한 일종의 풍자였죠.

아무튼 이 연구에 따르면 풍자는 소셜 미디어에 게시된 다른 부정적인 반응보다 더 높은 관심을 끌고, 더 깊은 영향을 미치기 때문에 고객의 경험이나 고객의 서비스를 중요시하는 브랜드라면 이를 통해 최종 사용자의 정서를 이해할 필요가 있습니다.

그냥…뭐라고 해야 할까요, 저는 사실 이것도 ‘AI의 풍자’라고 생각합니다.

하지만 저는 구글의 인공 지능 알렉사(Alexa) 역시 약간의 풍자를 포함하는 요소를 지니고 있다는 점을 짚고 넘어가려고 하는데, 최근에 제가 알렉사와 나눈 대화를 보시면 이해할 수 있으실 겁니다.

필자: 알렉사, 너는 빈정거리는 성격이니?

알렉사: 저는 그런 거 절대 못 해요. 그런데 정말, 정말, 정말 잘할 수도 있어요.

처음이라면 실패할 것이다

지난 몇 년 동안 컴퓨터 과학자들은 ‘AI 풍자 탐지기’를 만들기 위해 노력했지만, 결과는 완전한 실패였습니다. “소셜 미디어 대화에서 풍자적인 요소 찾기(Discovering the influence of sarcasm in social media responses)”, “소셜 미디어에서 풍자적인 요소를 찾고 변환하는 시스템(System Detects & Translates Sarcasm on Social Media)”, “트위터에서 맥락을 보고 풍자적인 요소 찾아내기(Contextualized Sarcasm Detection on Twitter)” 등의 연구를 예로 들 수 있습니다. 하지만 풍자를 이해하는 AI를 개발하기 위한 노력은 계속 이어지고 있습니다.

아, 물론 그렇다고 해서 이번에 만들어진 ‘풍자 탐지기’ 역시 실패할 것이라고 말하는 건 아닙니다. (참고로 말씀드리면 이 단락의 나머지 부분은 풍자입니다) 이 모델은 “새로운 멀티 헤드 셀프 어텐션 기반 신경망 아키텍처”를 사용하고 “실험 결과…모든 평가 지표에서 최신 모델에 비해 상당한 개선을 보임이 확인”된 모델이기 때문이죠. 이 논문은 처음부터 끝까지 다채로운 수식어를 써서 자신들의 모델을 “풍자의 단서가 존재하는 입력 텍스트에서 해당하는 단어를 실제로 식별할 수 있는” 모델이라고 추켜세웠습니다.

글쎄요, 그렇다면 뭐 그게 맞겠죠.

풍자, 그러니까 빈정거린다는 것은 본질적으로 ‘인간적인’ 요소입니다. 말하는 내용뿐 아니라 말하는 방식, 그것을 전달하는 사람의 몸짓이나 표정에 따라 의미가 달라지기 때문입니다. 하지만 우리는 직접적인 대화 대신 비대면 의사 소통을 선호하는 시대에 살고 있습니다. 인간조차 비대면 의사 소통에 존재하는 풍자적인 요소를 알아채기 힘든데, 과연 기계라고 더 나을까요? 바로 이 부분이 사람들이 이러한 연구를 냉소적으로 바라보는 이유입니다. 텍스트 마이닝만으로는 글에 숨어있는 풍자를 일관되게 감지할 수 없습니다.

다중 모달(Multiple modal)=신뢰도 상승

몇몇 회사는 감정 분석 및 감정 인식이라는 더 넓은 분야에서 음성 억양과 신체 언어의 ‘단서’를 해석하고자 AI를 사용하는 방법을 모색하고 있습니다. 음성 바이오마커 해석(음향 특징 분석)을 탐구하는 보컬리스 헬스(Vocalis Health), 차량 인식 기술을 연구하는 스마트 아이(Smart Eye)와 아이리스(Eyeris) 그리고 제품 마케팅 조사를 위해 비디오 분석을 시도한 리얼아이즈(RealEyes) 등을 예로 들 수 있습니다.

이러한 종류의 풍자 감지 솔루션은 다중 모달 입력을 활용한다는 전제 하에 이론상 가능합니다. 실제로 비쥬아(Visua)라는 회사가 이미지와 텍스트의 감정 분석과 결합된 로고 감지 및 이미지 인식 기술을 활용하자는 제안을 하기도 했지만 이는 실제 솔루션보다는 단순한 아이디어에 가까웠습니다. 다중 모드 접근 방식에는 항상 실행가능성 및 영업이익 측면에서 관련 문제가 발생하기 때문입니다.

감정 분석 그리고 감정 인식

결론적으로 풍자를 자동으로 감지 하려는 연구는 인간 감정의 감지와 이해를 자동화한다는, 더 큰 범위에서 바라보는 것이 나을 것입니다.

디지털 커뮤니케이션이 타인과의 공감 능력을 갉아먹고 있다는 사실은 이미 수 차례의 연구로 증명되었습니다. 디지털 커뮤니케이션이 더욱 보편화되면서 이러한 커뮤니케이션 안에서 공감을 표현하는 것 역시 더욱 중요해졌습니다.

‘고객 경험’을 경쟁력 있는 차별화 요소로 만들려는 기업은 점점 늘어나고 있습니다. 점점 더 많은 기업이 고객 경험은 단순한 고객 만족이 아니라 고객과의 정서적인 유대라는 점을 깨닫고 있는 것이죠.

사실 ‘감정’에 대한 과학적인 정의는 존재하지 않습니다. 하지만 많은 전문가들은 감정이 사고, 의사 결정, 행동, 사회적 관계 및 웰빙에 영향을 미친다는 데 동의하죠. 우리가 감정을 더 깊게 이해할 수 있다면 AI 기술은 더 공감적인 고객 및 의료 경험을 만들고, 자동차를 운전하고, 교육 방법을 개선하고, 우리의 요구 사항에 맞는 더 나은 제품을 만드는 방법을 더 쉽게 찾아낼 수 있을 것입니다.

글을 마치기 전 영국 출신 톰 채트필드(Tom Chatfield) 박사가 지난 2016년 TORCH(The Oxford Research Center in the Humanities)에서 강의한 내용을 소개하겠습니다. 과연 인간을 ‘자동으로’ 이해하려는 지속적인 노력으로 무엇이 사라지게 될까요?

“인간의 본성은 모호하고 방대하며 기술의 역사를 따라 바뀌고 확장된 개념입니다. 디지털 기술은 우리가 우주에서 어떤 위치에 있는지, 즉 언어, 자기 인식 그리고 합리성을 지닌 창조물이라는 존재가 무엇을 의미하는지 다시 한 번 묻게 합니다.

우리가 가진 기계에는 아직 지성이 없습니다. 하지만 이들은 원래 인간만이 할 수 있다고 여겨졌던 능력, 즉 이성, 행동, 반응, 언어, 논리, 적응, 학습을 점점 더 많이 수행하고 있습니다. 당연히, 두렵게도, 혼란스럽게도 우리는 최근 일어난 이러한 확장과 찬탈이 어떠한 변화를 불러올지 묻기 시작했습니다.”


One of thousands of great sarcastic lines. Get it? Some people do, some don’t.

In March, researchers at the University of Central Florida published a paper describing a sarcasm detector they created using text mining NLP and deep learning. The noble intent of the project is to help companies understand sentiment and customer feedback on social media platforms.

Sigh.

That sigh, if you could not tell, was a sarcastic comment by me about this announcement.

According to academic research, sarcasm attracts higher attention and creates deeper influence than other negative responses posted in social media, so there is certainly a need by brands who champion customer experience or care deeply about customer service to understand the sentiment of end users.

It is just that, how to put this… AI stinks at sarcasm.

I will note however that Alexa has some sarcastic chops. Consider my recent Alexa interaction:

Me: Alexa, are you sarcastic?

Alexa: I’m not very good at being sarcastic, or maybe I’m really, really, really good at it.

If at first, you don’t succeed

For several years now, computer scientists have failed spectacularly in their attempts to use AI to detect sarcasm: “Discovering the influence of sarcasm in social media responses,” “System Detects & Translates Sarcasm on Social Media,” “Contextualized Sarcasm Detection on Twitter”… But bless their hearts (more sarcasm, bless their hearts is a colloquialism native to the Southern region of the U.S.), they keep trying.

This is not to say the UCF sarcasm detector will fail – I mean after all (note: heavy sarcasm will be used through the rest of this paragraph), it uses a “novel multi-head self-attention-based neural network architecture” and “the experiments…show significant improvement over the state-of-the-art models by all evaluation metrics.” The paper went on to note their results in universally glowing terms, in that the model “can indeed identify words in the input text that can provide clues for sarcasm.”

Well, there you have it.

Sarcasm is an inherently human thing, which depends not only on what is said, but the tone of how it is said and the body language/facial expression of the person conveying it. But we live in a world where our preference for spoken or in person communications is declining and written communications are increasing, and so we have people being sarcastic in written communication, which is harder for humans, much less machines, to pick up. Text mining alone won’t detect written sarcasm consistently.

Multiple modal = higher confidence

Some companies are exploring ways to use AI to interpret speech intonation and body language cues in the broader field of sentiment analysis and emotion recognition. There are companies that have explored interpreting vocal biomarkers (analyzing acoustic features) such as Vocalis Health, and others who have tinkered with facial recognition in vehicles, such as Smart Eye and Eyeris or video analysis for product marketing research, such as RealEyes.

In theory, a sarcasm detection solution could be cobbled together using multiple modal inputs. A company called Visua has proposed that logo detection and image recognition combined with sentiment analysis in images and text could be the answer, but it sounds like more of an idea than an actual solution. Cost in relation to the use case and business ROI would seem to be an issue in any multi-modal approach.

Sentiment analysis and emotion recognition

In the end, the quest to automate the detection of sarcasm will likely be addressed more properly in the larger effort to automate the detection and understanding of human emotion.

Studies have shown that digital communications are eroding our ability to empathize with others. As digital communications become even more prevalent, expressed empathy becomes more important within those communications.

Companies are increasingly focused on making customer experience their competitive differentiator. More and more, companies are finding that the customer experience is not just about customer satisfaction, but more about the customer’s emotional connection.

There is no scientific consensus on a definition of emotion, but many experts agree that emotion influences thinking, decision-making, actions, social relationships and well-being. A better understanding of emotion will help AI technology create more empathetic customer and healthcare experiences, drive our cars, enhance teaching methods, and figure out ways to build better products that meet our needs.

In a final note to balance the continued effort to automate understanding humans, consider this quote from a lecture given by Dr. Tom Chatfield in 2016 for the Oxford Research Center in the Humanities:

“Human nature is a baggy, capacious concept, and one that technology has altered and extended throughout history. Digital technologies challenge us once again to ask what place we occupy in the universe: what it means to be creatures of language, self- awareness and rationality.

Our machines aren’t minds yet, but they are taking on more and more of the attributes we used to think of as uniquely human: reason, action, reaction, language, logic, adaptation, learning. Rightly, fearfully, falteringly, we are beginning to ask what transforming consequences this latest extension and usurpation will bring.”

Similar Posts