[해외 DS] 인터넷 단어 6,300억개 분석했더니 ‘사람’은 ‘남자’로 해석됐

뉴욕대, 방대한 단어 분석해 ‘people’과 ‘men’ 밀접히 연관된 사실 밝혀 단어에 존재하는 성차별적 통념, 중립적 단어로 대체하자는 목소리 커져 기술 설계, AI 알고리즘에도 성차별적 개념 숨어있다

pabii research

[해외DS]는 해외 유수의 데이터 사이언스 전문지들에서 전하는 업계 전문가들의 의견을 담았습니다. 저희 데이터 사이언스 경영 연구소 (MDSA R&D)에서 영어 원문 공개 조건으로 콘텐츠 제휴가 진행 중입니다.

사진=JASMIN MERDAN/Getty Images

“person”, “people”, “individual”이라는 단어를 보면 무엇이 떠오르나요? 만약 이 단어를 보고 여자가 아닌 남자의 모습을 생각하셨다면, 당신은 그냥 평범한 사람입니다. 무려 5000억개 이상의 단어를 분석한 결과 인간이 원래는 성 중립적이어야 할 단어에 어떤 근본적인 성차별적 의미를 부여한다는 사실이 밝혀졌기 때문이죠.

지난 4월 1일 사이언스 어드밴시스(Science Advances) 저널에 게재된 언어 연구에 따르면 미국 뉴욕 대학교의 심리학자들은 웹 페이지에서 수집한 약 30억개의 텍스트를 분석하여 ‘person’, ‘individual’, ‘people’ 같은 단어가 남자(‘male’, ‘he’) 또는 여자(‘female’, ‘she’)와 함께 사용되는 빈도를 비교했습니다. 그 결과, 남성과 연관된 단어가 ‘person’과 함께 출현하는 빈도는 여성과 연관된 단어가 ‘person’과 함께 나오는 빈도보다 높았습니다. 즉 ‘person’이라는 단어의 문화적 개념은 여성보다 남성에 더 가깝다는 뜻입니다.

해당 연구를 위해 연구자들은 기업 백서부터 인터넷 포럼까지, 다양한 텍스트를 사용하는 초대형 웹페이지 오픈 소스 데이터 ‘커먼 크롤(Common Crawl)’을 사용했습니다. 덕분에 총 6300억개의 단어를 워드 임베딩(Word Embedding), 즉 두 단어가 얼마나 자주 등장하는지를 빈도수 관점에서 계산하여 두 단어가 어느 정도로 연관 있는지를 분석하는 계산과학 방법론으로 분석할 수 있었습니다.

연구에 참여한 뉴욕 대학교 박사후 연구원 에이프릴 베일리(April Bailey)는 “평소에 우리가 ‘person’이라는 단어 주위에 어떤 단어를 사용하는지를 이해한다면, 우리가 그 단어를 어떤 의미로 사용하는지 이해할 수 있다”며 “이번 연구를 통해 ‘person’이라는 단어는 남성을 뜻하는 단어와 더 자주 사용되고, 나아가 ‘person’이라는 단어에 성 차별적 통념이 있다는 것을 밝혔다”고 전했습니다.

한편 카네기 멜론 대학교 심리학과 연구원 몰리 루이스(Molly Lewis)는 “사전 연구에서 ‘여자’는 집, 가정 생활(family life)과 연관되어 있고, ‘남자’는 일(work)과 연관되어 있음이 밝혀지기도 했지만 사회과학 분야에서 계산과학적인 언어 분석을 통해 남자가 인간의 기본 형태라는 근본적인 성차별적 통념을 밝혀낸 것은 처음이다”라고 말했습니다.

또한 연구자들은 사람의 성격을 나타내는 동사나 형용사, 그 가운데서도 ‘외향적’이라는 단어가 여성보다 남성에 더 직접적으로 연관된다는 사실을 밝혀냈습니다. 연구팀이 ‘brave(용기있는)’, ‘kill(잘하다)’, ‘compassionate(자비로운)’, ‘giggle(킥킥거리다)’이라는 단어를 분석한 결과 남성은 모든 단어와 연관됐지만, 여성은 ‘compassionate’, ‘giggle’과 같은 단어와만 관련이 있었습니다.

베일리 연구원은 “대중들은 여성을 좀 더 성차별적인 단어로 생각하는 반면, 남성은 일반적인 단어로 생각하는 경향이 있다”면서 연구를 통해 “사람들은 일반적으로 남성은 모든 일을 할 수 있다고 생각하고, 여성은 특정한 일만 수행할 수 있다고 생각하는 것으로 보인다”라는 점을 확인했다고 밝혔습니다.

일각에서는 이러한 편견이 발생하는 이유가 ‘chairman(회장)’, ‘fireman(소방관)’, ‘human(인간)’ 등 수많은 영어 단어에 이미 성차별적 통념이 숨어있기 때문이라고 지적합니다. 이러한 성차별적 사고를 전환하는 방법으로 위 단어들을 ‘chairperson’, ‘firefighter’와 같은 성 중립적 단어로 대체하는 방법이 제시되기도 했습니다.

일부 비평가들은 “이 연구는 영어 단어 분석 위주로 진행되었기 때문에 다른 언어나 문화에서 해당 연구의 결론이 그대로 적용될지는 미지수”라고 지적했지만, 이미 몇몇 연구에서 다양한 성차별적 단어가 영어가 아닌 다른 언어에도 충분히 존재한다는 사실이 증명된 바 있습니다.

‘person(사람)’이라는 단어가 ‘men(남성)’이라는 단어와 같다는 이번 연구의 결론은 우리 실생활에서 기술을 설계할 때 그대로 반영된다는 점에서 현실적입니다. 예를 들어 자동차 제조업체는 안전 기능을 설계할 때 여성 평균보다 큰 몸과 긴 다리를 가진 평균적인 ‘남성’을 기본 사용자로 설정하고 있습니다. 이는 자동차 사고에서 여성의 부상 위험성이 남성보다 상대적으로 높음을 뜻합니다.

또한 단어에 존재하는 성차별적 개념은 워드 임베딩을 적용한 AI 모델로 확인되기도 했습니다. 실제로 아마존에서 기술 관련 직무 지원자를 선별할 때 언어 모델은 여성을 자동으로 배제했습니다. 이는 AI가 AI를 가르치는 인간만큼 성별에 대한 편견을 가지고 있다는 사실을 증명합니다.


What do you visualize when you read words such as “person,” “people” or “individual”? Chances are the image in your head is of a man, not a woman. If so, you are not alone. A massive linguistic analysis of more than half a trillion words concludes that we assign gender to words that, by their very definition, should be gender-neutral.

Psychologists at New York University analyzed text from nearly three billion Web pages and compared how often words for person (“individual,” “people,” and so on) were associated with terms for a man (“male,” “he”) or a woman (“female,” “she”). They found that male-related words overlapped with “person” more frequently than female words did. The cultural concept of a person, from this perspective, is more often a man than a woman, according to the study, which was published on April 1 in Science Advances.

To conduct the study, the researchers turned to an enormous open-source data set of Web pages called the Common Crawl, which pulls text from everything from corporate white papers to Internet discussion forums. For their analysis of the text—a total of more than 630 billion words—the researchers used word embeddings, a computational linguistic technique that assesses how similar two words are by looking for how often they appear together.

“You can take a word like the word ‘person’ and understand what we mean by ‘person,’ how we represent the word ‘person,’ by looking at the other words that we often use around the word ‘person,’” explains April Bailey, a postdoctoral researcher at N.Y.U., who conducted the study. “We found that there was more overlap between the words for people and words for men than words for people and the words for women…, suggesting that there is this male bias in the concept of a person.”

Scientists have previously studied gender bias in language, such as the idea that women are more closely associated with family and home life and that men are more closely linked with work. “But this is the first to study this really general gender stereotype—the idea that men are sort of the default humans—in this quantitative computational social science way,” says Molly Lewis, a research scientist at the psychology department at Carnegie Mellon University, who was not involved in the study.

The researchers also looked at verbs and adjectives commonly used to describe people—for example, “extrovert”—and found that they were more tightly linked with words for men than those for women. When the team tested stereotypically gendered words, such as “brave” and “kill” for male individuals or “compassionate” and “giggle” for female ones, men were associated equally with all of the terms, while women were most closely associated with those considered stereotypically female.

This finding suggests that people “tend to think about women more in gender-stereotypical terms, and they tend to think of men just in generic terms,” Bailey says. “They’re thinking about men just as people who can do all kinds of different things and thinking about women really specifically as women who can only do gender-stereotypical things.”

One possible explanation for this bias is the gendered nature of many supposedly neutral English words, such as “chairman,” “fireman” and “human.” A way to potentially counteract our biased way of thinking is to replace those words with truly gender-neutral alternatives, such as “chairperson” or “firefighter.” Notably, the study was conducted using primarily English words, so it is unknown whether the findings translate to other languages and cultures. Various gender biases, however, have been found in other languages.

While the bias of thinking “person” equals “man” is somewhat conceptual, the ramifications are very real because this tendency shapes the design of the technologies around us. Women are more likely to be severely injured or die in a car crash because when car manufacturers design safety features, the default user they envision (and the crash dummy they test) is a male individual with a heavier body and longer legs than the average woman.

Another important implication has to do with machine learning. Word embeddings, the same linguistic tools employed in the new study, are used to train artificial intelligence programs. That means any biases that exist in a source text will be picked up by such an AI algorithm. Amazon faced this problem when it came to light that an algorithm the company hoped to use to screen job applicants was automatically excluding women from technical roles—an important reminder that AI is only as smart, or as biased, as the humans who train it.

Similar Posts

로그아웃

파비리서치 로그아웃 하시겠습니까?

로그인

파비리서치의 많은 정보를 확인하기 위해서는 로그인이 필요합니다!