[해외DS] ‘완벽한 비밀 통신’, 생성형 AI 만나 실현된다 (1)

카네기멜론 대학 연구진, ‘완벽한 스테가노그래피’ 연구 발표 기존 연구 한계, 생성형 AI의 메커니즘 활용하여 극복 AI 생성 메시지에 적극 활용 가능⋯디지털 미디어 분야 ‘주목’

20
pabii research

[해외DS]는 해외 유수의 데이터 사이언스 전문지들에서 전하는 업계 전문가들의 의견을 담았습니다. 저희 데이터 사이언스 경영 연구소 (MDSA R&D)에서 영어 원문 공개 조건으로 콘텐츠 제휴가 진행 중입니다.


사진= GettyImages

2010년 6월 27일 뉴욕은 소란스러웠다. 미국인 신분으로 활동하던 러시아 스파이 10명이 FBI에 체포됐기 때문이다. 해당 사건을 통해 대형 스파이 네트워크가 실체를 드러냈고 이를 통해 큰 주목을 받은 것이 있다. 바로 스파이들이 소통하는 방식이다.

스파이들은 대범하고 은밀했다. 그들은 유명한 웹사이트에 있는 멀쩡한 이미지를 이용했다. 송신자는 이미지를 골라 픽셀 안에 암호화된 메시지를 담았다. 수신자는 이미지를 다운로드하여 0과 1로 이루어진 이진코드로 변환한 다음, 변경된 숫자를 통해 비밀 메시지를 읽을 수 있었다.

이를 눈치챈 사람은 아무도 없었다. 다른 암호화 방식과 달리 비밀 통신을 했다는 사실조차 모르게 하는 것. 이러한 소통 방식을 스테가노그래피(steganography)라고 한다. 스테가노그래피는 비밀 메시지의 존재도 외부에 노출되지 않는 것을 목표로 한다.

그렇다면 완벽한 스테가노그래피는 가능할까? 이러한 ‘완벽한 비밀 통신’이 특정 조건하에 가능하다는 사실이 베른 대학교의 컴퓨터 과학자이자 암호학자인 크리스티안 카친(Christian Cachin)에 의해 오래전에 증명되었다. 하지만 이는 실제로 불가능하다고 여겨진다. 해당 조건을 충족시키는 것이 매우 까다롭기 때문이다.

그러나 새로운 돌파구가 등장한 것으로 보인다. 카네기멜론 대학의 컴퓨터 과학자 사무엘 소코타(Samuel Sokota)를 비롯한 연구진은 카친의 조건을 해결했기 때문이다. 연구진은 논문에서 ChatGPT와 같은 대형 언어 모델의 메시지 생성 원리를 이용해 ‘완벽한 비밀 통신’에 대해 설명했다.

또한 연구진은 논문의 암호 생성 알고리즘을 유명 앱에 적용하려 한다고 전했다. 소코타는 “AI 모델을 활용하는 것이 매우 흔해졌다”며 “인기가 많은 미디어에서 비밀 메시지를 많이 만들 수 있을 것”이라고 말했다.

연구진은 기존의 한계를 정보 이론(Information Theory)을 통해 극복했다. 정보 이론에서는 모든 종류의 소통을 수학적으로 분석하고 응용한다. 해당 분야에 속한 빙엄턴 대학교 연구원 제시카 프리드리히(Jessica Fridrich)는 “정보 이론이 스테가노그래피에 쓰인 경우는 거의 없다”며 두 분야를 융합한 연구진의 결과를 긍정적으로 평가했다.

나아가 연구진의 알고리즘에 대해 다양한 의견이 오가고 있다. 뉴욕 러시아와 같은 스파이 네트워크를 활성하는 것 아니냐는 우려가 있는 한편 암호화 기술이 금지된 국가에서 정보 통신에 유용하게 쓰일 수 있다는 기대가 잇따르고 있다.

스테가노그래피의 역사

그리스어로 “글을 가리다”를 의미하는 스테가노그래피의 역사는 수천 년이다. 그 첫 사례는 5세기에 쓰인 헤로도토스의 <역사>에서 볼 수 있다. 나무판에 문서를 적은 후 왁스 칠을 해서 가구를 만든 것이다. 이뿐만이 아니다. 특정 글자 위에 보이지 않는 잉크로 점을 찍어 메시지를 숨기고 그 위에 다른 메시지를 적기도 했다. 극단적인 경우로는 폭군 지도자 히스티아누스가 노예의 머리를 깎고 두피에 메시지를 문신으로 새긴 후 머리가 자랐을 때 전령을 보내기도 했다.

스테가노그래피는 기술의 발전을 만나며 계속 새로워졌다. 제1차 세계대전 당시 독일 스파이들은 마이크로닷을 통해 정보를 송수신했다. 문서를 복사한 후 ‘i’의 점만큼 작아질 때까지 축소하고 이를 다시 확대해야 메시지를 읽을 수 있는 방식이다.

1980년대에는 정치계도 주목하기 시작했다. 마거릿 대처 영국 총리는 언론에 정보가 연이어 유출되자 각료들의 워드 프로세서를 재프로그래밍했다. 문서에 단어 간 특정 패턴을 심은 것이다. 이 방식을 통해 영국 정부는 문서가 유출되었을 때 패턴을 인식하여 유출 과정을 역추적할 수 있었다.

이처럼 진화를 거듭한 스테가노그래피는 현대에 이르러서 더욱 다양한 모습을 보인다. 보이지 않는 잉크로 글을 쓰고, 그림의 설명란에 아티스트 서명을 숨기고, 음성 파일을 역방향으로 설계하는 등 여러 분야에서 다양한 방식으로 이뤄지는 것이다.

더 복잡한 방식도 가능하다. 프리드리히 연구원은 “음성 파일에 이미지를 숨길 수도 있고, 이미지에 텍스트를 삽입할 수도 있다”며 디지털 미디어 시대에서 스테가노그래피가 가지는 위력을 언급했다.

‘완벽한’ 비밀 통신

완벽한 비밀 통신을 위해 수학자와 컴퓨터 과학자들이 수학적 규칙을 찾기 시작한 것은 1980년대부터였다. 그들은 정보 이론(Information Theory)이 탄생한 1948년의 한 논문, 클로드 섀넌(Claude Shannon)의 “통신의 수학적 이론”에 주목했다.

섀넌은 “엔트로피(Entropy)”라는 아이디어를 떠올렸다. 엔트로피는 문자나 메시지를 인코딩하는 데 필요한 비트 수와 같이 변수에 포함된 정보량을 정량화한 것이다. 엔트로피를 통해 문장이나 메시지에 담긴 정보량을 계산할 수 있다. 또한 섀넌은 완벽하게 안전한 암호화를 위한 규칙을 정립했다.

그리고 50년 뒤 카친은 섀넌의 아이디어에 영감을 받았다. 그는 언어를 확률적으로 바라봤다. 예를 들어, 메시지를 주고받는 두 요원 앨리스와 밥을 생각해 보자. 앨리스가 메시지를 작성할 때 “kerfuffle”이라는 단어보다 “the”라는 단어가 더 많이 선택될 것이다. 카친은 여기서 각 단어가 확률 분포를 가질 수 있다고 생각했다. 즉 그에 따르면 영어 사전에 있는 모든 단어를 확률 분포로 표현할 수 있고 나아가 스테가노그래피를 통해 암호화된 메시지는 자체적으로 확률 분포를 가지는 것이다.

한편 완벽한 암호 메시지란 일반 메시지와 ‘구별’할 수 없는 암호 메시지로 볼 수 있다. 그렇다면 정보 이론에서는 메시지를 어떻게 ‘구별’할까? 먼저 카친의 생각을 빌려 각각의 메시지를 확률 분포로 표현한다. 그리고 정보 이론의 상대 엔트로피라는 척도를 사용하여 확률 분포를 비교한다. 두 분포 간의 상대 엔트로피가 통계적으로 유의미한 수치라면 두 메시지를 서로 다른 것으로 판단할 수 있다. 하지만 상대 엔트로피가 0이면 통계적 분석으로는 판단할 수 없다. 즉 두 메시지는 구별할 수 없고, 이때 완벽한 비밀 통신이 가능해지는 것이다.

하지만 아직 실현된 적은 없다. “일반 메시지와 구별할 수 없는 암호 메시지를 만들려면 텍스트 분포에 대한 완벽한 시뮬레이션을 만들어야 한다”고 카친은 말했다. 더불어 사람의 언어 생성 메커니즘은 매우 복잡하다. 사람의 암호 메시지를 완전한 확률 분포로 표현하는 건 불가능에 가깝다. 이로 인해 사람 간 완벽한 스테가노그래피가 어렵다는 것이 세간의 인식이다.

한계는 사람에만 국한되지 않았다. ChatGPT와 다른 대형 언어 모델은 합리적인 시뮬레이션을 생성할 수 있지만 정확도가 떨어진다는 문제가 있다. 이를 두고 복잡계를 연구하는 프리드리히 연구원은 “완벽한 시뮬레이션은 결코 충족될 수 없어서 실제 모델을 만드는 것은 실현하기 어려울 것”이라며 “완벽하게 안전한 스테가노그래피는 불가능하다”고 밝혔다.

[해외DS] ‘완벽한 비밀 통신’, 생성형 AI 만나 실현된다 (2)로 이어집니다.


On June 27, 2010, the FBI arrested 10 Russian spies who lived and worked as American professionals near New York City. The case, which unraveled an intricate system of false identities and clandestine meetings, exposed one of the largest spy networks in the U.S. since the Cold War ended and inspired the show The Americans.

It also brought attention to steganography, a way of disguising a secret message within another message. The New York spies hid their secrets in plain sight, encoding communications within the pixels of seemingly innocuous images posted on publicly available websites. To read them, the recipient had to download an image, translate it into the 1s and 0s of binary code, and know which altered digits, taken in sequence, would spell out the secret.

Steganography, which is both an art and a science, differs from the better-known method of secret communication known as cryptography. Where cryptography intentionally conceals the content of a message, transforming it into a tangle of text or numbers, steganography conceals the fact that a secret exists at all. “Steganography hides the presence of the message,” said Christian Cachin, a computer scientist and cryptographer at the University of Bern. “If an adversary can detect a hidden message, then the sender has lost the game.”

As with any method of covert communication, the challenge is how to make it perfectly secure, meaning neither a human nor a machine detector would suspect a message of hiding a secret. For steganography, this has long been a theoretical possibility, but it was deemed impossible to achieve with actual human communications.

The advent of large language models such as ChatGPT suggests a different way forward. While it might be impossible to guarantee security for text created by humans, a new proof lays out for the first time how to achieve perfect security for steganography in machine-generated messages — whether they’re text, images, video or any other media. The authors also include a set of algorithms to produce secure messages, and they are working on ways to combine them with popular apps.

“As we increasingly become a society where it’s very common to interface with AI models, there are increasingly many opportunities to encode secret information in media that people use all the time,” said Samuel Sokota, a computer scientist at Carnegie Mellon University who helped develop the new algorithms.

The result comes from the world of information theory, which provides a mathematical framework for understanding communication of all sorts. It’s an abstract and tidy field, in contrast to the complicated messiness of practical steganography. The worlds don’t often overlap, said Jessica Fridrich, a researcher at Binghamton University who studies ways to hide (and detect) data in digital media. But the new algorithms bring them together by satisfying long-standing theoretical criteria for security and suggesting practical applications for hiding messages in machine-generated content. The new algorithms could be harnessed by spies like the New York Russians, but they could also help people trying to get information in or out of countries that prohibit encrypted channels.

SHAVED HEADS AND OTHER STRATEGIES

The schemes of steganography, Greek for “covered writing,” predate digital media by millennia.ADVERTISEMENT The earliest known examples show up in The Histories by Herodotus, written in the 5th century BCE. In one story, a message is written on wooden tablets and hidden by a layer of wax to avoid interception during its journey. In another, attributed to Aeneas the Tactician, a message hides dots of invisible ink over certain letters, which spell out the true message. In a more extreme example, the tyrannical leader Histiaeus wants to communicate a strategy to his nephew without detection, so he shaves the head of a slave, tattoos his message on the man’s head and waits for the hair to grow back before sending the messenger. Upon arrival, the nephew shaves the messenger’s head, revealing the plans. These strategies have persisted, and technology has allowed for new ones. German spies during World War I found ways to transmit information via microdot: They copied and reduced a document until it was as small as the dot of an “i,” which appeared innocent but could be revealed through magnification.

Politicians, too, have turned to the deceptive art. In the 1980s, after a series of press leaks, the British prime minister Margaret Thatcher allegedly had the word processors of her ministers reprogrammed so that each had its own, nigh-undetectable but unique pattern of word spacing. That slight modification allowed leaked documents to be traced to the source.

The approach continues to flourish in the 21st century, for good and evil. Modern steganographic strategies include writing messages in invisible ink (another tactic used by the Russian spies in New York), concealing artist signatures in painting details, and designing audio files with a hidden or backward track. Fridrich says steganographic approaches in digital media can also help hide images in voicemail files or, as in the case of the Russian spies, place written text in doctored photographs.

FORMALIZING SECRECY

It wasn’t until the 1980s that mathematicians and computer scientists began to seek formal, mathematical rules for steganography, Cachin said. They turned to information theory, a field that had begun with Claude Shannon’s seminal 1948 paper “A Mathematical Theory of Communication,” which established an analytical approach to thinking about sending and receiving information through a channel. (Shannon modeled telegraph lines, but he laid the groundwork for today’s digital technologies.) He used the term “entropy” to quantify the amount of information in a variable — the number of bits required to encode a letter or message, for example — and in 1949 he hammered out rules for perfectly secure cryptography. But Shannon didn’t address security in steganography. ADVERTISEMENT Almost 50 years later, Cachin did. His approach, in the spirit of Shannon, was to think about language probabilistically. Consider two agents, Alice and Bob, who want to communicate a message via steganography and keep it secret from Eve, their adversary. When Alice sends an innocuous message to Bob, she selects words from the entire English lexicon. Those words have probabilities associated with them; for example, the word “the” is more likely to be chosen than, say, “lexicon.” Altogether, the words can be represented as a probability distribution. If Alice uses steganography to send an encoded message to Bob, that message will have its own probability distribution. Information theorists use a measure called relative entropy to compare probability distributions. It’s like measuring an abstract kind of distance: If the relative entropy between two distributions is zero, “you cannot rely on statistical analysis” to uncover the secret, said Christian Schroeder de Witt, a computer scientist at the University of Oxford who worked on the new paper. In other words, if future spies develop a perfectly secure algorithm to smuggle secrets, no statistics-based surveillance will be able to detect it. Their transmissions will be perfectly hidden. But Cachin’s proof depended on a critical assumption about the message hiding the secret, known as the cover text. In order to come up with a new message indistinguishable from the original, innocuous one, you have to create a perfect simulation of the cover text distribution, Cachin said. In a written message, for example, that means using some tool that can perfectly simulate a person’s language. But human-generated text is just too messy. It’s possible to come close — ChatGPT and other large language models can produce convincing simulations — but they’re not exact. “For human-generated text, this is not feasible,” Cachin said. For that reason, perfectly secure steganography has long seemed out of reach. Fridrich, whose research focuses on the complicated real-world intricacies of hiding messages in human-made digital media like photographs and text messages, said perfect simulation is a condition that will never be met. “The problem with digital media is that you will never have that real model,” she said. “It’s too complex. Steganography can never be perfect.”

Similar Posts