[번역] Synthetic Data란 무엇인가요? by IBM Technology

IBM Technology 에서 Synthetic data에 대해 다룬 유튜브 내용입니다. 본문에서는 합성 데이터라고 하였습니다. 실제 소스에서 수집된 데이터가 아닌, 컴퓨터 알고리즘에 의해 생성된 데이터를 의미합니다. 보통 머신러닝 모델훈련 / 수학적 모델 테스트 등에 사용됩니다. 이러한 데이터를 사용하는 이유는 빠르고 쉽게 생성할 수 있으며, 특정 요구 사항에 맞도록 제작할 수 있습니다. 추가로 실제 데이터를 사용해서 얻기가 어려운 시뮬레이션에도 사용할 수 있죠. 반면 실제 데이터만큼 정확하지 않거나, 현실 세계를 반영하지 못 할 수 있다는 단점이 있습니다. 이러한 내용을 보시고 아래 내용을 보시면 더 도움이 될 듯 합니다.

안녕하세요, 저는 제 팀인 사우삼프턴 축구 클럽이 프리미어 리그에서 우승한 횟수를 나열하고 있었습니다. 하지만 이 날짜들은 슬프게도 합성 데이터라고 알려져 있어요. 가짜 데이터라는 뜻입니다. 사실, 사우삼프턴은 프리미어 리그에서 단 한 번도 우승한 적이 없습니다.

합성 데이터는 현실 세계에서 발생하는 것이 아닌 인공적으로 생성되는 정보입니다. 그래서 조금 쓸모 없어 보일 수도 있죠. 그러나 실제로 합성 데이터는 매우 생산적인 목적으로 사용되고 있으며 인기도 높아지고 있습니다. 먼저 합성 데이터의 정의를 알아보고, 그 다음에는 합성 데이터의 용도와 이점을 살펴 볼 거예요. 왜 가짜 데이터가 필요한 것일까요? 그리고 어떤 일을 할 수 있을까요?

세 번째로, 이런 접근 방식에 대한 몇 가지 도전과제를 알아볼 거고, 네 번째는 합성 데이터를 어떻게 생성하는지에 대해 알아볼 겁니다. 합성 데이터란 컴퓨터로 생성되어, 기존 데이터셋이나 알고리즘, 모델에서 파생되어 실제 데이터의 속성과 특성을 복제하는 것을 말해요. 그리고 이는 광범위한 용어로 사용됩니다.간단한 데이터 합성부터 딥러닝 모델에 이르기까지 다양한 프로세스와 기술을 다룹니다. 하지만 왜 이 모든 가짜 데이터가 필요할까요? 실제 데이터는 구하기 어렵거나 쉽게 접근할 수 없는 민감한 기밀 정보이기 때문인 경우가 많습니다. 금융 분야의 재무 기록 등이 대표적인 예입니다. 재무 기록은 마련하기 어렵고, 의료 기록과 같은 정보들은 기밀사항일 수 있습니다.

그렇다면 신디컬 데이터가 어떠한 이점을 제공하는지 살펴보겠습니다. 여러 가지 장점이 있는데, 그중 하나는 저렴하고 쉽게 생성할 수 있다는 것입니다. 또한 이 데이터는 완벽하게 레이블이 지정된 데이터이기 때문에 정확하게 필요한 대로 정의할 수 있습니다. 이와는 대조적으로 실제 데이터는 이러한 이점을 모두 갖지 못합니다. 그렇다면 이 데이터가 어떤 용도로 사용될 수 있을까요? 이에 대해서는 '사용 및 이점'이라는 섹션에서 더 자세하게 다루겠습니다.

데이터가 많이 필요한 인공 지능과 머신 러닝 분야에서 가장 큰 이점이 있습니다. 라벨이 잘 지정된 대량의 합성 데이터를 활용하여 모델을 학습시키고, 그 결과로 얻어진 머신 러닝 알고리즘을 실제 데이터에 적용할 수 있습니다.가트너에 따르면, 2025년까지 인공지능(AI) 파이프라인에 필요한 실제 데이터의 양이 70% 줄어들 것으로 예상됩니다. 이제 합성 데이터는 도메인 특화, 잘 레이블링된 대용량의 데이터를 합리적인 비용으로 제공할 것입니다. 또한 합성 데이터를 사용하면 사기 탐지 알고리즘이 학습된 모델에서 보안 결함을 조사할 수 있고, 자율 주행 차량은 실제로 존재하지 않는 도로 구조에서 시나리오를 테스트할 수 있습니다. 또한 합성 데이터를 생성하여 실제 데이터 세트에 존재할 수 있는 편향을 최소화함으로써 AI 모델을 더욱 공정하고 정확하며 신뢰할 수 있게 만들 수 있습니다.

그렇다면, 합성 데이터를 모두 사용하기에 이르게 되어 이론적으로 지저분한 현실 데이터에는 신경쓸 필요가 없어지게 됩니다. 하지만 세 번째 도전 과제인 제약사항을 생각해볼 때, 합성 데이터는 모델 성능에 영향을 미칠 수 있는 다양한 현실 요소를 항상 정확하게 반영하지 못합니다. 말하자면, 예기치 않은 이벤트는 합성 데이터에 반영되지 않습니다. 10년 전, 프리미어리그 10년 우승팀에 대한 합성 데이터를 생성했다면, 레스터 시티를 포함한 모델은 거의 없었을 것입니다. 하지만 레스터 시티는 2015년, 우승 확률이 5,000대 1에 불과한 시즌을 시작하며 프리미어리그에서 우승을 차지했습니다.'현실은 소설보다 더 낯설다'는 말이 있듯이, 실제 삶은 종종 소설보다 더 낯설을 때가 있습니다.

그렇다면 합성 데이터는 어떻게 생성할까요? 그 과정은 의외로 간단합니다. 간단히 말해, 필요한 데이터 유형을 정의하고, 필요한 데이터 소스를 식별한 다음, 사양에 따라 데이터를 생성하면 됩니다. 가장 간단한 접근 방식은 기존 데이터 집합을 사용한 다음 이를 조작하여 새로운 예제를 만드는 것입니다. 따라서 여기서 기존 데이터 집합으로 시작하면 일종의 조작을 수행할 수 있습니다. 데이터 세트에 노이즈를 추가하거나 일부 데이터를 변형하여 새로운 데이터를 만들 수도 있습니다.

또한 기존 데이터를 학습하여 데이터를 생성하는 생성적 적대 신경망(GAN)과 같은 고급 기술도 있습니다. 그리고 수학적, 통계적 방법을 사용하여 특정 분포를 따르는 데이터를 생성하는 합성 데이터 생성기도 있습니다. 따라서 합성 데이터는 실제 데이터의 정확한 근사치이자 유용한 데이터를 생성할 수 있는 강력한 도구가 될 수 있습니다. 그러나 특히 실제 데이터를 복제하려고 할 때 이와 관련된 잠재적인 함정과 과제를 인식해야 합니다.그리고 가장 중요한 점은, 2024년 프리미어리그 우승팀 명단에서 사우샘프턴이 누락된 합성 데이터를 믿지 않는 것입니다. 알 수 없으니까요.

질문이 있으시면 아래에 댓글로 남겨 주세요. 앞으로도 이런 영상을 더 보고 싶다면 좋아요와 구독 버튼을 눌러주세요. 시청해 주셔서 감사합니다.