[해외DS] MLOps로 PoC 생산 문제 극복한다 (1)

MLOps 플랫폼 회사 이과지오 공동 창립자 겸 CEO, MLOps를 PoC에 적용하는 방안 설명해 MLOps, ML 애플리케이션 패러다임 ‘생산 우선 접근 방식’으로 전환 기업, ML 기술 부채 방지하기 위해 조기에 MLOps 투자 시작해야

20
pabii research

[해외DS]는 해외 유수의 데이터 사이언스 전문지들에서 전하는 업계 전문가들의 의견을 담았습니다. 저희 데이터 사이언스 경영 연구소(MDSA R&D)에서 영어 원문 공개 조건으로 콘텐츠 제휴가 진행 중입니다.

해당 기사는 이과지오 공동 창립자 겸 CEO의 개인적인 견해임을 밝힙니다.

MLOps는 머신 러닝(Machine Learning)과 관리(Operations)가 합쳐진 단어로, 머신 러닝 시스템의 개발과 그 시스템의 운영을 구분하지 않고 하나로 통합해 관리하는 방법론입니다. 최근 IT 업계에서 많이 언급되는 용어입니다.

새로운 프로젝트를 시작할 때 그 프로젝트가 실현 가능한지를 검증하는 것은 굉장히 중요합니다. PoC는 Proof of Concept의 약자로 우리말로는 “개념 증명” 혹은 “기술 검증”이라 번역되는데, 기술적인 관점에서 프로젝트를 검증하는 과정을 뜻합니다.

이과지오(Iguazio)는 이스라엘의 MLOps 플랫폼 회사입니다. 지난 29일 AI 비즈니스에는 이과지오의 공동 창립자 겸 CEO가 MLOps를 PoC에 적용하는 방안을 설명한 글이 게시됐습니다.

[이과지오 공동 창립자 겸 CEO의 개인적인 의견을 정리한 내용이 이어집니다.]

개인화에서 약물 발견 및 공급망(supply chain) 최적화까지, 데이터 과학자들은 (데이터 과학의) 다양한 응용을 위한 고성능 알고리즘을 연구하고 개발하는 데 수년을 바쳤습니다.

빅데이터가 등장하고, 실제로 채택되면서 이와 같은 ML 접근 방식은 조직의 실제 비즈니스 애플리케이션에서 점점 더 많이 구현되고 있습니다. 특히 PoC(개념 증명)은 매출 증가, 고객 경험 개선, 자원 낭비 감소라는 측면에서 (ML 접근 방식의) 영향을 반복적으로 증명한 분야입니다.

하지만 PoC는 굉장히 자주 실제 생산에 적용되지 않습니다. 이러한 ‘연습’ 과정을 그저 낭비하고 있는 것입니다. PoC의 궁극적인 구현 여부에는 몇 가지 요인이 영향을 미칩니다. MLOps 역시 그 중 하나인데, 일차적인 요인은 아니지만 충분히 핵심적인 요인입니다.

MLOps는 ML 애플리케이션의 패러다임을 생산 우선 접근 방식(production-first approach)으로 전환합니다. 즉 (연구 및 모델 개발이 아닌, 애플리케이션의) ‘생산’이라는 끝을 염두에 두고 시작하는 것입니다.

여기에는 다음과 같은 여섯 가지 잠재적인 이점이 존재합니다.

  1. 보다 빠른 종단 간(end-to-end) 데이터 과학 프로세스
  2. AI 인프라 비용 절감
  3. 팀 내외의 협업 활성화 및 효율성 향상
  4. 확장 가능하고 효율적인 실시간 애플리케이션 지원
  5. 공유 및 확장 가능한 기능 저장소 내에서의 빅 데이터 애플리케이션 지원 활성화
  6. 완전한 CI/CD(Continuous Integration/Continuous Delivery; 지속적 통합/지속적 배포) 및 모니터링을 통한 안정적이고 자동화된 생산

ML의 가치, MLOps가 주도한다

MLOps는 ML 개발과 생산화(productionization)를 통합해 종단 간의 ML 수명 주기에 대한 모범 사례와 지원을 제공하는 분야입니다. 조직으로 하여금 확장 가능하고 애자일(agile)한 패러다임 내에서 ML을 운영하고, ML 솔루션을 성공적으로 구상하고 제공할 수 있도록 하는 중추 역할을 합니다.

생산 우선 접근 방식을 따르는 기업은 미래에서나 도입할 수 있는, 불필요한 ‘ML 기술 부채’가 발생하지 않도록 MLOps에 대한 투자를 조기에 시작해야 합니다. 또한 MLOps를 채택하자는 이야기를 꺼내는 시점은 첫 번째 ML 이니셔티브의 시작 직후여야 합니다.

ML 실무자와 부서장은 어떤 과정을 통해 MLOps 채택을 건의하고 이를 실제로 이끌어 나갈 수 있을까요? 그 과정은 5단계로 나눌 수 있습니다.

1단계: 고위 경영진의 동의 얻기

이니셔티브를 성공적으로 마치기 위해선 고위 경영진의 동의를 얻고, 이를 유지하는 것이 필수적입니다. 이와 같은 ‘지원’을 받기 위해서는 다음 세 가지를 (경영진에게) 제시해야 합니다.

  • 하나 이상의 성공적인 PoC
  • 비즈니스에 MLOps가 중요한 이유
  • MLOps에 전용 리소스가 필요한 이유

구체적으로 하나씩 살펴보겠습니다.

  • 성공적인 PoC

ML 이니셔티브는 일반적으로 PoC의 형태를 취합니다. 이는 기술적 요구 사항, 오프라인 성능 그리고 비즈니스 KPI(Key Performance Indicators, 비즈니스의 성공 여부를 가늠하기 위한 지표. 순이익, 매출성장률, 고객이익률점수 등)가 명확하게 설명된, 한 장짜리 사례 연구의 형태로 표현됐을 때 가장 훌륭하다고 여겨지죠. 구글의 ‘모델 카드’가 이러한 표준화된 템플릿의 좋은 예시입니다.

이때 비즈니스 요구 사항뿐 아니라 기술 요구 사항도 강조해야 한다는 것을 잊어서는 안 되는데, ML 파이프라인을 만들 땐 여러 엔지니어링 구성 요소에 대한 액세스를 포함시켜야 하기 때문입니다. 기술 요구 사항에는 데이터 레이크, 네트워킹, 엔드포인트 등 조직의 구조에 따라 팀 간의 협업이 필요할 수 있는 부분이 포함됩니다.

PoC의 목표는 ML이 비즈니스에 가져올 수 있는 가치와 MLOps 도입이 필요한 해당 엔지니어링의 요구 사항을 설명하는 것입니다. 리엔지니어링 작업에는 비용이 많이 들어갑니다. 따라서 광범위한 최종 애플리케이션에 필요한 엔지니어링 요구 사항의 전체 범위를 이해하는 건 이 초기 단계에서도 중요합니다.

  • MLOps가 중요한 이유

미국의 기술 뉴스 사이트 벤처비트(VentureBeat)에 따르면 ML 프로젝트의 약 87%는 생산으로 이어지지 않습니다. 분명 초기에는 성공적인 PoC였을 텐데요, 왜 이들 대부분이 결국에는 폐기되는 걸까요? 이에 대해서는 몇 가지 이유가 있습니다.

  • 모델이 개발에서 생산까지 이동하는 과정에 광범위한 리소스 및 지식 격차가 존재하기 때문에 ML 운영화(operationalization) 달성이 어렵습니다. 데이터 과학 때문에 리소스 격차가, ML 엔지니어링 때문에 지식 격차가 발생하는 것입니다.
  • PoC는 오프라인 사전 집계 데이터의 하위 집합에 기반해 구축됩니다. 생산화를 위해서는 이를 실시간, 그리고 종종 빅 데이터까지 확장해야 하고 고도로 최적화된 운영을 통해 기본적인 인프라를 설정해야 합니다.
  • PoC는 배치 데이터(batch data, 일정한 주기 동안 만들어진 데이터의 묶음)를 기반으로 구축되지만 많은 생산 시스템은 실시간입니다. 이러한 중요한 워크로드를 안정적이고 확장 가능하게 유지하면서도 굉장히 엄격한 배포 요구 사항을 허용해야 하는, 완전히 새로운 프로세스를 설계해야 합니다.
  • 조직 전반에 걸쳐 업무가 중복되는 일이 생기고, 책임 소재가 불명확하게 되어 해당 이니셔티브가 진부해지고 우선 순위가 낮아지게 됩니다.

하지만 MLOps가 도입된다면 이러한 격차를 해소할 수 있습니다. 재사용성, 확장성 그리고 단순성이 확보된 모범 사례에 맞춰 팀 안팎으로 도구와 프로세스가 표준화되는 생산으로 이어지는, 잘 정의된 경로를 설계하고 구축하기 때문입니다.

AI 애플리케이션 개발에 대한 생산 우선 접근 방식은 ML을 성공적으로 구축하기 위해 MLOps가 필요한 이유를 증명합니다. 환경에 기민하게 대응하는 접근 방식을 통해 ML 이니셔티브의 가치를 신속하게 입증하고, 시간이 경과함에 따라 성능을 지속적으로 개선할 수 있기 때문입니다. 이건 빨리 하기만 하면 실패한 결과라 할지라도 받아들여진다는, 실험 분야의 법칙입니다.

  • 전용 리소스 필요

지난 몇 년 동안 조직은 잘 구축된 DevOps(ML 모델이 아니라 소프트웨어의 배포 및 관리를 최적화하는 방법론. MLOps는 DevOps의 몇몇 모범 사례와 ML 특유의 요구 사항이 합쳐져서 탄생했습니다.) 팀을 만들기 위해 많은 자원을 투자했습니다. 따라서 고위 이해관자가 ‘이미 생산 시스템을 알고, 관리하는 팀이 있는데 이 팀을 활용해서 ML 파이프라인 생산화를 하면 안 되나요?’라고 묻는 건 어찌 보면 당연합니다.

MLOps가 많은 DevOps 개념에서 파생된 건 사실이지만, MLOps와 DevOps가 ‘걱정하는 부분’에는 중요한 차이가 존재합니다. DevOps는 코드’에만’ 초점을 맞추고, MLOps는 모델과 데이터까지도 생각합니다/

머신 러닝 파이프라인의 새로운 엔지니어링 요구 사항을 맞추기 위해서는 DevOps를 넘어 사내 혹은 타사 공급자를 활용, MLOps 도구를 구축하는 투자를 별도로 해야 합니다.

[해외DS] MLOps로 PoC 생산 문제 해결한다 (2)로 이어집니다.


An opinion piece by the co-founder and CEO of Iguazio, an Israeli MLOps platform company.

Data science teams have dedicated many years to researching and developing high-performance algorithms for a variety of applications, from personalization to drug discovery and supply chain optimization.

With the rise and adoption of big data, organizations have increasingly implemented these ML approaches for real-world business applications. Proofs of concept (PoCs) have repeatedly showcased the impact of this discipline in terms of increased revenue, improved customer experience, and reduced resource waste.

But too often, these PoCs do not make it into production, making this exercise a wasted opportunity. While several factors contribute to whether a PoC eventually sees implementation, MLOps is one of the key drivers, if not the primary one.

MLOps offers a paradigm shift to a production-first approach for ML applications – that is, starting with the end in mind.

The potential benefits:

  1. Faster end-to-end data science process
  2. Lower cost of AI infrastucture
  3. Increased collaboration and efficiency within and across teams
  4. Enabled support for scalable and efficient real-time applications
  5. Enabled support for big data applications within a shared and scalable feature store
  6. Reliable and automated productionization with complete CI/CD and monitoring

The value of ML, driven by MLOps

MLOps is a discipline that unifies ML development and productionization to provide best practices and support for the end-to-end ML lifecycle. It serves as the backbone upon which organizations can operationalize ML within a scalable and agile paradigm — and where businesses can ideate and deliver ML solutions successfully.

Following a production-first approach, businesses should start investing in MLOps early to avoid incurring unnecessary ML technical debt that can come with later adoption. And advocating for MLOps should start as soon as your first ML initiative is undertaken.

Here are five steps ML practitioners and department heads can take to advocate for and lead MLOps adoption within their organization.

Step 1: Get buy-in from senior management

All successful initiatives need to get and keep buy-in from senior management to succeed. To get this support, you need to showcase:

  • One or more successful PoCs
  • Why MLOps is important for your business
  • Why MLOps needs dedicated resources

Successful PoCs

ML initiatives typically take the shape of PoCs, which are best represented via one-page case studies that clearly state technical requirements, offline performance, and business KPIs. A good example of a standardized template is Google’s Model Cards.

It is important to highlight technical requirements — not just business requirements — because productionizing ML pipelines involves access to multiple engineering components. These include data lakes, networking, and endpoints, which may require an inter-team effort depending on your organization’s structure.

The aim of a PoC is to illustrate the value ML could bring to the business and the corresponding engineering requirements that require adopting MLOps. It is important even at this early stage to understand the full scope of engineering requirements for the eventual application at scale, to avoid costly re-engineering work.

Why MLOps Is Important

Some 87% of ML projects do not make it to production — ever. There are multiple reasons why most successful PoCs are eventually abandoned:

  • The wide resource and knowledge gap in moving models from development to production makes ML operationalization hard to achieve; the former is the responsibility of data science, while the latter is the task of ML engineering.
  • PoCs are built on a subset of offline pre-aggregated data; productionization requires scaling up to live and often big data, as well as setting up the underlying infrastructure with highly optimized operations.
  • PoCs are built on batch data, but many production systems are real-time; you need to design entirely new processes, which have to allow for very stringent deployment requirements while keeping these critical workloads reliable and scalable.
  • The duplication of efforts and unclear responsibilities across an organization cause initiatives to get stale and be deprioritized.

MLOps bridges these gaps by designing and building a well-defined path to production, where tools and processes are standardized within and across teams following best practices on reusability, scalability, and simplicity.

The resulting production-first approach to developing AI applications is why we need MLOps to make ML successful. An agile approach lets you demonstrate the value of ML initiatives quickly and also keep improving performance over time. This is fundamental for an experimental discipline where failing is an acceptable outcome — as long as you do it fast.

Need for dedicated resources

Organizations have invested many resources in creating well-established DevOps teams in past years. It is thus a fair question for senior stakeholders to ask, ‘why not just take advantage of these teams, who already know and manage production systems, to productionize ML pipelines too?’

While it is true that MLOps draws from many DevOps concepts, there is an important difference in concerns between the two disciplines: The latter focuses on code ‘only,’ while the former also involves models and data.

Moving beyond DevOps and investing in building MLOps tools either in-house or through third-party providers are necessary to cover the novel engineering requirements of machine learning pipelines.

Similar Posts