[해외DS] GAI, 비즈니스 판도 바꿀 핵심 역할 될까

GAI, 비즈니스 전략의 새로운 중심 되어가고 있다 AI Business, LLM 자체 개발 및 커스터마이징 등 GAI 활용한 비즈니스 전략 소개 GAI 뿐만 아니라 회사 내부 조건에 따라 비즈니스 활용 양상 달라질 것

pabii research

[해외DS]는 해외 유수의 데이터 사이언스 전문지들에서 전하는 업계 전문가들의 의견을 담았습니다. 저희 데이터 사이언스 경영 연구소 (MDSA R&D)에서 영어 원문 공개 조건으로 콘텐츠 제휴가 진행 중입니다.


사진= AI Business

생성형 인공 지능(GAI)의 위상이 부상하면서 다양한 분야의 기업들이 GAI를 중심으로 비즈니스 전략을 수립하고 있다. 이와 같이 급변하는 비즈니스 접근 방식은 제품 관리자들은 최신 AI 기술을 제품에 반영하려는 경향에서도 볼 수 있다.

GAI 시스템은 주로 지식 공유, 코드 생성, 질문-답변 교환, 미디어 생성 및 데이터 증강 기능을 중심으로 작동한다. 맞춤형 GAI는 특정 결과에 최적화된 결과물을 제공할 수 있다. 예를 들어, 회사는 GAI에 특정 지시를 입력하여 인포그래픽(정보를 시각적으로 나타낸 것)을 생성할 수 있다. 맞춤형 GAI는 데이터 프라이버시에 대한 규정을 준수하고 지적 재산을 보호하는 수준이 높다.

이러한 GAI는 앱 개발에 혁신을 일으키고 있다. 특정 요구 사항이나 아이디어를 바탕으로 한 AI 모델은 비즈니스에 경쟁 우위를 가져올 수 있기 때문이다.

한편 GAI는 주로 대형 언어 모델(LLM)로 구성되어 텍스트 생성에 활용된다. 이러한 시스템의 개발은 기존의 AI 또는 머신 러닝 시스템과 다르다. LLM 대부분은 텍스트 데이터로 학습되고 사람이 검증한다.

AI Business에서는 GAI를 개발할 수 있는 세 가지 방법을 소개했다.

대형언어모델 자체 개발

회사가 자체 LLM을 만들 수 있다. 최근 오픈 소스 모델과 이를 미세 조정하는 기술이 개발되면서 자체 개발이 현실적으로 가능해졌기 때문이다. 이 방식은 계산 비용이 많이 들지만 데이터를 사내에 보관하므로 데이터 보안이 향상된다. 또한 특정 비즈니스에 맞게 고도로 맞춤화된 모델을 만들 수 있다는 장점이 있다.

현재 가장 성능이 뛰어난 오픈소스 LLM은 Falcon-40B 모델이다. 아파치 라이센스(Apache license)로 제공되는 이 모델을 사용하여 회사의 데이터를 미세 조정할 수 있다. 이 과정에는 먼저 데이터를 준비하고 토큰으로 변환하는 작업이 포함된다. 다음 단계로는 허깅 페이스(Hugging face)의 ‘트랜스포머(Transformer)’ 라이브러리를 통해 모델과 해당 토큰화 도구를 로드하는 것이다.

학습 과정을 효율적이고 관리하기 쉽도록 하기 위해 PEFT(Progressive Embedding Finetuning) 라이브러리를 사용하는 QLoRA(Quantised Low-Rank Adapters)라는 접근 방식을 사용할 수 있다. 학습이 완료된 후에는 모델의 성능을 확인하고 학습한 지식을 저장하여 향후 앱에서 활용할 수 있다.

기존 대형언어모델 커스터마이징

또 다른 방법으로 비즈니스 데이터를 위한 맞춤형 GAI를 개발할 수 있다. 바로 랭체인(LangChain)이나 AutoGPT와 같이 최근에 개발된 프레임워크를 사용하는 것이다. 이 접근 방식은 외부 LLM을 사용하기 때문에 지불하는 계산 비용이 상대적으로 낮은 편에 속한다. 하지만 기업 데이터가 상업용 GAI에 노출된다는 단점이 있다.

랭체인과 같은 프레임워크는 문서 분석 및 요약, 챗봇, 코드 분석과 같은 맞춤형 사용 사례를 개발하기 위해 대부분의 문서 유형을 통합할 수 있다.

이를 위해 훈련된 LLM이나 ChatGPT API와 같은 LLM API가 필요하다. 이후 벡터 임베딩 변환 및 로드와 같은 과정을 거쳐 GAI를 만들 수 있다. 이 GAI가 생성한 쿼리 기반 답변에 랭체인이 쓰인다는 것이다.

비즈니스용 GAI 활용

비즈니스에 활용할 AI를 가진 회사로부터 비즈니스 중심 GAI 솔루션 또는 라이선스를 획득하는 것도 하나의 방법이다. 이 방법은 계산 비용을 대신 처리해주며 이미 시장에서 검증된 기술을 사용할 수 있다는 점이 큰 장점이다.

단점도 명확하다. 데이터 제어 및 커스터마이징이 까다로운 탓에 많은 비용이 발생한다. 또한 사내 데이터 보안 유지를 위해 법적 계약이 필요하기도 하다.

라잇소닉(Writesonic)의 Chatsonic, Perplexity AI, Jasper AI, Open AI for business 등과 같이 여러 플랫폼에서 GAI 기능을 제공하고 있다. 이 기술을 활용하기 위해 필요한 기술 이해도는 높지 않은 것으로 알려졌다. 또한 이 전략은 자체 AI 개발보다 핵심 비즈니스 역량에 투자하는 조직에 가장 적합하다는 것이 시장의 인식이다.

세 가지 방식 뿐만이 아니라 훨씬 다양한 전략이 가능하다. 회사가 전략을 선택하는 기준이 개발 비용, 엔지니어링 역량, 데이터 보안, 출시 기간, 그리고 비즈니스 리스크와 같이 매우 광범위하기 때문이다 .


The rise of generative artificial intelligence (GAI) is pushing decision-makers to think about developing or using it for their businesses. Many companies from different sectors have either started creating their business strategies around GAI or planning to do it soon. This change in business approach has compelled product managers to customize their products in line with the latest AI adoption.

GAI systems primarily function around knowledge-sharing, code generation, question-answers exchange, media generation and data augmentation capabilities. A customized GAI can provide custom outputs tailored to a specific outcome.

For instance, a company can generate infographics based on the input instructions. Moreover, customized GAI offers improved control over data privacy, ensuring compliance with regulations and safeguarding intellectual property. In addition, GAI fuels innovation and the creation of unique applications. Aligning AI models to cater to specific needs or ideas provides a competitive advantage to businesses.

The GAI component discussed here is mainly about text-generation models called Large Language Models (LLMs). The development of such systems differs from conventional AI or machine learning systems; the LLM models are often trained on textual data and validated by humans.

Here are three different strategies for developing and deploying GAI:

1. Train your own LLMs: Computationally expensive with high data control and extremely customizable

The recent development of open-source models and technologies to fine-tune them make this approach significantly feasible. This approach can be computationally expensive, but it keeps data in-house, thus resulting in better security of the data. It also can be highly customizable to business.

The most capable open-source LLM at present is the Falcon-40B model. Your company’s data can be fine-tuned using this model, which is available under the Apache license. The process involves first preparing and converting the data into tokens. The next step is  loading the model and its corresponding tokenizer using Hugging Face’s ‘transformers’ library.

An approach called QLoRA (Quantised Low-Rank Adapters) using the PEFT (Progressive Embedding Finetuning) library can be used to make this learning efficient and manageable. After completion of training, the model should be checked for performance quality and then its learned knowledge can be saved for future applications.

2. Customize commercial LLMs like ChatGPT using frameworks such as LangChain: Very low computation cost and customizable using in-house data but with low data control

Another way to develop a customized GAI for business data is by using recently developed frameworks such as LangChain or AutoGPT. This approach is computationally and technically inexpensive due to the use of external LLMs. But it does expose the commercial GAIs to company’s data.

Frameworks such as LangChain allow incorporation of most of the document types to develop customized use cases such as document analysis and summarization, chatbots, and code analysis. Its first requirement is to have a trained LLM or LLMs APIs − for instance, the ChatGPT API.

The next step involves converting text to vector embeddings using the OpenAIEmbeddings library. The vector embeddings can be saved in a vector storage for pre-processing, vector search, and handling using a library like FAISS (Facebook AI Similarity Search).

The set up will require the OpenAI API key or other LLMs configured beforehand. After this process, vector embeddings need to be loaded. Once the set up is ready to use, LangChain will use the vector storage’s Similarity Search and fetch the relevant data upon querying. The search results with the help of LLM API then generate readable answers based on the query.

3. LLMs like ChatGPT/BARD/other GAIs for business: Computation cost is outsourced but with low data control and customization potentially comes a cost

The procedure primarily involves obtaining a business-centric GAI solution or a license from an AI company that may or may not provide customizability for your business. The approach offers the well-tested tools available in the market but requires a legal agreement to maintain the security of the in-house data.

Several platforms in the market provide GAI capabilities, such as Chatsonic by Writesonic, Perplexity AI, Jasper AI, Open AI for business, etc. These tools should be evaluated for their cost and use-case fit with the business requirements. This approach requires minimal technical capabilities and potentially are the best fit for organizations that want to invest in core business capacities than developing AI capabilities in-house.

As a final thought, any of the above approaches can be chosen based on company’s business criteria, for example, cost of development, engineering strength, data security, time-to-market, and most importantly, the risk it poses to business solutions.

Similar Posts