로우 데이터 분석 AI
기업들이 가지고 있는 데이터 속에서 본인들에게 필요한 인사이트를 추출할 수 있어야 비즈니스 전략을 수립하고 경쟁력을 갖출 수 있음
기업들이 가지고 있는 데이터 속에서 본인들에게 필요한 인사이트를 추출할 수 있어야 비즈니스 전략을 수립하고 경쟁력을 갖출 수 있음
예시
제조 기업은 자사 생산 비행기 엔진에 센서를 부착해 수집된 데이터를 분석해 실시간 엔진 상태를 점검하고, 정비 시기 알람을 받는다. 금융권은 데이터 분석으로 고객 성별·연령대별 소비 생활을 파악하고, 각각의 관심사에 맞는 금융상품을 설계해 출시한다
데이터 분석을 통하여 얻을 수 있는 인사이트
- 통계적 요약: 평균, 중앙값, 표준 편차, 범위
- 상관 분석: 두개 이상의 변수 간의 상관도
- 회귀 분석: 종속 변수와 독립 변수간의 관계 모델링
- 이상치 탐지: 사기감지, 금융이나 품질 관리에서 많이 사용함
- 클러스터링: 고객 세분화, 실험 결과 그룹화로 데이터 내의 패턴을 찾아냄
대부분의 영세한 서비스 기업들은 개발자들이 데이터베이스에서 뽑아서 볼수 있게 백오피스를 제작하여 뷰잉 해주는 수준이거나, 조금 더 나아가면 테블로 같은 도구로 시각화하여 보거나 더 큰 회사라면 데이터 분석가가 파이썬으로 한땀한땀 짠 코드로 분석함
문득 LLM과 성격이 비슷한 패턴 찾기(클러스터링) 분석이 가장 유효할 것 같다는 생각이 듦
도메인별 LLM의 실제 사례: 비즈니스에 맞춤형 AI 도입
https://ko.upstage.ai/feed/insight/examples-of-domain-specific-llms
텍스트용 Vertex AI 임베딩: 간편해진 LLM 그라운딩
Open AI Text Embedding API
https://platform.openai.com/docs/guides/embeddings
Embeddings
LLM(Large Language Model)을 사용하여 데이터 포인트를 벡터 공간에 저장하는 과정을 임베딩이라고하는데 이는 데이터 포인트를 고차원 벡터 공간에 매핑하는 과정으로, 데이터 포인트 간의 의미론적 및 구문론적 관계를 수치적으로 표현이 가능함
소규모 기업은 서버 개발자들이 직접 데이터를 엑셀이나 csv로 뽑아서 기획자가 분석함 (실제경험..)
그래서 실시간으로 CSV 데이터를 입력받아 벡터 임베딩 후 클러스터링 인사이트를 도출해주는 솔루션을 만들어 보고자 함
- 데이터 전처리 및 구조화
- 임베딩 생성: 텍스트 임베딩 API 혹은 파운데이션 모델에,데이터 포인트를 벡터 공간에 매핑하여 클러스터링 입력값으로 넣음
- 클러스터링 분석: K-평균, 계층적 클러스터링, DBSCAN
- 인사이트 도출 및 시각화: LLM을 통해 각 클러스터 대표하는 키워드나 문구를 추출하고, 이를 바탕으로 클러스터의 주요 내용을 설명. https://arxiv.org/pdf/2305.14871
- 실시간 처리:데이터가 시스템에 입력되는 즉시 임베딩과 클러스터링이 수행
고민..
- 상용 텍스트 임베딩 API는 구현이 쉬움, 그러나 비쌈, 그리고 중요 데이터를 쉽게 넘기기 어려움
- 자체 제작한 파운데이션 모델에 임베딩을 한다면 특정 도메인이나 데이터셋에 맞출수는 있지만 모델 유지 보수에 얼마나 시간과 비용이 들지 모르겠음...
API 비용 대비 파운데이션 모델 유지비용이 얼마나 되는지?
OpenAI의 텍스트 임베딩 API 비용과 AWS SageMaker를 통한 파운데이션 모델 유지비용 비교
- OpenAI 텍스트 임베딩 API 비용:
- OpenAI의 "text-embedding-3-large" 모델은 1,000 토큰당 $0.00013의 비용이 발생합니다.
- 이는 예를 들어 1,000,000 토큰을 처리할 경우 $130의 비용이 발생한다는 것을 의미합니다.
- AWS SageMaker 파운데이션 모델 유지비용:
- AWS SageMaker의 비용은 주로 사용한 컴퓨팅 리소스, 저장 공간, 데이터 전송량에 따라 달라집니다. 정확한 숫자를 제공하지 않지만, 대규모 데이터와 복잡한 모델 훈련에는 상당한 비용이 발생할 수 있습니다16.
- 예를 들어, SageMaker를 사용하여 대규모 파운데이션 모델을 훈련하고 유지하는 데 수천에서 수만 달러의 비용이 발생할 수 있습니다, 특히 고성능 컴퓨팅 인스턴스를 사용하는 경우 비용이 더욱 증가할 수 있습니다.
비교 결과 비용관리 측면에서 API 압승..
Idea escalation
데이터를 받고 의사 결정이 어려움에 느껴서 의사 결정에 참고하거나 보정해줄 수 있는데... 반드시 데이터를 본 후에 의사 결정을 하는것인가?
유사 솔루션
CSV Explorer : https://www.csvexplorer.com/
하이퍼라운지: https://hyperlounge.ai/
Citations:
[1] https://cloud.google.com/blog/ko/products/ai-machine-learning/how-to-use-grounding-for-your-llms-with-text-embeddings?hl=ko
[2] https://aws.amazon.com/ko/what-is/large-language-model/
[3] https://tech.scatterlab.co.kr/vllm-implementation-details/
[4] https://maily.so/saascenter/posts/d8c02ebc
[5] https://www.elastic.co/kr/elastic-stack/features
[6] https://www.elastic.co/kr/kibana/features
[7] https://www.samsungsds.com/kr/insights/rag-customization.html
[8] http://www.koreascience.or.kr/journal/CPTSA9.page?lang=ko
[9] https://narrowmoon.tistory.com/2
[10] https://community.heartcount.io/ko/llm-text-anlaytics/
[11] https://www.syncly.kr/blog/what-is-embedding-and-how-to-use
[12] https://joyfuls.tistory.com/m/64
[13] https://jiniai.biz/?p=1972
[14] https://developer.nvidia.com/ko-kr/blog/rag-101-demystifying-retrieval-augmented-generation-pipelines/
[15] https://cloud.google.com/blog/ko/products/ai-machine-learning/sts-retrieval-embeddings-usecase?hl=ko
[16] https://aboutnlp.tistory.com/m/61
[17] https://velog.io/%40amzyoungchae/ML-군집분석
[18] https://smilegate.ai/2023/11/07/vector-database-벡터-임베딩을-저장하고-검색하는-가장-효율적/
[19] http://jidum.com/jidums/view.do?jidumId=1097
[20] https://www.researchgate.net/publication/376893991_Generative_AI_service_implementation_using_LLM_application_architecture_based_on_RAG_model_and_LangChain_framework