BigData

인공지능 GPT4와 RAG를 이해하는데 알아야 하는 용어들

IT오이시이 2023. 11. 17. 21:48
728x90

[인공지능 GPT를 이해하는데  알아야 하는 용어들]

  • GPT(Generative Pre-trained Transformer)
  • LangChain
  • LLM (Large Language Model, 거대 언어 모델)
  • Vector Embedding(벡터 임베딩)
  • Vector Database (벡터 데이터베이스)
  • Tokenize (토큰화)


사용자가 GPT를 이용하는 과정을 심플하게 이해하기

GPT에 대한 내용보다 작동되는 과정을 이해하고  어떻게 하면 만들수 있을까를 고민하면서 업데이트를 하고 있습니다. 조금씩 발전 하는 오늘이 되는데 보탬이 되면 좋겠습니다.

GPT3.5의 작동 과정


사용자가 GPT를 이용하는 과정을 심플하게 표현하면 질문을 이해하고 학습된 데이터에서 결과를 읽고 답변하는 것입니다.

GPT3.5의 제약은 학습하지 못한 새로운 지식에 대한 질문이나 외부의 데이터를 연결 하는 것이 제공되지 못하는 단점이 있습니다.

 

RAG (Retrieval-Augmented Generation, 검색증강생성)와 GPT4


기존 GPT3.5는 학습된 데이터로 답변을 하므로 답변의 환각이나 답변을 하지 못하는 경우가 생깁니다.

RAG는 GPT와 외부 정보를 연결하여 외부의 데이터와 지식을 검색하고 연결하여 더욱 정교한 답변을 제공합니다.

GPT4와 같이 외부정보 검색과  이미지나 문서 를 생성하는 기능이 가능해 집니다.



 

■ GPT(Generative Pre-trained Transformer)

 
ChatGPT는 OpenAI에서 개발한 대화형 인공 지능 언어 모델입니다. GPT(Generative Pre-trained Transformer) 시리즈에 기반하고 있으며, 방대한 양의 텍스트 데이터를 사전 훈련하여 다양한 언어 작업을 수행할 수 있는 능력을 갖추고 있습니다.
 
ChatGPT는 사용자와 자연스러운 대화를 수행하며, 주어진 문맥에 따라 응답을 생성합니다. 이 모델은 이전 대화의 맥락을 이해하고 다양한 주제에 대해 토론하거나 정보를 제공할 수 있습니다. 또한 사용자의 언어 스타일을 학습하여 대화를 보다 자연스럽게 유지하려 노력합니다.
 
GPT-3.5, 혹은 그 이후의 버전을 기반으로 하는 ChatGPT는 매우 큰 규모의 모델로, 다양한 분야에서의 대화와 질문에 대응할 수 있습니다
 
 

■  LangChain

 

LangChain은 개발자가 LLM(Large Language Model)을 이용해 엔드투엔드 애플리케이션을 구축할 수 있도록 설계된 강력한 프레임워크입니다.

 
 

■  LLM (Large Language Model, 거대 언어 모델)

LLM(Large Language Model)은 대규모 언어 모델로,  언어모델(LM)을 더욱 확장한 개념으로 인간의 언어를 이해하고 생성하도록 훈련된 인공지능을 통칭합니다. 방대한 양의 텍스트를 학습하고 요약, 예측, 생성할 수 있습니다.
 

 

 

■ Vector Embedding(벡터 임베딩)

 

벡터 임베딩(Vector Embedding)은 고차원의 데이터를 저차원의 벡터 공간으로 매핑하는 기술입니다. 이는 주로 자연어 처리 및 기계 학습 분야에서 사용되며, 단어, 문장, 문서 등을 수치로 표현함으로써 모델이 이해하고 처리할 수 있도록 돕습니다.

벡터 임베딩(Vector Embedding)으로 단어나 문장을 수치화된 벡터로 처리하여,  단어나 문장 각각을 고유한 벡터로 매핑함으로써 의미론적 유사성을 찾을수 있습니다.  이러한 임베딩은 주로 신경망 모델에서 자주 사용되며, 단어 간의 관계와 의미를 수학적으로 표현하고 조회 할 수 있습니다.
Vector Embedding은 단어나 문장을 고차원 벡터 공간에 매핑하는 기술이며, 이를 통해 단어나 문장 간의 의미적 유사성을 포착하고, 기계 학습 모델에서 텍스트를 처리할 수 있도록 도움을 줍니다.
예를 들어, 단어 "apple"이라면 이를 임베딩하여 고차원 실수 벡터로 표현할 수 있습니다. 이 벡터는 단어의 의미와 관련된 특징을 나타냅니다. 유사한 의미를 가진 단어는 벡터 공간에서 서로 가까이 매핑됩니다.
이러한 임베딩은 자연어 처리나 텍스트 기반 작업에서 효과적으로 사용되며, Word2Vec, GloVe, 또는 Transformer와 같은 모델들이 이를 구현하는데 활용됩니다.
 
 

■  Vector Database (벡터 데이터베이스)

 
Vector Embedding을 수행했다면 해당 벡터를 저장할 장소가 필요합니다. 이를 저장하기 위한 저장소를 Vector Database라고 하며 고차원의 데이터를 저장, 검색 및 분석할 수 있는 데이터베이스로, 유사도 검색 등의 작업에 특화되어 있습니다.
 벡터 데이터 베이스로는 #SingleStoreDB, #Pinecone, #chroma, #faiss등이 있습니다.

#SingleStoreDB: https://www.singlestore.com/

SingleStoreDB는 실시간 분석과 트랜잭션 처리를 위한 분산형 데이터베이스 시스템입니다. 이는 OLAP(Online Analytical Processing) 및 OLTP(Online Transaction Processing) 작업을 모두 지원하며 빠른 데이터 쿼리 및 처리를 제공합니다.


#Pinecone: https://www.pinecone.io/

Pinecone은 벡터 검색을 위한 특화된 데이터베이스입니다. 주로 벡터 공간에서의 유사성 검색에 사용되며, 대규모 벡터 데이터를 효과적으로 저장하고 검색할 수 있습니다. 주로 인공지능 및 머신러닝 애플리케이션에서 활용됩니다.


#Chroma:  https://www.trychroma.com/

Chroma는 그래프 데이터베이스로, 복잡한 관계와 연결성을 갖는 데이터를 효율적으로 저장하고 처리할 수 있습니다. 그래프 데이터 모델을 기반으로 하며, 소셜 네트워크 분석, 지식 그래프, 추천 시스템 등에 사용됩니다.


#Faiss: https://engineering.fb.com/2017/03/29/data-infrastructure/faiss-a-library-for-efficient-similarity-search/ 

Faiss는 Facebook에서 개발한 벡터 검색 라이브러리로,  대용량의 벡터 데이터에서 빠른 유사성 검색(
Efficient Similarity Search)을 제공합니다. 특히 딥러닝 및 임베딩 기술과 관련된 작업에서 널리 사용되며, 효율적인 벡터 검색을 위한 다양한 알고리즘을 포함하고 있습니다.

 

■  Tokenize (토큰화)

 
토큰은 다양한 분야에서 다르게 사용되는 용어로, 자연어 처리에서는 주로 문맥을 고려하여 단어나 문장을 처리하는 단위를 나타냅니다. 텍스트를 작은 단위로 나누어 처리하거나 분석할 때 토큰화를 사용합니다.
GPT에서의 토큰은 일반적으로 텍스트를 작은 단위로 나누어 처리하는데 사용되는 부분입니다. 토큰은 주로 단어나 서브워드(subword)와 같은 텍스트의 작은 부분을 나타냅니다.
GPT 모델은 이러한 토큰 단위로 입력을 처리하여 텍스트의 패턴과 의미를 이해합니다.
GPT 3.5 turbo 모델사용시 4096 토큰이 최대이나, 동일한 의미의 문장이여도 한글 토큰의 양이 영어 토큰의 양보다 4~5배 가량 높아 Langchain에서 prompt를 작성할때 특별한 경우를 제외한 대부분을 영어로 진행하는게 좋았습니다.
 
토큰화 테스트 : 영어와 한글 토큰의 비교 https://platform.openai.com/tokenizer 에서 쉽게 테스트 해볼 수 있습니다.
 
 

■  RAG(Retrieval-Augmented Generation, 검색증강생성)

RAG(Retrieval-Augmented Generation)는 자연어 처리 분야에서 사용되는 모델로, 모델 학습을 위해 외부의 가져와서 정보 검색과 결합하는 방식입니다.  LLM 은 특정 분야 지식에 대한 부족할 경우 외부 소스에서 가져온 정보를 이용하여 생성형 AI 모델의 정확성과 신뢰성을 향상시킬수 있습니다.

RAG 모델은 두 부분으로 구성됩니다.

1) Information Retrieval (IR) Step:

먼저 대량의 텍스트 데이터에서 적절한 정보를 검색합니다. 이를 통해 입력된 질문이나 주제와 관련된 문서나 문장을 식별합니다.
 

2) Generation Step:

검색된 정보를 사용하여 새로운 문장이나 답변을 생성합니다. 이 과정에서 GPT(또는 다른 생성 모델)와 같은 언어 생성 모델이 활용됩니다.
RAG는 이러한 구조를 통해  새로운 정보에서 검색을 통해 얻은 지식을 활용할 수 있어서 더 정확하고 의미 있는 응답을 생성할 수 있습니다. 이 모델은 대화나 QA 작업에서 사전 학습된 언어 모델과 함께  특정 분야의 전문 지식을 결합하여 LLM에서  최신 또는 전문 분야의 정보 부족 문제를 해결할 수 있고 정확한 답변을 제공하는데 활용 할 수 있습니다.
 

RAG의 장점 :

1) 유연성 : 외부 지식 소스를 사용함으로써 RAG는 잠재적으로 초기 교육 중에 사용할 수 없었던 보다 최신 정보 또는 특정 정보를 활용할 수 있습니다.

 

2) 효율성 : RAG는 방대한 양의 데이터에 대한 모델을 교육하는 대신 필요에 따라 데이터를 검색하고 활용할 수 있는 더 작고 관리하기 쉬운 모델에 중점을 둡니다.
3) 업데이트 가능성 : 전체 모델을 재교육할 필요 없이 외부 지식 소스를 업데이트할 수 있어 모델의 지식 기반을 최신 상태로 유지하는 동적 방법을 제공합니다.

 

 

감사합니다.  @좋은 하루 되십시요

 
728x90
반응형