정형데이터에서 VectorDB를 사용하는 이유
·
AI agent
안녕하세요 데이터 사이언티스트 먼지입니다. 2달간 야근을 하며 agent 데모 개발을 하면서 의문이었던 점이 있었습니다. 현재 작업은 pdf, excel 같은 비정형데이터가 아닌 데이터베이스 정형데이터를 읽어 Agent를 개발하고 있는데 vectorDB가 굳이 필요한가 였습니다. 가장 큰 이유는 이미 데이터베이스와 상호작용하는 DataBaseToolkit 이라는 모듈이 있기 때문입니다. 프롬프트만 잘 써주면 자연어질문에 대해 쿼리 성능이 정말 좋다는 점을 확인했기 때문입니다. 하지만 이번에 채널톡 테크 블로그를 읽고 정형데이터에서도 VectorDB가 꼭 필요하구나 생각이 많이 바뀌게 되었는데요. 그 내용을 한번 정리해보려 합니다. 1. 정형데이터 VectorDB 사용 후 느낀점(1) max-token ..
[월간 데이터 노트] 무료 llm Ollama 로컬 환경 셋팅하기
·
AI agent
안녕하세요 먼지입니다. 회사에서 AI Agent 프로젝트를 하다보니 집에서도 llm 환경을 구축해보면 좋지 않을까라는 생각이 들었습니다. 모든 일을 경험할 수 있는 건 아니다보니 집에서 개인 프로젝트로 경험해보고 싶은 것들이 생기더라고요. 성능 좋은 gpt, claude 모델은 아니더라도 간단한 프로젝트를 진행할 수 있도록 설치를 진행해보았습니다. 로컬 환경의 본래의 가장 큰 목적은 "보안"이지만, 저 같은 일반 개발자들에게는 아무래도 "무료" 인 점이지 않을까 싶습니다.연습을 하고 싶은데 과금이 얼마나 나올지도 몰라 불안한 점을 해결할 수 있을 것 같습니다. 제가 처음으로 설치한 모델은 "Ollama" 모델입니다. 이유는 메타의 오픈소스이고, 가장 유명한 로컬모델이기 때문에 성능이 궁금했습니다. 지금부..
SelfQuery-Retriever 사용 경험 정리(feat.걸려라 필터링!)
·
AI agent
안녕하세요 데이터사이언티스트 먼지입니다. 한달간 회사에서 AI Agent개발을 했습니다. 정말 아무것도 모르는 상태에서 시작했고, 시행착오도 많았던 것 같습니다. 사용해본 결과, 결국 selfquery retriever는 필터링이 자연어 질문에 따라 얼마나 정확하게 걸리냐의 문제였습니다. 셀프쿼리 리트리버를 사용하는 이유와 필터링이 걸리지 않았을 때 해결했던 경험을 아래 적어보도록 하겠습니다.SelfQuery Retriever란?자연어 질문에서 필터링을 걸어 VectorDB 속 데이터를 가져오는 검색기입니다. 예를 들어, "2025년에 출시된 화장품 중 스킨케어 제품을 알려줘 " 라고 질문이 들어왔을때, 셀프쿼리 리트리버를 거친다면, 필터링1. 년 = 2025필터링2. 카테고리 = "스킨케어"로 필..
데이터 검증법, 엑셀을 통한 중복데이터 및 데이터 차이 찾기
·
데이터분석/데이터분석
안녕하세요 데이터사이언티스트 먼지입니다. 지난 데이터 검증으로 고생했던 포스팅에 이어 이번엔 실제로 데이터 검증하는 법에 대해 포스팅 해보려 합니다.혹시나 데이터 검증으로 제가 했던 고생이 궁금하신 분들은 이전 포스팅을 참고해 주세요^^ https://sequence-data.tistory.com/45 데이터 검증은 너무나도 중요합니다.다만, 파이썬을 띄워 검증을 하기엔 너무 번거롭기 때문에 간편한 엑셀로 진행하게 되는데요. 하지만 막상 엑셀을 켜도 직접 해보지 않고, 익숙하지 않으면 더욱 해매게 됩니다.저도 공부할겸, 저와 비슷한 어려움을 겪었던 분들을 위해 1. 데이터 중복 검증법2. 데이터 차이 검증법 2가지를 포스팅으로 정리해보려 합니다. Case1. 하나의 데이터셋에서 중복데이터 검증데이터셋에서..