SelfQuery-Retriever 사용 경험 정리(feat.걸려라 필터링!)
·
AI agent
안녕하세요 데이터사이언티스트 먼지입니다. 한달간 회사에서 AI Agent개발을 했습니다. 정말 아무것도 모르는 상태에서 시작했고, 시행착오도 많았던 것 같습니다. 사용해본 결과, 결국 selfquery retriever는 필터링이 자연어 질문에 따라 얼마나 정확하게 걸리냐의 문제였습니다. 셀프쿼리 리트리버를 사용하는 이유와 필터링이 걸리지 않았을 때 해결했던 경험을 아래 적어보도록 하겠습니다.SelfQuery Retriever란?자연어 질문에서 필터링을 걸어 VectorDB 속 데이터를 가져오는 검색기입니다. 예를 들어, "2025년에 출시된 화장품 중 스킨케어 제품을 알려줘 " 라고 질문이 들어왔을때, 셀프쿼리 리트리버를 거친다면, 필터링1. 년 = 2025필터링2. 카테고리 = "스킨케어"로 필..
데이터 검증법, 엑셀을 통한 중복데이터 및 데이터 차이 찾기
·
데이터분석/데이터분석
안녕하세요 데이터사이언티스트 먼지입니다. 지난 데이터 검증으로 고생했던 포스팅에 이어 이번엔 실제로 데이터 검증하는 법에 대해 포스팅 해보려 합니다.혹시나 데이터 검증으로 제가 했던 고생이 궁금하신 분들은 이전 포스팅을 참고해 주세요^^ https://sequence-data.tistory.com/45 데이터 검증은 너무나도 중요합니다.다만, 파이썬을 띄워 검증을 하기엔 너무 번거롭기 때문에 간편한 엑셀로 진행하게 되는데요. 하지만 막상 엑셀을 켜도 직접 해보지 않고, 익숙하지 않으면 더욱 해매게 됩니다.저도 공부할겸, 저와 비슷한 어려움을 겪었던 분들을 위해 1. 데이터 중복 검증법2. 데이터 차이 검증법 2가지를 포스팅으로 정리해보려 합니다. Case1. 하나의 데이터셋에서 중복데이터 검증데이터셋에서..
데이터 검증 경험, 결과값이 달랐던 3가지 이유
·
데이터분석/데이터분석
안녕하세요! 2년차 데이터사이언티스트 먼지입니다. 올해 3월, 새로운 회사에 입사하였습니다.작은 회사임에도 대기업들 상대로 컨설팅 업무라 정말 타이트하게 일이 진행되더라고요. 바쁘고 성장할 수 있는 회사를 원했는데 이 정도로 바쁠줄은 몰랐습니다.. 3개월 동안 7시 전 퇴근 한적이 10번이 안되는 것 같네요. 바쁜 이유는 매주 결과물을 내야하기 때문입니다.매주 팀내에서 목표를 정하고, 결과를 대표님께 컨펌받고, 대표님이 고객사에게 전달하는 방식으로 진행되기 때문에 프로젝트 기간엔 바쁠 수 밖에 없는 것 같습니다. 그래서 왜 뜬금없이 바쁜 걸 이야기하지..? 라고 생각하실 것 같은데요. 프로젝트 마지막 주, 시간에 쫓기느라 데이터 검증을 제대로 하지 못했었습니다. 3시간이면 해결할 문제를 시간에 쫓기고,..
[HackerRank] Weather Observation Station20: Median(중앙값) 구하기
·
SQL
안녕하세요 오늘도 계속해서 HackerRank 문제를 정리해보도록 하겠습니다.이번에 푼 문제는 Weather Observation Station 20이라는 문제였고요.결국 Median(중앙값)을 구하는 문제였습니다.파이썬으로는 간단하게 구할 수 있는 값을 쿼리로 구하려다 보니 상당히 많이 헷갈렸네요. Q. LAT_N 값의 Median 값을 소수점 4째자리까지 반올림하여 나타내시오.A median is defined as a number separating the higher half of a data set from the lower half. Query the median of the Northern Latitudes (LAT_N) from STATION and round your answer to  ..