Unified Context-Intent Embeddings for Scalable Text-to-SQL
Your Analysts Already Wrote the Perfect Prompt Authors: Keqiang Li, Bin Yang In our previous blog post , we shared how Pinterest built Text-to...

요약
Your Analysts Already Wrote the Perfect Prompt Authors: Keqiang Li, Bin Yang In our previous blog post , we shared how Pinterest built Text-to...
Unified Context-Intent Embeddings for Scalable Text-to-SQL
원문: Unified Context-Intent Embeddings for Scalable Text-to-SQL (Pinterest Engineering, 2026-03-06)
오늘의 결론
내가 오늘 해결하고 싶은 문제는 비즈니스 분석가들이 SQL 쿼리를 신속하고 정확하게 생성할 수 있도록 지원하는 방법이며, Pinterest의 통합 컨텍스트-의도 임베딩을 활용하여 이 문제를 해결할 수 있다는 것이다.
이 글이 "단순한 SQL 생성 기술"이 아닌 이유
이 기술은 단순히 SQL을 생성하는 데 그치지 않고, 비즈니스 질문을 이해하고 분석가의 의도를 파악하는 데 중점을 두고 있다.
내가 본 것:
- [의도 이해]: Pinterest는 분석가의 쿼리를 단순한 SQL 구문으로 해석하는 것이 아니라, 비즈니스 질문의 맥락을 파악할 수 있도록 임베딩을 활용한다. 이는 단순한 키워드 매칭을 넘어서는 접근으로, 보다 정교한 분석이 가능하게 한다.
- [구조적 패턴]: SQL 쿼리의 구조와 통계적 패턴을 파악하여 분석의 신뢰성을 높인다. 예를 들어, 어떤 테이블이 함께 사용되는지, 어떤 조인 키가 효과적인지를 기록하여 분석가들이 더 나은 결정을 내릴 수 있도록 한다.
- [자기 강화 학습]: 새로운 쿼리가 작성될 때마다 시스템이 스스로 학습하여 더 나은 결과를 제공한다. 새로운 패턴이 발견되면 이는 다시 시스템에 반영되어, 모든 분석가가 이 혜택을 누릴 수 있도록 한다.
내가 가져갈 실행 포인트 3개
(1) 분석가의 의도 파악: 보다 나은 질문 생성
Pinterest의 시스템은 분석가가 제기하는 질문의 의도를 파악하여 관련된 쿼리를 검색한다. 이는 단순히 쿼리를 생성하는 것이 아니라, 비즈니스 질문과 관련된 정보를 찾는 데 도움을 준다. 나의 팀에서도 이러한 시스템을 도입하여 분석가들이 더 나은 질문을 할 수 있도록 지원해야 한다.
(2) 데이터 거버넌스 강화: 신뢰할 수 있는 데이터 확보
Pinterest는 테이블의 품질을 보장하기 위해 데이터 거버넌스를 강화하고 있다. 우리는 데이터의 신뢰성을 높이기 위해 테이블과 컬럼에 대한 정확한 문서를 유지하고, 이를 통해 데이터 품질을 향상시켜야 한다. 이는 모든 분석 작업의 기초가 된다.
(3) 지속적인 학습 환경 조성: 지식 공유 촉진
SQL 쿼리를 작성하는 모든 과정에서 발생하는 학습을 팀원들과 공유하는 문화를 조성해야 한다. Pinterest의 경우, 이전 쿼리에서 얻은 지식을 기반으로 새로운 패턴이 발견되고, 이는 다시 시스템에 반영된다. 우리 팀에서도 이러한 지식 공유를 통해 전체적인 분석 역량을 강화할 수 있다.
내가 설계할 기준
이 기술/접근법으로 보내기 좋은 일
- 비즈니스 질문에 대한 신속한 SQL 생성: 분석가들이 질문을 빠르게 SQL로 변환할 수 있도록 지원하는 경우.
- 신뢰할 수 있는 데이터 소스 확보: 데이터 거버넌스가 잘 이루어진 환경에서 분석을 진행하는 경우.
- 지식의 재사용 및 공유 촉진: 팀 내에서 쿼리와 분석 패턴을 공유하여 모두가 활용할 수 있는 경우.
이 기술/접근법이 맞지 않는 경우
- 비거버넌스된 데이터 환경: 데이터가 무질서하거나 문서화가 제대로 이루어지지 않은 경우.
- 복잡한 다중 도메인 분석: 여러 도메인 간의 쿼리가 상충되는 경우.
실패를 줄이는 운영 체크리스트
- 자주 사용되는 분석 패턴을 문서화하지 않기: 문서화를 통해 지식을 공유하지 않으면 반복적인 오류가 발생할 수 있다.
- SQL 쿼리의 실행 전 검증을 소홀히 하기: EXPLAIN 기능 등을 사용하여 쿼리의 정확성을 검증하지 않으면 잘못된 데이터를 얻게 된다.
- 비즈니스 질문의 맥락을 무시하기: 질문의 의미를 제대로 이해하지 못하고 단순히 SQL로 변환하면 쓸모 없는 결과가 나올 수 있다.
- 팀원 간의 지식 공유를 저해하기: 팀 내에서 배운 내용을 공유하지 않으면 개인의 경험이 고립되어 전체적인 분석 능력이 저하된다.
- 데이터 품질을 지속적으로 관리하지 않기: 데이터 거버넌스가 강화되지 않으면 신뢰할 수 있는 분석 결과를 얻기 어렵다.
이번 주에 할 1가지
- 대상: 팀원들과 함께 SQL 쿼리의 문서화를 진행한다.
- 측정: 문서화된 쿼리 수와 팀원들이 이 문서를 얼마나 자주 참조하는지 확인한다.
- 성공 기준: 1주일 내에 10개의 주요 쿼리를 문서화하고, 팀원들이 이를 3회 이상 조회하는 것으로 설정한다.
마무리
Pinterest의 접근 방식은 단순한 SQL 생성을 넘어서, 비즈니스 질문의 의도를 파악하고 신뢰할 수 있는 데이터 소스를 활용하는 데 중점을 두고 있다. 이는 우리도 적용할 수 있는 실질적인 교훈이다. 데이터 거버넌스를 강화하고 팀원 간의 지식을 공유함으로써, 보다 효율적이고 신뢰할 수 있는 분석 환경을 구축할 수 있을 것이다.
FAQ
Q. 이 기술/뉴스에서 가장 자주 생기는 질문 1 이 기술은 SQL 쿼리 자동 생성 기능 외에도 비즈니스 질문의 의도를 파악하여 더 나은 분석 결과를 도출하는 데 도움을 준다.
Q. 실무 적용 시 가장 많이 막히는 부분 대량의 변경 사항이 있는 데이터 환경에서는 데이터 문서화와 거버넌스가 제대로 이루어지지 않아 혼란이 발생할 수 있다. 이를 해결하기 위해서는 데이터 거버넌스를 우선시해야 한다.
Q. Timeware는 이것을 어떻게 활용하나요? Timeware는 데이터 거버넌스와 문서화 강화에 중점을 두고, 분석가들이 신뢰할 수 있는 데이터로 적절한 쿼리를 생성할 수 있도록 지원하고 있다.
Q. 이 흐름은 앞으로 어떻게 전개될까요? 앞으로는 AI 기반의 데이터 분석 도구가 더 많이 도입될 것이고, 이러한 도구들은 데이터 거버넌스와 결합하여 더욱 향상된 분석 결과를 제공할 것이다.