RAG 파이프라인의 마지막 1마일
“벡터 검색은 잘 되는데, 답변에 가짜 판례가 자꾸 섞여서 제품을 못 내고 있었어요. Citation Firewall 한 줄 끼워 넣으니 그 문제가 사라졌습니다.”
- 1make_source_pack 으로 근거 가져오기
- 2LLM으로 답변 생성
- 3verify_citations 로 마지막 검증
- 4trustScore < 80 이면 재생성 또는 사용자 경고
LawGround는 또 하나의 법률 챗봇이 아닙니다. AI가 한국 법률을 답할 때마다, 그 답이 진짜 조문에 근거하는지 한 줄씩 검증하는 데이터 인프라입니다.

GPT·Claude·Gemini는 사건번호처럼 보이는 문자열을 만들어내고, 폐지된 조문을 현행처럼 인용하며, 원문에 없는 금액과 형량을 자신 있게 제시합니다. 변호사·기업 법무·컴플라이언스 담당자에게 이 차이는 단순한 오답이 아니라 직접적인 비용입니다.

교통사고 위자료는 민법 제750조에 근거하여 청구할 수 있습니다. 대법원 2020다12345 판결은 "위자료는 최대 3,000만원을 초과할 수 없다"고 판시하였으며, 동일한 취지로 대법원 2017다269282 판결도 위자료 산정 기준을 제시한 바 있습니다.
4건의 인용 중 2건이 가짜입니다. 사용자는 어떤 것이 진짜인지 구분할 수 없습니다.
법률 챗봇 시장은 이미 가득 찼습니다. 정부의 Lawbot, 엘박스, 슈퍼로이어, 로앤비 — 모두 사용자에게 답을 줍니다.
우리는 답을 만들지 않습니다. 대신 누군가의 답을 검증하고, 근거를 제공합니다.
벡터 검색 결과를 그대로 던져주지 않습니다. 시점·신뢰등급·출처가 동봉된 근거 묶음을 반환합니다.
AI가 만든 답변을 우리가 다시 만들지 않습니다. 그 답변의 인용을 한 줄씩 검사합니다.
엔드유저 챗봇이 아닌, 다른 LLM 서비스가 가져다 쓰는 데이터 계층입니다.
조/항/호/목 단위로 분리된 법령과 판례를 BM25 + 벡터 hybrid로 검색합니다. 모든 결과에는 시행일, 출처, 신뢰등급(A/B/C/D)이 동봉됩니다.
질의 → 적용 조문 + 시행령 + 판례 + 행정해석을 묶은 markdown을 반환합니다. 그대로 ChatGPT/Claude에 붙여넣어도 인용이 정확합니다.
Citation Firewall이 법령명·조문번호·판례번호·따옴표 인용을 추출해 ① 존재 ② 시점 유효성 ③ 원문 일치를 모두 검사합니다. 가짜는 빨강, 의심은 노랑, 정확은 초록.
검증 결과를 단일 trust score로 환산합니다. 점수가 임계값 미만이면 답변을 차단하거나 사용자에게 불확실성을 노출하도록 시스템이 결정할 수 있습니다.

엔드유저 챗봇이 아닙니다. 법률 AI를 만들거나, 법률 데이터를 다루는 네 부류의 팀이 우리 고객입니다.
“벡터 검색은 잘 되는데, 답변에 가짜 판례가 자꾸 섞여서 제품을 못 내고 있었어요. Citation Firewall 한 줄 끼워 넣으니 그 문제가 사라졌습니다.”
“법령·판례를 직접 수집하고 갱신하는 데만 엔지니어 2명이 풀타임이었어요. LawGround로 그 비용을 0으로 만들었습니다.”
“전자금융거래법, 개인정보보호법, AI 기본법 — 우리 사업에 영향 주는 법이 끊임없이 바뀌어요. 영향도까지 알려주는 게 핵심이었습니다.”
“감독당국이 답변의 근거를 요청할 때, 우리는 모든 인용에 출처와 검증 시각을 기록해 두어야 합니다. LawGround의 감사 로그가 그걸 해결합니다.”
한국 법률 도메인에 특화된 8가지 기술 결정. 각각의 trade-off를 투명하게 공개합니다.
한국 법률 인용은 '제60조 제2항'처럼 항·호 단위로 이뤄짐. 문단 단위 chunking으로는 정확한 인용을 만들 수 없음.
Postgres FTS는 한국어 분석기가 없음. pg_trgm의 N-gram 부분일치가 한국어와 잘 맞고 인덱스도 GIN으로 빠름.
Qwen3-Embedding-8B는 MRL 미지원으로 절단 불가. pgvector HNSW는 max 2000 dim. MVP 데이터 < 10k 에서는 linear scan이 충분.
두 ranker의 결과가 모두 들어있는 문서가 높은 점수. 가중치 튜닝 없이도 안정적인 결과를 보장.
법률은 '현재 유효한가'만으로 부족. '2010년 당시', '개정 전' 같은 시점 단서를 답변 텍스트에서 자동 파싱.
공백·따옴표·구두점을 제거한 후 거리 계산. 단순 유사도(0..1)로 환산해 임계값 설정이 직관적.
MCP가 직접 DB에 붙으면 인증·rate limit·감사 로그를 두 번 구현해야 함. HTTP를 wrap하면 모든 정책이 일원화됨.
Neon 같은 매니지드를 처음부터 강제하면 셋업 진입장벽이 큼. 로컬 docker로 시작하고, 동일 스키마로 클라우드 이전 가능.
신뢰 점수가 임계값 미만이면 답을 만들지 않습니다. AI 시대에 가장 위험한 건 '그럴듯한 거짓말'입니다.
‘민법 제750조’만으로는 부족합니다. 어느 시점의 조문인지, 어느 출처에서 가져왔는지, 라이선스는 무엇인지가 함께 가야 합니다.
우리는 변호사를 대체하지 않습니다. 변호사가 더 좋은 결정을 내릴 수 있도록 정보의 신뢰 계층을 만듭니다.
AI 기본법(2026.1.22)이 요구하는 것을 넘어, 모든 LLM 답변이 사후 감사 가능한 형태로 기록되어야 한다고 믿습니다.
“법률 정보는 정확해야 합니다. 빠르거나, 친근하거나,
그럴듯한 것보다 — 정확해야 합니다.”
30초 안에 가짜 인용을 어떻게 잡아내는지 확인하세요.
라이브 데모 →5분 안에 LawGround를 RAG 파이프라인에 연결합니다.
API 문서 →MCP 서버 설정 한 번으로 AI 에이전트가 LawGround 도구를 호출합니다.
MCP 가이드 →본 서비스는 법률 자문이 아니며, 모든 응답은 출처·기준일과 함께 제공됩니다.
· AI 기본법 (2026.1.22 시행) 대응 ·