Solutions · Open Source

Argus Catalog

데이터·모델·API·AI 에이전트를 하나의 카탈로그에서 거버넌스하는 AI·Data·API 통합 메타데이터 플랫폼입니다. 에어갭(폐쇄망)과 온프레미스를 적극 지원해, 데이터를 외부로 내보내지 않고도 전사 데이터 주권을 확보합니다.

Apache License 2.0 · 오픈소스GitHub 저장소

개념도

Argus Catalog Platform Architecture

특징 및 강점

01

데이터·모델·API·AI 단일 거버넌스

데이터 카탈로그, ML 모델 레지스트리, API 카탈로그, AI Agent 카탈로그를 하나로 통합해 전사 단일 진실의 원천(SSOT)을 구현합니다.

02

11종 데이터 소스 자동 동기화

Hive · Impala · Kudu · Trino · StarRocks · Greenplum · Iceberg REST · PostgreSQL · MySQL · Oracle · MSSQL의 메타데이터를 자동 수집해 스키마·통계·리니지를 최신 상태로 유지합니다.

Enterprise
03

컬럼 레벨 크로스 플랫폼 리니지

SQL 파싱 기반으로 데이터셋·컬럼 수준의 엔드투엔드 리니지를 자동 추적하고, DDL 파싱으로 ER 다이어그램을 생성합니다.

Enterprise
04

에어갭·온프레미스 + 로컬 LLM

OpenAI·Anthropic은 물론 Ollama 등 로컬 LLM과 연동되어, 데이터가 외부로 나가지 않는 폐쇄망에서도 완전한 AI 거버넌스를 구현합니다.

플랫폼 아키텍처

Catalog UI · Server · Extensions · SDK가 유기적으로 연동되는 엔드투엔드 메타데이터 플랫폼입니다.

Catalog UI
Next.js · React
데이터셋 탐색·관리
리니지·ERD 시각화
모델 레지스트리 대시보드
품질 대시보드
API·AI Agent 카탈로그
시맨틱 검색·AI 어시스턴트
Catalog Server
FastAPI · PostgreSQL
REST API (v1)
pgvector 하이브리드 검색
S3/MinIO 모델 저장소
MLflow·OCI 호환
데이터 품질 엔진
AI 메타데이터 생성
Extensions
Enterprise
Sync · Plugins · Analyzer
메타데이터 싱크 (11종)
Impala Query Agent
Trino Query Listener
StarRocks Audit Plugin
소스 코드 분석 (Java/Python)
LDAP 사용자 동기화
SDK & CLI
Python SDK
argus-model CLI
OCI 기반 모델 Push/Pull
HuggingFace Import
에어갭 전송 워크플로우
Presigned URL 업로드
Manifest 관리
지원 데이터 소스 (11종)
HiveImpalaKuduTrinoStarRocksGreenplumIceberg RESTPostgreSQLMySQLOracleMSSQL

핵심 기능

데이터 카탈로그·검색부터 품질·거버넌스, ML 모델 레지스트리, AI까지 — 엔터프라이즈 메타데이터 관리의 6대 축을 단일 플랫폼에서 제공합니다.

데이터 카탈로그

데이터셋을 발견·신뢰·거버넌스하는 카탈로그의 핵심.

URN 기반 데이터셋 등록·검색·태그·소유권
컬럼 수준 리니지 & DDL 기반 ERD
데이터 표준 사전·용어집(형태소 분석)
pgvector 키워드+시맨틱 하이브리드 검색

검색 & 디스커버리

키워드와 의미를 결합한 하이브리드 검색으로 데이터를 빠르게 발견.

pgvector 임베딩 기반 키워드+시맨틱 하이브리드 검색
데이터셋·API·모델·용어 통합 검색
태그·소유자·도메인 패싯 필터
형태소 분석 기반 한국어 검색 최적화

데이터 품질

소스 DB를 직접 프로파일링하고 규칙으로 검증.

프로파일링(최빈값 포함)·10종 규칙 검증
CUSTOM_SQL/CUSTOM_PYTHON 사용자 규칙
품질 점수 자동 동기화(GOOD/WARN/BAD)·추세
리니지 업스트림 품질 전파 경고

메타데이터 거버넌스

데이터를 넘어 API와 AI 에이전트까지 카탈로그화.

API 카탈로그 — OpenAPI 스펙 등록·버전 diff·린트
AI Agent 카탈로그 — 도구/MCP·평가·미터링
URN 기반 통합 메타데이터 관리
스키마 변경 영향 분석·Webhook 알림

ML 모델 레지스트리

MLflow·OCI 호환 모델 거버넌스와 에어갭 반입.

MLflow 연동·버전/Stage 관리(STAGING/PRODUCTION)
메트릭 비교·모델 카드
OCI 모델 허브(HuggingFace 스타일 브라우저)
argus-model CLI·에어갭 임포트

AI

LLM으로 메타데이터를 자동 생성하고 카탈로그를 질의.

AI 메타데이터 생성(설명·태그·PII 감지, 승인형)
tool-use AI 어시스턴트(카탈로그/스키마/품질/리니지 호출)
실데이터 근거 응답
OpenAI·Anthropic·Ollama(로컬 LLM) 연동

카탈로그 페더레이션

여러 Argus 인스턴스를 하나로 연합해 통합 검색·탐색. 에어갭 친화 HARVEST 미러링과 로컬 승격까지.

LIVE / HARVEST / HYBRID 연합 모드
통합 검색 · 탐색 · cross-instance 리니지
HARVEST 미러 · 허브 모델 재임베딩 · 샘플 미러링
미러 데이터셋 로컬 승격(import)
Enterprise

쿼리 기반 리니지·관계 수집

운영 SQL 엔진의 실제 쿼리에서 리니지와 관계를 자동 수집.

Hive·Impala·Trino·StarRocks 쿼리 이벤트 수집
컬럼 수준 런타임 리니지 자동 추출
사용 기반 컬럼 JOIN 관계 분석
다중 방언 SQL 파서(Impala 포함)
Enterprise

소스코드 정적 분석

애플리케이션 소스코드에서 DB 테이블 매핑을 추출해 리니지 보강.

Java — JPA·Hibernate·MyBatis·Spring JDBC
Python — SQLAlchemy·Django ORM·DB-API
ORM/SQL → 테이블 매핑 자동 추출
카탈로그 리니지 자동 보강
Enterprise

엔터프라이즈 커넥터 동기화

다양한 소스의 메타데이터를 대량으로 자동 동기화.

11종 데이터 소스 메타데이터 수집
Greenplum·Iceberg REST·Kudu 등 지원
스키마·통계·DDL 동기화
CLI/cron 배치 운영
Enterprise

LDAP/AD 사용자 동기화

기업 디렉터리를 원천으로 카탈로그 사용자를 자동 관리.

OpenLDAP·Active Directory 연동
사용자 추가·비활성화·재활성화·부서 갱신
dry-run 미리보기·cron 배치
로컬 계정 오비활성화 안전장치

에디션

오픈소스 코어는 Community로 자유롭게, 확장 모듈과 전담 기술지원이 필요하면 Enterprise로 — 두 가지 에디션으로 제공합니다.

Community

Apache License 2.0 · 무료

오픈소스 코어 전체를 제약 없이 사용하고 직접 운영합니다.

추천

Enterprise

엔터프라이즈 고객 지원

Community 전체에 확장 모듈과 SLA 기반 전담 기술지원을 더합니다.

기능 비교
Community
Enterprise
코어 기능
데이터 카탈로그 · 검색 & 디스커버리 · 데이터 품질
메타데이터 거버넌스 (API · AI Agent)
ML 모델 레지스트리 · AI 메타데이터/어시스턴트
11종 데이터 소스 메타데이터 동기화
카탈로그 페더레이션 (인스턴스 연합 · 미러 · 로컬 승격)
확장 모듈 (Enterprise)
쿼리 기반 리니지·관계 수집
Hive Query 수집기Impala Query 수집기Trino Query 수집기StarRocks Query 수집기Query 수집·처리 서비스컬럼 관계 분석기SQL 파서Impala SQL 파서
소스코드 정적 분석
Java 소스코드 분석기Python 소스코드 분석기
엔터프라이즈 커넥터 동기화
메타데이터 동기화 서비스
LDAP/AD 사용자 동기화
LDAP/AD 사용자 동기화
기술지원 & 서비스 (Enterprise)
SLA 기반 전담 기술지원
핫픽스 · 보안 패치 우선 제공
설치 · 구축 · 마이그레이션 지원
교육 · 온보딩 · 아키텍처 컨설팅
에어갭(폐쇄망) 배포 지원 · 로드맵 우선 반영
지원 채널
지원 채널
GitHub Issues
전담 지원 채널
Apache License 2.0 · 오픈소스

오픈소스로 공개된 메타데이터 플랫폼

Argus Catalog는 Apache License 2.0으로 GitHub에 전면 공개되어 있습니다. 메타데이터 수집 커넥터를 제외한 백엔드·프론트엔드·SDK·AI 에이전트·품질 배치까지 핵심 엔진 전체를 공개해, 기업이 코드를 직접 검증하고 자사 환경에 맞게 확장하며 외부 유출 없이 운영할 수 있습니다.

  • 상용 활용 제약 없는 Apache 2.0
  • 코드 직접 검증·확장 가능
  • 에어갭·온프레미스 자체 운영