IT 인프라·아키텍처·데이터 기술사 답안 — 세트 1
플랫폼 엔지니어링 · AP2 · LOD · IaC · Data Lake · Lakehouse · FaaS · EDA · 데이터 전처리 · B-Tree/B+Tree | 정보관리기술사 대비
| 두문자 | 원칙 | 핵심 내용 | 구현 예시 |
|---|---|---|---|
| 제 | 제품 사고 (Product Thinking) | 플랫폼을 내부 제품으로 설계. 개발자가 고객 — 기존 인프라 팀의 "도구 제공"과 결정적 차이 | NPS 측정, 로드맵 공개, 사용자 인터뷰 |
| 셀 | 셀프 서비스 (Self-Service) | Ops 티켓 없이 개발자가 직접 인프라를 프로비저닝 | Backstage 서비스 카탈로그, 골든패스 템플릿 |
| 골 | 골든 패스 (Golden Path) | 검증된 베스트 프랙티스 경로를 기본값으로 제공 | 표준 스캐폴딩, CI/CD 템플릿 |
| 추 | 추상화 (Abstraction) | 인프라 복잡성을 플랫폼 뒤에 숨김. 개발자는 비즈니스 로직에만 집중 | PaaS 레이어, 원클릭 환경 생성 |
| 두문자 | 요소 | 핵심 내용 | Classic Platform 대비 |
|---|---|---|---|
| 아 | ara::com API | AP의 표준 통신 API. Service, Method, Event, Field 4가지 통신 패턴 제공 | CP는 COM 모듈 정적 구성 — AP는 런타임 동적 |
| 이 | SOME/IP 프로토콜 | Scalable service-Oriented MiddlewarE over IP. UDP/TCP 기반 차량 이더넷 통신 | CP는 CAN 버스 기반 — AP는 이더넷 기반 |
| 서 | 서비스 지향 통신 | 서비스 검색(SD), 메서드 호출(RPC), 이벤트 구독(Pub/Sub) 지원 | CP는 신호 기반 통신 — AP는 서비스 기반 |
| 이 | 이더넷 기반 | 100Mbps~10Gbps 차량 이더넷. 자율주행 센서 데이터 처리 가능 | CAN은 최대 1Mbps — 자율주행에 대역폭 부족 |
| 직 | 직렬화·역직렬화 | SOME/IP, DDS, 사용자 정의 등 다양한 직렬화 바인딩 지원 | CP는 RTE 자동 생성 정적 코드 |
| 두문자 | 기술 | 핵심 내용 | 예시 |
|---|---|---|---|
| 유 | URI | 웹의 모든 자원(사람·장소·개념)에 고유 식별자 부여 | http://dbpedia.org/resource/Seoul |
| 알 | RDF | 주어-술어-목적어 트리플로 지식 표현 | <Seoul> <capitalOf> <Korea> |
| 스 | SPARQL | RDF 데이터 질의 언어. SQL과 유사하나 그래프 탐색 가능 | SELECT ?name WHERE {?s foaf:name ?name} |
| 온 | 온톨로지 | 도메인 개념·관계 정의. OWL·RDFS로 지식 계층 구조 표현 | FOAF, Dublin Core, Schema.org |
| 두문자 | 특성 | 핵심 내용 | 대표 도구 |
|---|---|---|---|
| 선 | 선언형 vs 명령형 | 선언형: "원하는 상태" 기술. 명령형: "수행할 절차" 기술 | Terraform(선언), Ansible(명령) |
| 멱 | 멱등성 (Idempotency) | 동일 코드를 여러 번 실행해도 결과가 같음 | Terraform State 파일로 현재 상태 추적 |
| 버 | 버전 관리 | 인프라 변경 이력 추적. PR 기반 코드 리뷰로 인프라 거버넌스 실현 | Git + GitHub Actions / GitLab CI |
| 불 | 불변 인프라 | 변경 시 기존 서버 수정이 아닌 새 서버 생성 후 교체 | Packer + AMI + Terraform |
| 테 | 테스트 가능성 | 인프라 코드에 단위·통합 테스트 적용. Dry-run(plan)으로 사전 검증 | Terratest, Checkov, tfsec |
| 두문자 | 요소 | 핵심 내용 | 대표 기술 |
|---|---|---|---|
| 저 | 저장소 | 객체 스토리지 기반. 저비용 대용량. Parquet·ORC 파일 포맷 | AWS S3, Azure Data Lake Storage Gen2 |
| 처 | 처리 엔진 | 배치(Spark), 스트리밍(Flink·Kafka), SQL(Presto·Athena) | Apache Spark, Databricks |
| 카 | 카탈로그 | 메타데이터 관리 — 어떤 데이터가 어디 있는지 추적 | AWS Glue, Apache Atlas, DataHub |
| 거 | 거버넌스 | 데이터 품질·접근 제어·감사 로그. "데이터 스웜프" 방지 | Apache Ranger, Unity Catalog |
| 보 | 보안 | 열·행 수준 접근 제어. 암호화. PII 마스킹 | AWS Lake Formation, Privacera |
| 비교 기준 | Data Warehouse | Data Lake | Lakehouse |
|---|---|---|---|
| 스키마 | 온 라이트 (고정) | 온 리드 (유연) | 온 리드 + ACID |
| 데이터 유형 | 정형만 | 모든 유형 | 모든 유형 |
| 비용 | 높음 | 낮음 | 중간 |
| ML 지원 | 제한적 | 우수 | 최고 |
| 두문자 | 특성 | 핵심 내용 | 구현 기술 |
|---|---|---|---|
| 산 | 산업 표준 포맷 | 오픈 테이블 포맷으로 벤더 종속 없는 개방형 데이터 | Apache Iceberg (Netflix), Delta Lake (Databricks) |
| 타 | 타임 트래블 | 과거 시점 데이터 조회. 실수로 삭제된 데이터 복원 | Delta Lake: DESCRIBE HISTORY, VERSION AS OF |
| 스 | 스키마 진화 | 기존 데이터 영향 없이 컬럼 추가·변경 가능 | Schema Evolution (ADD COLUMNS 등) |
| 거 | 거버넌스 통합 | Unity Catalog로 전사 데이터 카탈로그·접근 제어·계보 관리 통합 | Unity Catalog, Apache Atlas |
| 오 | ACID 트랜잭션 | 객체 스토리지 위에서 ACID 보장 | Delta Log (트랜잭션 로그), Optimistic Concurrency |
| 두문자 | 특성 | 핵심 내용 | AWS Lambda 예시 |
|---|---|---|---|
| 이 | 이벤트 기반 | HTTP 요청·DB 변경·파일 업로드·스케줄러 등 다양한 이벤트가 함수를 트리거 | API Gateway·S3·DynamoDB Streams 트리거 |
| 무 | 무상태 (Stateless) | 함수 호출 간 상태 미공유. 영구 상태는 외부 저장소에 보관 | Lambda는 실행마다 새 컨테이너 인스턴스 |
| 상 | 자동 스케일링 | 동시 요청 수에 따라 자동으로 인스턴스 수 조정 | AWS Lambda: 기본 1000 동시 실행 한도 |
| 콜 | Cold Start | 장시간 미호출 시 컨테이너 재초기화 지연(100ms~수초) | Provisioned Concurrency로 Cold Start 제거 |
| 스 | 세분화 과금 | 100ms 단위 과금. 유휴 비용 없음 | 월 100만 건 무료 + 실행 시간 요금 |
| 두문자 | 요소 | 핵심 내용 | 대표 기술 |
|---|---|---|---|
| 생 | 이벤트 생산자 | 이벤트를 발생시키는 서비스. 소비자를 알지 못함 — 느슨한 결합의 출발점 | MSA 마이크로서비스, IoT 센서 |
| 브 | 이벤트 브로커 | 이벤트를 수신·저장·라우팅. Topic 기반 Pub/Sub 또는 Queue 방식 | Apache Kafka, RabbitMQ, AWS SQS/SNS |
| 소 | 이벤트 소비자 | 관심 이벤트를 구독하여 처리. 생산자와 독립적으로 배포·스케일링 | Consumer Group(Kafka), Lambda Trigger |
| 토 | 토픽·파티션 | 이벤트 분류 채널. 파티션으로 병렬 처리. 오프셋으로 순서 보장 | Kafka Topic·Partition·Offset |
| 코 | 이벤트 스키마 | 이벤트 구조 계약. CloudEvents 표준, Schema Registry로 버전 관리 | Confluent Schema Registry, Avro |
| 두문자 | 단계 | 핵심 기법 | 주의사항 |
|---|---|---|---|
| 결 | 결측값 처리 | 삭제(Listwise), 평균·중앙값 대치, KNN 대치, MICE(다중 대치) | MCAR·MAR·MNAR 메커니즘 파악 후 방법 선택 |
| 이 | 이상치 탐지 | Z-score(±3σ), IQR 방법, DBSCAN, Isolation Forest, LOF | 이상치 = 오류 vs 정상 극단값 구별 필요 |
| 정 | 정규화·표준화 | Min-Max 정규화[0,1], Z-score 표준화(μ=0,σ=1), Robust Scaler(IQR) | 테스트셋에는 학습셋 통계값 적용 (Data Leakage 방지) |
| 인 | 인코딩 | Label Encoding(순서형), One-Hot Encoding(명목형), Target Encoding | 고카디널리티 변수에 One-Hot → 차원의 저주 |
| 특 | 특성 선택·공학 | Filter(상관계수), Wrapper(RFE), Embedded(LASSO). 파생변수 생성 | 도메인 지식 활용 필수 |
| 분 | 데이터 분할 | Train(60~80%)/Validation(10~20%)/Test(10~20%). K-Fold CV | 시계열 데이터는 시간 순서 유지 분할 (shuffle 금지) |
| 비교 기준 | B-Tree | B+Tree |
|---|---|---|
| 데이터 위치 | 모든 노드에 키+데이터 | 리프 노드에만 키+데이터 |
| 내부 노드 | 키+데이터 포함 | 키만 포함 (라우팅용) |
| 범위 탐색 | 중위 순회 필요 — 비효율 | 리프 링크드 리스트 순회 — O(n) 효율 |
| 탐색 깊이 | 데이터가 내부에 있을 수 있어 빠름 | 항상 리프까지 — 일관된 O(log n) |
| 노드 용량 | 데이터 저장으로 팬아웃 낮음 | 키만 저장으로 팬아웃 높음 → 트리 낮음 |
| DBMS 사용 | MongoDB (B-Tree 변형) | MySQL InnoDB, PostgreSQL, Oracle |