긍정적 사고, 음식의 절제, 규칙적인 운동

Apache Kafka - 분산 스트리밍 플랫폼 http://kafka.apache.org/

홍반장水_ 2017. 3. 20. 10:34

2017. 3. 20. 10:34

Apache Kafka - 분산 스트리밍 플랫폼

Apache Kafka

카프카(kafka)는 분산 스트리밍 플랫폼(Distributed streaming platform)이다. 분산 스트리밍 플랫폼은 아래의 기능을 가지고 있어야 한다.

데이터 스트림을 게시(Publish)하고 구독(Subscribe)할 수 있어야 한다. 이 점에서 메시지 큐 혹은 엔터프라이즈 메시징 시스템과 유사한 면이 있다.
내결함성(장애에 대한 내성)을 가지고 있어야 한다. 스트리밍 플랫폼을 구성하는 노드에 문제가 생기더라도 데이터를 안전하게 저장 할 수 있어야 한다.
데이터 스트림을 처리 할 수 있어야 한다.

카프카는 분산 스트리밍 플랫폼이 가져야 하는 위의 기본적인 기능을 가지고 있다. 카프카는 아래의 응용프로그램을 개발하는데 유용하게 사용 할 수 있다.

카프카가 어떻게 이런일을 하는지 살펴보자. 아래 카프카의 주요 컨셉을 설명하고 있다.

카프카의 주요 API들은 아래와 같다.

Producer API : 애플리케이션은 이 API를 이용해서 하나 이상의 카프카 토픽에 스트림 레코드를 게시할 수 있다.
Consumer API : 애플리케이션은 이 API를 이용해서 하나 이상의 카프카 토픽으로 부터 스트림 레코드를 구독 할 수 있다.
Streams API : 애플리케이션이 하나 이상의 토픽에서 입력 스트림을 읽고 변환해서 하나 이상의 출력 토픽으로 스트림을 보낼 수 있도록 한다.
Connector API : Connector를 이용해서 재 사용 가능한 Producer 혹은 Consumers를 카프카 토픽에 연결 할 수 있다. 예를 들어 관계형 데이터베이스 컨넥터는 테이블에 대한 변경 사항을 캡처할 수 있다.

아래 그림은 카프카의 구성요소들을 보여주고 있다. 이들 구성요소들은 위의 주요 API를 이용해서 주어진 일을 한다.