[AWS] lambda와 EC2/ECS 비교




 Amazon EC2/ECS 

 AWS Lambda

  • 시간단위 리소스 대여
  • 유연한 인프라 설계 (OS/타입)
  • 장애에 대한 고려 필요
  • 인스턴스 추가를 통한 확장
  • 모든 코드 및 언어로 개발 가능
  • 서버 관리 부담 있음
  • 이벤트 요청에 따라서 사용
  • OS/타입 등 인프라 고려 필요 없음
  • AWS 기반 무장애 시스템
  • 요청량에 따라 확장
  • Node.js 및 자바 코드로 함수 구현
  • 서버 관리 부담 없음


SSH를 사용하여 Linux 인스턴스에 연결

http://docs.aws.amazon.com/ko_kr/AWSEC2/latest/UserGuide/AccessingInstancesLinux.html



...

Posted by 홍반장水 홍반장水

[ChatScript] ChatScript - https://github.com/bwilcox-1234/ChatScript


Natural Language tool/dialog manager


ChatScript

Natural Language tool/dialog manager

ChatScript is the next generation chatbot engine that has won the Loebner's 4 times and is the basis for natural language company for a variety of tech startups.

ChatScript is a rule-based engine, where rules are created by humans writers in program scripts through a process called dialog flow scripting. These use a scripting metalanguage (simply called a "script") as their source code. Here what a ChatScript script file looks like:

#
# file: food.top
#
topic: ~food []

#! I like spinach
s: ( I like spinach ) Are you a fan of the Popeye cartoons?
	
	a: ( ~yes )  I used to watch him as a child. Did you lust after Olive Oyl?
    	    b: ( ~no ) Me neither. She was too skinny.
    	    b: ( yes ) You probably like skinny models.
	
	a: ( ~no ) What cartoons do you watch?
     		b: ( none ) You lead a deprived life.
     		b: ( Mickey Mouse ) The Disney icon.

#! I often eat chicken
u: ( ![ not never rarely ] I * ~ingest * ~meat ) You eat meat.

#! I really love chicken
u: ( !~negativeWords I * ~like * ~meat ) You like meat.

#! do you eat bacon?
?: ( do you eat _ [ ham eggs bacon] ) I eat '_0

#! do you like eggs or sushi?
?: ( do you like _* or _* ) I don't like '_0 so I guess that means I prefer '_1.

#! I adore kiwi.
s: ( ~like ~fruit ![~animal _bear] )  Vegan, you too...

#! do you eat steak?
?: ( do you eat _~meat ) No, I hate _0.

#! I eat fish.
s: ( I eat _*1 > ) 
  $food = '_0 
  I eat oysters.

Above example mentioned in article How to build your first chatbot using ChatScript.

Basic Features

  • Powerful pattern matching aimed at detecting meaning.
  • Simple rule layout combined with C-style general scripting.
  • Built-in WordNet dictionary for ontology and spell-checking.
  • Extensive extensible ontology of nouns, verbs, adjectives, adverbs.
  • Data as fact triples enables inferencing and supports JSON representation.
  • Rules can examine and alter engine and script behavior.
  • Planner capabilities allow a bot to act in real/virtual worlds.
  • Remembers user interactions across conversations.
  • Document mode allows you to scan documents for content.
  • Ability to control local machines via popen/tcpopen/jsonopen.
  • Ability to read structured JSON data from websites.
  • Postgres and Mongo databases support for big data or large-user-volume chatbots.

OS Features

  • Runs on Windows or Linux or Mac or iOS or Android
  • Fast server performance supports a thousand simultaneous users.
  • Multiple bots can cohabit on the same server.

Support Features

  • Mature technology in use by various parties around the world.
  • Integrated tools to support maintaining and testing large systems.
  • UTF8 support allows scripts written in any language
  • User support forum on chatbots.org
  • Issues or bugs on this repo

Getting started

Installation

Take this project and put it into some directory on your machine (typically we call the directory ChatScript, but you can name it whatever). That takes care of installation.

git clone https://github.com/bwilcox-1234/ChatScript

Standalone mode - run locally on a console (for developement/test)

From your ChatScript home directory, go to the BINARIES directory:

cd BINARIES

And run the ChatScript engine

Windows

ChatScript

Linux

./LinuxChatScript64 local

Note: to set the file executable: chmod a+x ./LinuxChatScript64

MacOS

./MacChatScript local

This will cause ChatScript to load and ask you for a username. Enter whatever you want. You are then talking to the default demo bot Harry.

Server Mode (for production)

From your ChatScript home directory, go to the BINARIES directory and run the ChatScript engine as server

Run the server on Windows

ChatScript port=1024

Run the server on Linux

./LinuxChatScript64

Run the server on MacOS

./MacChatScript

This will cause ChatScript to load as a server.
But you also need a client (to test client-server communication). You can run a separate command window and go to the BINARIES directory and type

Run a client (test) on Windows

ChatScript client=localhost:1024 

Run a client (test) on Linux

./LinuxChatScript64 client=localhost:1024

Run a client (test) on MacOS

./MacChatScript client=localhost:1024

This will cause ChatScript to load as a client and you can talk to the server.

How to build a bot

Run ChatScript locally. From the ChatScript command prompt, type

:build Harry

or whatever other preinstalled bot exists. If you have revised basic data, you can first:

:build 0

How to compile the engine.

On windows if you have Visual Studio installed, launch VS2010/chatscript.sln or VS2015/chatscript.sln and do a build. The result will go in the BINARIES directory.

On Linux, go stand in the SRC directory and type make server (assuming you have make and g++ installed). This creates BINARIES/ChatScript, which can run as a server or locally. There are other make choices for installing PostGres or Mongo.

Full Documentation

ChatScript Wiki (user guides, tutorials, papers)

Contributing

  1. Fork it
  2. Create your feature branch (git checkout -b my-new-feature)
  3. Commit your changes (git commit -am 'Add some feature')
  4. Push to the branch (git push origin my-new-feature)
  5. Create new Pull Request

Last releases

changes.md

Author


Posted by 홍반장水 홍반장水

Install Ubuntu 13.10

 

http://www.ubuntu.com/download/desktop/install-desktop-latest

 

 

Posted by 홍반장水 홍반장水

Smarter and faster

Ubuntu 13.10 for desktops, servers, phones and the cloud is here.

Get Ubuntu 13.10 now

 

 

 

Posted by 홍반장水 홍반장水
TAG linux, Ubunto

Ubunto 설치

Extreming X/Linux 2013.02.20 13:57

Ubunto 설치

download : http://www.ubuntu.com/download/desktop/questions?distro=desktop&bits=64&release=latest

몇 $ 결재할꺼냐고 나오는데, 전부 0으로 변경하고 "Download" 버튼으로 변경되면 다운로드 실행.

Posted by 홍반장水 홍반장水
TAG linux, Ubunto

http://www.ubuntu.com/devices/tablet

 

Tastefully tactile

Ubuntu on tablets

With unique multitasking productivity, effortless navigation and defence-ready security, Ubuntu raises the bar on tablet design and sets a new standard for the post-PC era. Bright. Brilliant. Beautiful. And naturally neat.

Ubuntu tablet sharing a movie

Multitasking mojo

Ubuntu’s unique side stage places a phone and a tablet app on the same screen at the same time for amazing tablet productivity. True multitasking comes to the tablet.

Ubuntu tablet running multipule applications side by side

Take calls in Skype while you work in a document, make notes on the side while you surf the web, tweet while you watch a movie.

Or use apps collaboratively – drag content from one app to another for a super-productive day. We’ve reinvented
the tablet as a bridge between phone and PC.

Ubuntu login screen with multiple users

Safer sharing

Your Ubuntu tablet has multiple secure user accounts, and
a guest account. Perfect for families and friends, and ideal for the office, with secure multi-user logins that make using and sharing devices safe.

Data protection is world class with full disk encryption, and additional encryption for personal data, making Ubuntu perfect for sensitive environments and regulatory compliance in the medical, military, industrial and finance sectors.

Effortless navigation with magic edges

Use all four edges of the screen to navigate between apps, settings and controls. There are no buttons on the Ubuntu tablet, you don’t have to keep returning to
the home screen every time you want to switch apps – everything is available at
a swipe. Leaner, cleaner, more elegant hardware designs are possible with Ubuntu – the result is a joy to use.

Instant launch

The left edge holds your favourite apps, so all the things you use most are only
a touch away. Here you can see what’s running, switch between apps or launch your favourites quickly.

The system at your service

Swipe through the top for any system service, search or setting. Switch networks, turn mobile data on, mute the volume, respond to incoming messages or block notifications without leaving your application. In fact, any system setting can be changed directly, without losing your place in the app. That makes Ubuntu the best tablet for staying focused in a connected world.

Celebrate content
not controls

Ubuntu feels cleaner, more spacious and less cluttered because we don’t need buttons on every screen – your content is king. Swiping up from the bottom edge reveals app controls.
Don’t swipe, you don’t see any buttons or toolbars. You’re free to focus on the stuff that matters – your photos, web pages, music, messages and apps.

Using HUD to search to application functions

Voice control in the HUD

The Ubuntu HUD makes complex application workflows simple on touch devices. This brings all the power of the
PC to your touch device. And with voice control, it’s as if
you had an extra set of hands – a truly personal assistant.

Take the tablet where it has never been before – image manipulation, movie editing, document management, CAD. With an interface that scales from the tablet to a PC, Ubuntu brings potent apps into focus on touch devices.

Instant share and
cloud connections

Sharing is now built-in, with support for all the major networks. So any app can let you share with friends, family and co-workers. One touch is all it takes.

Facebook and Twitter aren’t the only ways to share.
Ubuntu One already has millions of users on Ubuntu, Android, Windows and Mac. Deeply integrated on Ubuntu devices, it provides free storage, paid-for music streaming services and
a foundation for cloud-based services from operators and device makers.

A whole world of apps

Web applications sit alongside native apps as equal citizens
on Ubuntu – with their own icons and access to system services. Facebook, Twitter, Google Maps, Gmail and Spotify are all available from day one – thanks to Ubuntu’s brilliant web app system, developers can easily make their site install on the tablet as an app.

We aren’t limited to HTML5. Native apps are blazingly fast, taking advantage of the full capabilities of the tablet’s processor and graphics hardware. A mobile SDK does most
of the work for you, giving you that Ubuntu style. It’s easy for Android and Blackberry developers to publish for the Ubuntu audience too, and since you’re already running Ubuntu on your development workstations, everything you need is at your fingertips.

Learn more about developing for Ubuntu on tablets ›

Searching for New york on Ubuntu tablet

Savvy search

Ubuntu presents results from hundred of sources in
one gorgeous page, saving you the trouble of comparison shopping or hunting down the right provider. You’ll see information from your email and phone contacts alongside Facebook friends and followers on Twitter.

Looking for music? Ubuntu doesn’t just search the tunes
on your tablet, it also searches online, giving you a choice
of tracks you don’t yet own. It’s really one search to rule
them all.

Ubuntu home screen displayed portrait

Naturally neat home screen

The stylish home screen organises all your most important information, selected from hundreds of sources – online or
on board.

You can customise the screen and search for any kind of content. Watch what you want with a single touch – no need to worry which app to find it in.

Convergence that just clicks

Today’s tablets are as powerful as ultra-light laptops. Ubuntu uniquely supports a new category of convergence device – add a keyboard and mouse and your Ubuntu tablet becomes
a full PC and thin client, with access to Windows apps over standard protocols from Microsoft, Citrix, VMware and Wyse. That lets enterprise IT deploy a single, secure, portable corporate device for all kinds of applications.

Since it is pure Ubuntu, the tablet can be managed via Landscape, giving enterprises complete control over the users, apps, updated and access using the same tool they
use for Ubuntu servers and desktops today.

Ubuntu convergence illustration

Build a tablet with us

Ubuntu tablet's interface branded with partners and grid of apps

Perfect for partners

Canonical and Ubuntu enable industry partners to build devices that span the range, from low-BOM consumer electronics to enterprise-grade convergence devices for
the office, ruggedized, industrial and military. Fully customisable with branding, content and apps, Ubuntu
is the best choice for whatever tablet you want to make.

Work with us ›

Everything developers need

Create gorgeous apps easily with our SDK: HTML5, OpenGL and a native toolkit giving you a full range of options for modern app development. With one OS for all form factors, you can build a single app with interfaces for the tablet, PC and phone – all published in a single upload. That’s why leading game engines support Ubuntu, and why we’re the favourite developer desktop for both cloud and mobile.

Create your first tablet app for Ubuntu ›

Posted by 홍반장水 홍반장水

리눅스 배포판 다운로드

 

http://iso.linuxquestions.org/

 

CentOS : http://ftp.neowiz.com/centos/

 

 

Posted by 홍반장水 홍반장水
TAG CentOS, linux
이미 2009년에 클라우드에 대한 얘기는 했었는데, 인지를 못하고 있다가 지금 보니 이미 옆에 와있군.  클라우드 서비스 업체인 클루넷이 주가가 오르니 안오르니 그런 얘기가 오갔었는데 ㅋㅋㅋ
관심을 가져봐야 할껀 Hadoop 이 아닐까 한다. 뭔지는 잘 모르겠다고 생각하겠지만, 결국 나중엔 우리 옆에서 가장 많이 사용되는 것 중의 하나가 될지도 모르니 말이다.

클라우드 컴퓨팅 입문


클라우드 컴퓨팅은 일종의 컴퓨팅 솔루션으로 이 솔루션을 이용하면 사용자가 기술이나 서비스를 이용하여 액세스하는 방법에 관계없이 직접 연결이나 LAN, WAN 또는 인터넷을 통해 필요에 따라 온 디맨드 형태로 실제 자원이나 가상의 자원 그리고 전용 자원이나 공유 자원 형태의 컴퓨팅 자원을 액세스할 수 있습니다. 클라우드는 고객이 필요할 때 필요한 만큼 자원을 얻을 수 있게 하는 셀프 서비스 인터페이스라고 할 수 있습니다. 또한, 클라우드는 기능이 강화되고 있는 서버와 가상화 기술을 활용하는 IT 서비스를 구축하는 데 필요한 기본적인 개념이기도 합니다.

클라우드 컴퓨팅의 중요성은 인프라에 대한 투자 비용을 절약하고 애플리케이션의 개발과 배치에 소요되는 시간을 줄이며 자원 할당과 관련된 오버헤드를 낮출 수 있는 클라우드의 잠재력에 있습니다.

사설 클라우드와 공용 클라우드의 차이점은 무엇입니까? 그리고 하이브리드의 개념은 무엇입니까?

일반적으로 공용(외부) 클라우드는 회사의 방화벽 외부에 존재하는 환경을 말합니다. 공용 클라우드는 써드파티 벤더에서 제공하는 서비스일 수 있습니다. 또한, 셀프 서비스 포탈을 통해 관리되는 가상화된 공유 인프라라고 할 수 있습니다.

사설(내부) 클라우드는 공용 클라우드의 서비스 제공 모델과 동일하지만 방화벽 뒤에서 조직과 그 고객만을 위해 서비스를 제공합니다. 수집할 IT 인프라 자원이 내부에 있는 경우에도 셀프 서비스 관리 인터페이스는 계속해서 역할을 수행합니다.

하이브리드 클라우드 환경에서는 외부 서비스를 활용하여 내부 클라우드를 확장하거나 보완합니다.

클라우드 컴퓨팅은 SaaS(Software-as-a-Service), IaaS(Infrastructure-as-a-Service) 및 PaaS(Platform-as-a-Service)와 같은 것입니까?

웹상에서 제공되는 소프트웨어 애플리케이션인 SaaS(Software-as-a-Service)를 클라우드 컴퓨팅의 서브세트로 생각하는 사람들이 업계에서 많아지고 있습니다. 그리고 원격으로 액세스할 수 있는 서버와 스토리지 용량을 의미하는 IaaS와 개발자가 호스트 인프라에서 웹 애플리케이션을 빌드하고 전개할 수 있게 도움을 주는 PaaS에 대해서도 이와 같이 생각할 수 있습니다.

클라우드 컴퓨팅을 자세히 배울 수 있는 곳은 어디입니까?

기술 자료, 튜토리얼, 데모 및 기타 참고자료는 먼저, 참고자료 및 이벤트 탭을 확인하십시오. 그런 다음, My developerWorks를 이용하는 동료와 협력하여 축적한, 다양한 클라우드 컴퓨팅 관련 대화식 지식을 살펴보십시오.

클라우드에서는 어떤 유형의 애플리케이션을 실행할 수 있습니까?

클라우드에서는 어떤 애플리케이션이든지 실행할 수 있지만 그렇다고 해서 모든 애플리케이션을 클라우드에서 실행해야 하는 것은 아닙니다. 데스크탑이나 워크스테이션에 상주해 있으면서 사용자에게 도움을 주는 시스템 분석 도구나 조각 모음 유틸리티와 같은 소프트웨어는 로컬에 남겨두는 편이 더 좋습니다. 또한, 중요한 고객 데이터는 공용 클라우드에 두지 말아야 합니다.

클라우드는 IT 관리, 비즈니스 및 생산성, 개발 및 배치, 용량(서버 및/또는 스토리지) 그리고 협업을 처리하는 애플리케이션에 적합합니다.

클라우드 간에 애플리케이션을 이동할 수 있습니까?

그렇습니다. 그러나 클라우드 벤더가 표준 기술을 채택하여 난이도가 높은 태스크가 아니라 쉽게 수행할 수 있는 조작을 이동할 수 있는 자유와 상호 운용성을 확보해야 한다는 점을 유의해야 합니다. 다음 세 가지 참고자료는 클라우드 컴퓨팅 표준에 참여할 수 있게 도움을 줍니다.

IBM에는 클라우드가 있습니까? 현재 사용 가능한 클라우드 컴퓨팅 플랫폼은 어떤 것입니까?

IBM에서는 신속하고 비용 면에서 효과적인 개발과 테스트를 지원하도록 설계된 전체적인 컴퓨팅 옵션을 제공합니다. 예:

클라우드 컴퓨팅을 개발하고 설계하는 데 도움을 줄 수 있는 제품, 기술 및 서비스는 무엇입니까?

IBM에서는 클라우드 애플리케이션을 개발하고 시스템을 관리하는 데 사용할 수 있는 다양한 제품과 기술을 제공합니다. Products 탭에서 사용 가능한 클라우드 레디 제품의 목록을 확인하고 바로 몇 가지 제품을 다운로드하십시오.

클라우드 애플리케이션 개발과 관련된 기본적인 기사가 있습니까?

물론 있습니다. 먼저, 다음과 같은 기사를 확인하십시오.




Linux와 Apache Hadoop을 사용한 클라우드 컴퓨팅

http://www.ibm.com/developerworks/kr/library/au-cloud_apache/index.html

클라우드 컴퓨팅 소개

최근에는 클라우드 컴퓨팅에 관한 선전이 증가하고 있으며 이러한 현상은 IT 산업에 대한 앞으로의 경향을 보여준다. 간단히 말해서 클라우드 컴퓨팅은 외부 환경에서 서비스 형태로 제공되는 확장 가능한 컴퓨팅 리소스를 사용량에 따라 요금을 지불하는 방식으로 사용하는 것이라고 정의할 수 있다. 인터넷을 통해 "클라우드"에 있는 모든 리소스를 액세스할 수 있으며 컴퓨팅 능력, 대역폭, 스토리지, 보안 및 신뢰성에 관해 걱정할 필요가 없다.

이 기사에서는 가상 Linux® 서버를 임대할 수 있는 Amazon EC2와 같은 클라우드 컴퓨팅을 간략하게 소개한 후 가상 Linux 서버에 구축하여 클라우드 컴퓨팅 프레임워크를 설정할 수 있는 오픈 소스 MapReduce 프레임워크인 Apache Hadoop을 소개한다. 그러나 벤더에서 호스트하는 VM에서만 Hadoop을 전개할 수 있는 것은 아니며 사용자는 실제 시스템에서 실행되는 일반 Linux OS에서 Hadoop을 전개할 수 있다.

Apache Hadoop을 자세히 살펴보기 전에 클라우드 컴퓨팅 시스템의 구조에 대해 간략히 소개한다. 그림 1에는 클라우드 컴퓨팅의 계층과 기존의 몇 가지 오퍼링이 표시되어 있다. 클라우드 컴퓨팅의 계층에 관한 자세한 사항은 참고자료 섹션을 참고한다.

IaaS(Infrastructure-as-a-Service)와 같은 인프라스트럭처는 인프라스트럭처(컴퓨팅 리소스 및 스토리지)를 서비스 형태로 임대하는 것을 말한다. IaaS에는 서비스 품질에 특정한 제한조건(특정 운영 체제 및 소프트웨어를 실행할 수 있는 기능)을 두고 컴퓨터나 가상 호스트 또는 데이터 센터를 임대할 수 있는 기능이 있다. Amazon EC2는 이러한 계층에서 IaaS로서 역할을 하여 사용자에게 가상 호스트를 제공한다. 이러한 플랫폼(Platform-as-a-Service 또는 PaaS)에서는 인프라스트럭처에서 "클라우드" 컴퓨팅에 API 기능을 제공하는 서비스나 소프트웨어 프레임워크에 집중한다. Apache Hadoop은 PaaS로서 역할을 하며 가상 서버에서 클라우드 컴퓨팅 플랫폼으로 구축된다.


그림 1. 클라우드 컴퓨팅과 기존 오퍼링으로 구성된 계층
클라우드 컴퓨팅의 다양한 계층 보기

Amazon EC2

Amazon EC2는 사용자가 가상 시스템을 다양한 기능(CUP, 디스크, 메모리 등)과 함께 요청할 수 있는 웹 서비스이다. 사용자는 컴퓨터를 사용한 시간에 대해서만 비용을 지불하며 호스팅 작업은 Amazon에서 처리한다.

이러한 인스턴스 즉, AMI(Amazon Machine Image)는 Linux를 기반으로 하며 원하는 모든 애플리케이션이나 소프트웨어를 실행할 수 있다. Amazon에서 서버를 임대한 후에야 일반 SSH 도구를 사용하여 연결을 설정하여 해당 서버를 실제 서버처럼 조작할 수 있다.

이 기사에서는 EC2를 자세히 소개하지 않는다. 추가 정보는 참고자료 섹션을 참고한다.

Hadoop 클라우드 컴퓨팅 프레임워크에 대한 베스트 프랙티스는 AMI에서 이 프레임워크를 전개하는 것이며 컴퓨팅 기능, 대역폭, 스토리지 등이 문제가 되지 않는다면 AMI을 통해 클라우드 기능을 활용할 수 있다. 그러나 Hadoop은 클라우드 솔루션에서만 전개되는 것이 아니므로 이 기사의 다음 부분에서는 로컬에서 호스트되는 Linux 서버의 VMware 이미지에서 Hadoop을 구축한다. 그전에 Apache Hadoop을 간단히 소개한다.


Apache Hadoop

Apache Hadoop은 대량의 데이터를 분산 처리할 수 있는 소프트웨어 프레임워크(플랫폼)이다. 2006년에 도입되었으며 Google, Yahoo! 및 IBM 등에서 지원한다. 이 Apache Hadoop을 PaaS 모델로 생각할 수도 있다.

디자인의 핵심은 MapReduce를 구현했다는 점과 MapReduce(Google의 자료에서 소개됨)와 Google File System에서 영향을 받은 HDFS(Hadoop Distributed File System)에 있다.

MapReduce

MapReduce는 Google에서 도입한 소프트웨어 프레임워크로 컴퓨터 클러스터나 노드 클러스터에서 대용량 데이터 세트 분산 컴퓨팅을 지원한다. MapReduce에는 Map 프로세스와 Reduce 프로세스가 결합되어 있다.

Map 프로세스에서는 마스터 노드가 작업을 입력 받아서 더 작은 하위 작업으로 나눈 후 작업자 노드에 분배한다.

작업자 노드는 이러한 하위 작업을 처리한 후 그 결과를 다시 마스터 노드에 전달한다.

그러면 Reduce 프로세스에서 마스터 노드가 모든 하위 작업의 결과를 받아서 서로 결합시켜 원래 작업의 결과인 출력을 얻는다.

MapReduce 플로우에 관한 개념은 그림 2를 참조한다.

MapReduce의 장점은 맵과 리덕션 조작을 분산 처리할 수 있다는 점이다. 각 맵핑 조작은 독립적이기 때문에 모든 맵은 병렬로 실행될 수 있으며 따라서 총 컴퓨팅 시간을 줄일 수 있다.

HDFS

HDFS에 대한 자세한 소개와 이 파일 시스템을 조작하는 방법은 이 기사에서 다루지 않는다. 추가 정보는 참고자료 섹션을 참조한다.

일반 사용자 관점에서 보면 HDFS는 기존 파일 시스템과 동일하다. 특정 디렉토리 경로를 사용하여 파일에 CRUD 조치를 실행할 수 있다. 그러나 분산 스토리지의 특성으로 인해 각각 역할이 다른 "NameNode"와 "DataNode"가 있다.

NameNode는 DataNode의 마스터이다. NameNode는 HDFS 내에서 메타데이터 서비스를 제공한다. 메타데이터는 DataNode의 파일 맵핑을 표시한다. 또한 조작 명령을 승인하고 어느 DataNode가 조작과 복제를 실행해야 하는지 결정한다.

DataNode는 HDFS의 스토리지 블록으로 동작한다. 또한 NameNode에서 수신된 블록을 작성하고, 삭제하거나 복제하는 명령에 응답한다.

JobTracker 및 TaskTracker

애플리케이션을 실행할 때에는 HDFS에 있는 입력과 출력 디렉토리를 함께 제공해야 한다. JobTracker는 MapReduce 애플리케이션을 실행하기 위한 단일한 제어점으로, 작성될 TaskTracker와 종속 작업의 수를 결정하여 각 하위 작업을 TaskTracker에 할당한다. 각 TaskTracker가 상태를 보고하면 완료된 작업은 JobTracker로 돌아간다.

일반적으로 하나의 마스터 노드가 NameNode와 JobTracker로 동작하며 슬레이브 노드는 DataNode와 TaskTracker로 동작한다. Hadoop Cluster에 대한 개념과 MapReduce에 대한 흐름이 그림 2에 표시되어 있다.


그림 2. Hadoop Cluster에 대한 개념 및 MapReduce 흐름
Hadoop Cluster의 개념

Apache Hadoop 설정하기

이제 Linux VM에서 Apache Hadoop Cluster를 설정한 후 Apache Hadoop Cluster에서 MapReduce 애플리케이션을 실행한다.

Apache Hadoop은 다음과 같은 세 가지 개발 모드를 지원한다.

  • 독립형 모드: 기본적으로 Hadoop은 비분산 독립형 모드로 실행하도록 구성한다. 이 모드는 애플리케이션을 디버그하기가 유용하다.
  • 의사 분산 모드: 또한 Hadoop은 단일 노드 의사 분산 모드로 실행할 수 있다. 이 경우에 각 Hadoop 디먼은 개별 Java™ 프로세스로 실행된다.
  • 완전 분산 모드: Hadoop은 다른 호스트에 구성되며 클러스터로 실행된다.

Hadoop을 독립형이나 의사 분산 모드로 설정하려면 Hadoop 웹 사이트의 참고자료를 참조한다. 이 기사에서는 완전 분산 모드에서 Hadoop을 설정하는 과정만을 다룬다.

환경 준비

이 기사에서는 세 대의 GNU/Linux 서버가 필요하며 한 대는 마스터 노드로 동작하며 다른 두 대는 슬레이브 노드이다.


표 1. 서버 정보
서버 IP 서버 호스트 이름 역할
9.30.210.159 Vm-9-30-210-159 마스터(NameNode 및 JobTracker)
9.30.210.160 Vm-9-30-210-160 슬레이브 1(DataNode 및 TaskTracker)
9.30.210.161 Vm-9-30-210-161 슬레이브 2(DataNode 및 TaskTracker)

각 시스템에 Hadoop 바이너리와 Java SE 6를 설치해야 한다. 자세한 정보는 참고자료 섹션을 참조한다. 이 기사에서는 Hadoop 버전 0.19.1을 사용한다.

또한 SSH를 설치하고 각 시스템에서 sshd를 실행해야 한다. SUSE 및 RedHat과 같은 일반적인 Linux 릴리스를 설치하면 이러한 것들이 기본적으로 설치된다.

통신 설정

/etc/hosts 파일을 갱신하고 IP와 호스트 이름을 사용하여 세 대의 시스템이 서로 연결되는지 확인한다.

Hadoop 마스터 노드는 SSH를 사용하여 슬레이브 노드와 통신하기 때문에 마스터 노드와 슬레이브 노드 간에 암호가 필요없는 인증된 SSH 연결을 설정해야 한다. 각 시스템에서 다음 명령을 실행하여 RSA 공용 키와 개인용 키를 생성한다.

	ssh-keygen –t rsa 

이렇게 하면 /root/.ssh 디렉토리 밑에 id_rsa.pub가 생성된다. 마스터 노드의 id_rsa.pub를 59_rsa.pub로 이름을 바꾸고 슬레이브 노드로 복사한다. 그런 다음 명령을 실행하여 마스터 노드의 공용 키를 슬레이브 노드의 인증된 키에 추가한다.

	cat /root/.ssh/59_rsa.pub >> /root/.ssh/authorized_keys 

이제 SSH를 사용하여 슬레이브 노드로 연결한다. 암호를 입력하지 않아도 연결이 되어야 한다.

마스터 노드 설정

<Hadoop_home>/conf/ 디렉토리 밑에 있는 해당 구성 파일을 구성하여 완전 분산 모드에서 작업하도록 Hadoop을 설정한다.

hadoop-site.xml 파일에서 Hadoop 전개를 구성한다. 이렇게 구성하면 hadoop-default.xml에 구성된 내용은 무시된다.

표 2. 구성 등록 정보
등록 정보 설명
fs.default.name NameNode URI
mapred.job.tracker JobTracker URI
dfs.replication 복제 수
hadoop.tmp.dir Temp 디렉토리

hadoop-site.xml

<?xml version="1.0"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
<!-- Put site-specific property overrides in this file. -->
<configuration>
  <property>
    <name>fs.default.name</name>
    <value>hdfs://9.30.210.159:9000</value>
  </property>
  <property>
    <name>mapred.job.tracker</name>
    <value>9.30.210.159:9001</value>
  </property>
  <property>
    <name>dfs.replication</name>
    <value>1</value>
  </property>
  <property>
    <name>hadoop.tmp.dir</name>
    <value>/root/hadoop/tmp/</value>
  </property>
</configuration>

hadoop-env.sh 파일을 구성하여 JAVA_HOME을 지정한다. 해당 라인을 코멘트 아웃하고 JAVA_HOME 디렉토리를 지정한다.

	export JAVA_HOME=<JAVA_HOME_DIR>

마스터 노드의 IP 주소를 마스터 파일에 추가한다.

9.30.210.159

슬레이브 노드의 IP 주소를 슬레이브 파일에 추가한다.

	9.30.210.160
	9.30.210.161


슬레이브 노드 설정

SCP나 기타 복사 유틸리티를 사용하여 hadoop-site.xml, hadoop-env.sh, masters 및 slaves를 각 슬레이브 노드로 복사한다.

HDFS 포맷하기

다음 명령을 실행하여 Hadoop 분산 파일 시스템을 포맷하여 초기화한다.

	<Hadoop_home>/bin/hadoop namenode -format

Hadoop Cluster를 확인한다.

이제 bin/start-all.sh를 사용하여 Hadoop Cluster를 시작한다. 그러면 마스터 노드와 슬레이브 노드에 몇 가지 로그가 출력된다. 이 로그를 검증하여 모든 사항이 올바른지 확인한다. 오류가 있으면 HDFS를 포맷하여 hadoop-site.xml 파일에 지정된 Temp 디렉토리를 지우고 다시 시작한다.

다음 URL에서 마스터 노드와 슬레이브 노드가 이상이 없는지 확인한다.

NameNode: http://9.30.210.159:50070
JobTracker: http://9.30.210.159:50030

클라우드에서 Hadoop Cluster를 설정했으므로 이제 MapReduce 애플리케이션을 실행할 차례이다.

MapReduce 애플리케이션을 작성한다.

MapReduce 애플리케이션은 "Map"과 "Reduce"의 특성을 갖고 있어야 하며 이는 작업을 더 작은 부분으로 나누어 병렬로 처리할 수 있다는 것을 의미한다. 그런 다음 각 하위 작업의 결과가 정리되어 원래의 작업에 대한 결과가 작성된다. 이에 대한 예로 웹 사이트 키워드 검색을 들 수 있다. 검색 및 그래빙 작업은 분할되어 슬레이브 노드에 위임되며 그 후에 각 결과가 집계되어 마스터 노드에서 최종 결과가 출력된다.

샘플 애플리케이션 실행하기

Hadoop에는 테스트용 샘플 애플리케이션이 있다. 이 중에는 여러 개의 파일에서 특정 단어의 빈도 수를 세는 단어 계수기가 있다. 이 애플리케이션을 실행하여 Hadoop Cluster를 확인한다.

먼저 conf/ 디렉토리 밑에 있는 input 파일을 분산 파일 시스템에 삽입한다. 그런 다음 이 파일에서 단어 수를 센다.

$ bin/hadoop fs –put conf input 

그런 다음 샘플 애플리케이션을 시작하여 "dfs"로 시작하는 단어의 빈도 수를 계산한다.

$ bin/hadoop jar hadoop-*-examples.jar grep input output 'dfs[a-z.]+'

이 명령은 Map과 Reduce 프로세스를 출력한다.

앞에 있는 두 명령을 실행하면 HDFS 밑에 "input"과 "output" 디렉토리가 생성된다. 다음 명령을 사용하면 이 디렉토리가 표시된다.

$ bin/hadoop fs –ls

분산 파일 시스템에서 출력된 파일을 보자. 이 파일에는 "dfs"로 시작하는 단어의 빈도 수가 키 값 쌍으로 표시되어 있다.

$ bin/hadoop fs -cat ouput/*

이제 JobTracker 사이트에서 완료된 작업 로그를 확인한다.

Log Analyzer MapReduce 애플리케이션 작성하기

이제 Hadoop의 WordCount 애플리케이션과 유사한 IBM WebSphere® Portal v6.0 Log Analyzer 애플리케이션을 작성한다. 이 분석기는 IBM WebSphere Portal v6.0의 모든 SystemOut*.log 파일을 분석하여 특정 기간에 이 Portal에서 애플리케이션이 실행된 횟수를 표시한다.

Portal 환경에서는 모든 로그가 5MB로 분할되어 몇 개의 노드에서 병렬로 분석된다.


hadoop.sample.PortalLogAnalyzer.java
public class PortalLogAnalyzer {
	
public static class Map extends MapReduceBase 
	implements Mapper<LongWritable, Text, Text, IntWritable> {

	private static String APP_START_TOKEN = "Application started:";
	 private Text application = new Text();
		
	 public void map(LongWritable key, Text value, 
		 OutputCollector<Text, IntWritable> output, 
		Reporter reporter) throws IOException {
			 
	    String line = value.toString();
	    if(line.indexOf(APP_START_TOKEN) > -1) {
		int startIndex = line.indexOf(APP_START_TOKEN);
		startIndex += APP_START_TOKEN.length();
		String appName = line.substring(startIndex).trim();
		application.set(appName);
		output.collect(application, new IntWritable(1));
	    }
	}
}
	
public static class Reduce extends MapReduceBase 
	    implements Reducer<Text, IntWritable, Text, IntWritable> {
		
	public void reduce(Text key, Iterator<IntWritable> values, 
		OutputCollector<Text, IntWritable> output, 
		Reporter reporter) throws IOException {
	
	    int sum = 0;
	    while(values.hasNext()) {
		sum += values.next().get();
	    }
	    output.collect(key, new IntWritable(sum));
	}
}
	
public static void main(String[] args) throws IOException {
	JobConf jobConf = new JobConf(PortalLogAnalyzer.class);
	jobConf.setJobName("Portal Log Analizer");
	jobConf.setOutputKeyClass(Text.class);
	jobConf.setOutputValueClass(IntWritable.class);
	jobConf.setMapperClass(Map.class);
	jobConf.setCombinerClass(Reduce.class);
	jobConf.setReducerClass(Reduce.class);
	jobConf.setInputFormat(TextInputFormat.class);
	jobConf.setOutputFormat(TextOutputFormat.class);
		
	FileInputFormat.setInputPaths(jobConf, new Path(args[0]));
	FileOutputFormat.setOutputPath(jobConf, new Path(args[1]));
	JobClient.runJob(jobConf);
}
}

Hadoop API에 대한 자세한 설명은 Hadoop 사이트의 API 문서를 참조한다. 다음은 간단한 설명이다.

Map 클래스에서는 로그 파일의 각 라인을 분석하여 애플리케이션의 이름을 가져오는 맵 함수를 구현한다. 그런 다음 애플리케이션의 이름을 키 값 쌍으로 출력 콜렉션에 삽입한다.

Reduce 클래스는 키 또는 애플리케이션 이름이 동일한 모든 값을 합한다. 그러면 이 애플리케이션은 Portal에서 각 애플리케이션이 시작된 횟수를 표시하는 키 값 쌍을 출력한다.

Main 함수는 MapReduce 작업을 구성하고 실행한다.

PortalLogAnalyzer 실행하기

먼저, Java 코드를 마스터 노드로 복사한 후 이 코드를 컴파일한다. Java 코드를 <hadoop_home>/workspace 디렉토리로 복사한다. 이 코드를 컴파일하여 나중에 Hadoop 명령을 사용하여 실행할 수 있도록 Jar 파일로 아카이브한다.

$ mkdir classes
$ javac –cp ../hadoop-0.19.1-core.jar –d classes
			hadoop/sample/PortalLogAnalyzer.java
$ jar –cvf PortalLogAnalyzer.jar –C classes/ .

Portal의 로그를 workspace/input으로 복사한다. 2009년 5월의 모든 로그를 포함하고 있는 몇 개의 로그 파일이 있다고 가정한다. 이 로그를 HDFS에 가져다 놓는다.

$ bin/hadoop fs –put workspace/input input2

PortalLogAnalyzer를 실행하면 출력에 Map과 Reduce의 프로세스가 표시된다.

$ bin/hadoop jar workspace/PortalLogAnalizer.jar hadoop.sample.PortalLogAnalizer input2 
     output2


그림 3. 작업의 출력
$ bin/hadoop jar workspace/PortalLogAnalizer.jar hadoop.sample.PortalLogAnalizer input2       output2

애플리케이션이 종료하면 아래 그림 4와 같은 내용이 출력된다.

$ bin/hadoop fs –cat output2/*


그림 4. 부분 출력
$ bin/hadoop fs –cat output2/*

JobTracker 사이트에서 또 다른 완료된 작업을 확인할 수 있다. 그림 5의 마지막 라인에 유의한다.


그림 5. 완료된 작업
또 다른 완료된 작업







Posted by 홍반장水 홍반장水