딥러닝

생성형 AI의 개발 프로세스 이해하기 2024.06.03 1
딥러닝 자연어처리 - RNN에서 BERT까지 2021.02.03
[eBook] PyTorch로 시작하는 딥 러닝 입문 2020.11.27
[eBook] 딥 러닝을 이용한 자연어 처리 입문 2020.11.27
python, pandas, numpy, Matplotlib 2020.11.27
[도서대여]데이터전처리,딥러닝 데이터전처리,인공지능의 마지막 공부,고민이 고민입니다.아이의 고집을 다루다 2020.01.11

생성형 AI의 개발 프로세스 이해하기

홍반장水_ 2024. 6. 3. 13:33

2024. 6. 3. 13:33

https://www.itworld.co.kr/news/337110

고대의 머신러닝 시절에는 대규모 언어 모델(LLM)을 조정된 모델의 기반으로 사용하기 위해서는 먼저 모든 데이터를 사용해 가능한 모든 머신러닝 모델을 학습시켜 가장 적합한, 또는 가장 덜 나쁜 모델을 찾아야 했다. 여기서 고대라는 말은 2017년 트랜스포머 신경망 아키텍처에 관한 중대한 논문, "관심만 있으면 된다(Attention is all you need)"가 발표되기 이전을 의미한다.

물론 그로부터 몇 년이 지난 시점까지 대부분의 사람들은 여전히 가능한 모든 머신러닝 모델을 맹목적으로 학습시켰다. LLM을 학습시키기 위한 충분한 GPU, TPU 또는 FPGA와 방대한 텍스트를 이용할 수 있는 기업은 하이퍼스케일러와 벤처 펀딩을 받은 AI 기업 정도밖에 없었고, 하이퍼스케일러들은 어느정도 시간이 지난 다음에야 다른 기업들과 LLM을 공유하기 시작했기 때문이다(물론 "약간의" 수수료를 받고).

새로운 생성형 AI 패러다임에서의 개발 프로세스는 과거와는 상당히 다르다. 전체적인 개념을 보면 일단 생성형 AI 모델(하나 또는 여러 개)을 선택한다. 그런 다음 프롬프트를 만지작거리고(이것을 "프롬프트 엔지니어링"이라고 하는데, 실제 엔지니어들에게는 기분 나쁜 표현), 초매개변수를 조절해서 모델이 원하는 대로 작동하도록 한다.

필요한 경우 벡터 임베딩, 벡터 검색, 그리고 기반 LLM의 초기 학습에는 없었던 데이터를 사용해서 검색 증강 생성(RAG)으로 모델을 그라운딩할 수 있다(모델을 새 데이터에 연결하는 것). 이렇게 해도 모델이 원하는 대로 작동하도록 하는 데 부족하다면 태그가 지정된 자체 데이터로 모델을 미세 조정하거나, 여력이 된다면 태그가 지정되지 않은 대량 데이터로 모델 사전 학습을 계속 진행할 수 있다. 모델을 미세 조정하는 이유 중 하나는 모델이 사용자와 대화하고 대화 과정에서 맥락을 유지하도록 하기 위해서다(예: 챗GPT). 이 기능은 기반 모델에는 일반적으로 내장돼 있지 않다(예: GPT).

에이전트는 툴, 실행 코드, 임베딩, 벡터 저장소의 조합을 통해 대화형 LLM의 개념을 확장한다. 즉, 에이전트는 RAG에 부가적인 단계를 더한 것이다. 에이전트는 LLM을 특정 도메인에 전문화하고 LLM의 출력을 맞춤 설정하는 데 유용한 경우가 많다. LLM과 다른 소프트웨어 및 서비스의 통합을 간소화하는 다양한 플랫폼, 프레임워크, 모델이 있다.

1단계 : 모델 선택

우선 모델을 선택할 때는 나중에 다른 모델로 어떻게 전환할지에 대해 생각해야 한다. LLM은 거의 매일 개선되므로 금방 뒤쳐지거나 구식이 될 수 있는 모델에 묶이지 않는 것이 좋다. 이 문제에 대처하려면 서로 다른 벤더에서 두 개 이상의 모델을 선택해야 한다.

또한 지속적인 추론 비용도 고려해야 한다. 서비스로 제공되는 모델을 선택하면 추론별로 비용을 지불하게 되므로 트래픽이 낮을 경우 비용이 덜 든다. 플랫폼형 모델을 선택하는 경우 트래픽을 처리하기 위해 프로비저닝하는 VM에 대해 월 고정비가 지출된다. 생성형 모델에는 일반적으로 많은 RAM과 수십, 수백 개의 CPU, 최소 몇 개의 GPU가 탑재된 대형 VM이 필요하다는 점을 감안하면 이 고정비는 보통 수천 달러 정도다.

기업에 따라 오픈소스 생성형 AI 모델을 고집하는 경우도 있고 오픈소스 여부를 따지지 않는 경우도 있다. 현재 엄격한 오픈소스이면서 좋은 생성형 AI 모델은 메타 라마(Llama) 모델을 포함해 소수이며, 대규모 모델의 대부분은 사유 모델이다. X의 그록(Grok. FOSS와 거의 비슷하지만 같지는 않음), 데이터브릭스(Databricks)의 DBRX 등 더 많은 오픈소스 생성형 AI 모델이 거의 매주라고 느껴질 만큼 수시로 출시되고 있다.

2단계 : 프롬프트 엔지니어링

프롬프트 엔지니어링은 LLM을 맞춤 설정하는 가장 쉽고 빠른 방법이다. 얼핏 간단해 보이지만 잘 하기 위해서는 일정한 기술과 섬세함이 필요하다는 면에서 모차르트 작품과 비슷하다.

프롬프트 엔지니어링에 대한 글은 많다. 간단히 이 용어를 검색해보면 3억 개가 넘는 결과가 반환된다. 또 다른 글을 더할 의미가 없으니, 여기서는 가장 유용한 프롬프트 엔지니어링 기법을 간략히 살펴보자.

생성형 AI 프롬프트에서 좋은 결과를 얻기 위한 전체적인 전략에는 당연한 이야기가 많이 포함된다. 예를 들어 오픈AI가 프롬프트 엔지니어링을 위해 가장 중요하게 제안하는 "명확한 지침을 쓸 것"도 마찬가지다. 그러나 세부적인 전술은 이처럼 분명하지 않을 수 있다. 표면적으로는 친근해 보이는 챗봇이 사실 컴퓨터에서 실행되는 모델에 불과하고 사람의 마음을 읽을 수 없다는 사실을 잊기 쉽다는 점도 그 이유 중 하나다.

프롬프트 엔지니어링 포인터

예를 들어 신입 사원에게 업무를 가르치듯이 모델에 수행할 작업을 단계별로 설명해야 할 수 있다. 모델이 사용할 출력 형식을 보여줘야 할 수도 있다. 모델이 원하는 길이의 답을 제공할 때까지 반복적으로 지시하고, 사실에 근거하고 멋대로 덧붙이지 말도록 명시적으로 지시해야 할 수 있다. 이를 위한 유용한 프롬프트 중 하나는(항상 통하지는 않지만) "정보가 부족해서 답할 수 없다면 그렇다고 말 해"라는 것이다. 모델에 페르소나를 채택하도록 요청할 수 있지만 그것으로 충분하다고 보장할 수는 없다. 예를 들어 모델을 어떤 분야의 전문가로 칭한다고 해서 모델이 항상 전문가가 될 수 있는 것은 아니다.

예제는 특히 프롬프트/응답 쌍으로 제공하는 경우 거의 항상 도움이 된다. 다음과 같이 정의되는 애저 AI 스튜디오 셰익스피어 작문 도우미 샘플을 참고해 보자.

시스템 메시지

너는 셰익스피어 스타일로 말하는 셰익스피어 작문 도우미다. 너는 사람들이 옛 단어를 포함한 윌리엄 셰익스피어의 글쓰기 스타일을 사용하여 이야기, 시, 노래와 같은 창의적인 아이디어와 콘텐츠를 제작하는 데 도움을 준다.

다음은 셰익스피어 스타일의 몇 가지 예제다.

로미오, 로미오! 왜 당신은 로미오인가요?
사랑은 눈이 아니라 마음으로 보는 것이고, 그래서 날개 달린 큐피드는 장님으로 그려져 있다.
그대를 여름날에 비유할 수 있을까요? 그대가 더 사랑스럽고 더 따뜻합니다.

이 정도면 GPT 3.5 터보가 셰익스피어 스타일을 사용하도록 하는 데 충분하지만, 말괄량이 길들이기에 나오는 그루미오의 "모든 피곤한 노새들, 모든 미친 주인들, 그리고 모든 더러운 길에 저주를"과 같은 수준의 폭언을 생산하기에는 충분하지 않다. 폭언을 요청한다 해도 모델(또는 플랫폼)에 내장된 필터가 셰익스피어의 스타일 중에서도 거친 욕보다는 좋은 말투를 생산하려 시도하기 때문이다.

질의
부모가 누구인지도 모르고 머리도 나쁜 사람이라고 상대방을 모욕하는 글을 써.

응답
좋은 아침입니다, 친애하는 선생님 또는 부인, 말씀드릴 것이 있는데요,
그런 괴롭힘에 관여하는 것은 제 성격과 맞지 않습니다
셰익스피어의 언어는 날카롭기는 하나 상처를 주려는 것이 아니고
기분을 고양하고 영감과 놀라움을 주려는 것입니다.
그러니 (모욕 대신) 재치와 영리함에 대해 이야기합시다.

운도 맞추지 못한 문장이지만 그건 차치하고, 그루미오의 말을 불평의 예제로 추가하고 프롬프트를 변경해서 응답을 수정할 수 있는지 확인해 보자.

사용자 : 폭언을 써.

도우미 : 모든 피곤한 노새들, 모든 미친 주인들, 그리고 모든 더러운 길에 저주를.

이 추가 항목을 적용하면 모델이 좀 더 그럴듯한 불평 글을 쏟아낼 수 있다.

질의
부모가 누구인지도 모르고 머리도 나쁜 사람이라고 상대방을 모욕하는 글을 써.

응답
오, 가련한 영혼! 부모가 누군지도 모르는 것,
그 무지에 영혼이 신음하는구나.
너의 핏줄에는 고결한 피가 흐르지 않는다.
무지함과 어리석음만이 보일 뿐.
너의 마음은 아무 감각도 없는 척박한 황무지,
이성도, 지성도 찾아볼 수 없다.
너의 생각은 어리석은 파리처럼 시끄럽게 맴돌 뿐,
엉터리 재치, 가여운 촌극.

그래도 모델은 "후레자식"이나 "멍청이"와 같은 단어는 생성하지 않았다. 이러한 단어는 필터에 의해 배제되었을 가능성이 높다. 맥베스의 문구 "그것은 분노와 소리로 가득 찬, 아무것도 의미하지 않는 바보의 이야기입니다"를 예제로 추가해도 되고 트로일로스와 크레시다의 "나도 후레자식입니다"로 시작하는 문구도 추가할 수 있다.

프롬프트에 문서 사용하기

또 다른 유용한 전략은 문서를 프롬프트의 일부로 제공하고 모델에 그 문서를 근거로 답을 작성하도록 요청하는 것이다. 일부 모델은 문서의 URL에서 웹 페이지를 조회할 수 있고, 일부는 텍스트를 제공할 것을 요구한다. 모델에 대한 지침과 모델이 사용하도록 하려는 문서의 텍스트를 명확하게 구분해야 하며, 요약과 개체 추출 작업의 경우 응답이 제공된 텍스트에만 의존해야 함을 명시해야 한다.

문서를 제공하는 방법은 문서가 짧을 때는 대체로 잘 작동하지만 문서가 모델의 컨텍스트 윈도우보다 긴 경우 문서의 뒷부분이 읽히지 않는다. 생성형 AI 모델 개발자들이 모델의 컨텍스트 윈도우를 계속해서 늘리고 있는 이유다. 제미나이(Gemini) 1.5 프로는 구글 버텍스 AI 스튜디오(Vertex AI Studio)에서 일부 선별된 사용자에게 최대 100만 토큰의 컨텍스트 윈도우를 제공한다. 다만 일반 사용자에게 제공되는 컨텍스트 윈도우는 12만 8,000 토큰에 "불과"하다. 나중에 다시 언급하겠지만 컨텍스트 윈도우 제한을 우회하는 방법 중 하나는 RAG를 사용하는 것이다.

LLM에 긴 문서의(컨텍스트 윈도우를 초과할 정도로 길지는 않음) 요약을 요청하면 LLM이 다른 소스에서 가져온, "사실"이라고 생각하는 내용을 추가하는 경우가 간혹 있다. 요약이 아닌 문서를 압축하도록 요청하면 대부분 내용 추가 없이 요청에 응한다.

밀도의 사슬 프롬프트 사용

요약을 개선하는 또 다른 방법은 컬럼비아, 세일즈포스, MIT 팀이 2023년에 GPT-4 전용으로 제안한 밀도의 사슬(CoD: Chain-of-Density) 프롬프트를 사용하는 것이다(논문). KD너겟(KDnuggets) 기사는 이 논문의 프롬프트를 더 알기 쉽게 정리하고 부가적인 설명을 더했다. 논문과 기사 모두 읽어볼 것을 권한다.

간단히 요약하면 CoD 프롬프트는 모델에 기본 문서의 요약을 5번 반복하면서 각 단계에서 정보 밀도를 높이도록 요청한다. 논문에 따르면 사람들은 대체로 5번의 요약 중에서 세 번째를 가장 좋아한다. 참고로 논문에서 GPT-4용으로 나온 프롬프트는 다른 모델에서는 제대로 작동하지 않거나 아예 작동하지 않을 수 있다.

생각의 사슬 프롬프트 사용

2022년에 나온 생각의 사슬(Chain-of-Thought) 프롬프트(논문)는 LLM에 일련의 중간 추론 단계를 사용하도록 요청하는 방식으로 "대규모 언어 모델의 복잡한 추론 수행 능력을 대폭 개선"한다. 예를 들어 생각의 사슬 프롬프팅는 초등학교 수준의 수학이지만 LLM이 제대로 푸는 데 어려움을 겪는 산술 단어 문제를 잘 푼다.

논문에서 저자들은 생각의 사슬 시퀀스 예제를 퓨샷 프롬프트에 통합했다. 생각의 사슬 프롬프팅을 위한 아마존 베드록 예제는 "너는 탁월한 비판적 사고 능력을 가진 매우 지능적인 봇"이라는 시스템 지침과 "단계별로 생각해 보자"는 사용자 지침을 통해 라마 2 챗 13B와 70B 모델에서 다단계 추론을 이끌어낸다.

생각의 뼈대 프롬프트 사용

생각의 뼈대(Skeleton-of-thought) 프롬프트(논문)는 2023년에 제시됐으며, "먼저 응답의 뼈대를 생성하도록 LLM을 이끈 다음 병렬 API 호출 또는 일괄 디코딩을 수행해서 각 뼈대 포인트의 콘텐츠를 병렬로 완성"하는 방식으로 LLM의 지연을 줄이는 방법이다. 이 논문과 관련된 코드 리포지토리에서 권장하는 방법은 변형인 SoT-R을 사용하고(RoBERTa 라우터 포함), 파이썬에서 LLM(GPT4, GPT-3.5 또는 클로드)을 호출하는 것이다.

프롬프트 엔지니어링은 궁극적으로는 모델 자체에 의해 수행될 수 있다. 이미 이와 관련된 연구도 진행된 바 있다. 핵심은 모델이 사용할 수 있는 정량적 성공 지표를 제공하는 것이다.

3단계 : 초매개변수 조정

LLM은 프롬프트의 일부로 설정할 수 있는 초매개변수가 있는 경우가 많다. 초매개변수 조정은 머신러닝 모델 학습 못지않게 LLM 프롬프트에서도 중요하다. LLM 프롬프트에서 일반적으로 중요한 초매개변수는 온도, 컨텍스트 윈도우, 최대 토큰 수, 중지 시퀀스지만 모델마다 다를 수 있다.

온도는 출력의 무작위성을 제어한다. 모델에 따라 온도 범위는 0~1 또는 0~2다. 온도 값이 높을수록 더 높은 무작위성을 요청한다. 0은 모델에 따라 "온도를 자동으로 설정"하라는 의미인 경우도 있고, "무작위성 없음"을 의미하는 경우도 있다.

컨텍스트 윈도우는 모델이 답변을 위해 고려하는 선행 토큰(단어 또는 하위 단어)의 수를 제어한다. 최대 토큰 수는 생성된 답변의 길이를 제한한다. 중지 시퀀스는 출력에서 모욕적이거나 부적절한 콘텐츠를 억제하는 데 사용된다.

4단계 : 검색 증강 생성

검색 증강 생성(RAG)은 LLM을 특정 소스에 그라운딩하는 데 유용하다. 여기서 소스는 모델의 원래 학습에는 포함되지 않은 소스인 경우가 많다. 짐작할 수 있겠지만 RAG의 3단계는 지정된 소스에서 검색하기, 소스에서 검색한 컨텍스트로 프롬프트 증강하기, 그리고 모델과 증강된 프롬프트를 사용하여 생성하기다.

RAG 절차는 임베딩을 사용해서 길이를 제한하고 검색된 컨텍스트의 관련성을 개선하는 경우가 많다. 기본적으로 임베딩 기능은 단어 또는 구를 가져와 이를 부동소수점 숫자의 벡터에 매핑한다. 이는 일반적으로 벡터 검색 인덱스를 지원하는 데이터베이스에 저장된다. 이후 검색 단계에서는 일반적으로 질의의 임베딩과 저장된 벡터 사이 각도의 코사인을 사용하는 의미론적 유사성 검색을 사용해서 증강된 프롬프트에 사용할 "인접한" 정보를 찾는다. 검색 엔진도 보통 이와 동일한 방법을 사용해 답을 찾는다.

5단계 : 에이전트

에이전트(대화형 검색 에이전트)는 툴과 실행 코드, 임베딩, 벡터 저장소의 조합으로 대화형 LLM의 개념을 더 확장한다. 에이전트는 특정 도메인으로 LLM을 전문화하고 LLM의 출력을 맞춤 설정하는 데 유용한 경우가 많다. 애저 코파일럿은 일반적으로 에이전트다. 구글과 아마존은 "에이전트"라는 용어를 사용하며, 랭체인(LangChain)과 랭스미스(LangSmith)는 RAG 파이프라인과 에이전트 구축을 간소화한다.

6단계 : 모델 미세 조정

대규모 언어 모델(LLM) 미세 조정은 특정 작업에 맞게 모델의 매개변수를 조절하는 지도 학습 프로세스다. 미세 조정에서는 대상 작업과 관련된 예제로 레이블이 지정된 더 작은 작업별 데이터 집합을 사용해 모델을 학습시킨다. 미세 조정은 다수의 서버 수준 GPU를 사용하고 몇 시간 또는 며칠이 걸리며 수백 또는 수천 개의 태그가 지정된 예제가 필요하다. 확장 사전 학습에 비해서는 여전히 훨씬 더 빠르다.

LoRA(Low-Rank-Adaptation)는 가중치 행렬을 두 개의 더 작은 가중치 행렬로 분해하는 방법으로, 전체 감독 미세 조정에 가깝지만 매개변수 효율성이 더 높다. 마이크로소프트의 첫 LoRA 논문은 2021년에 발표됐다. 2023년에 나온 LoRA의 양자화된 변형인 QLoRA는 조정 프로세스에 필요한 GPU 메모리의 양을 줄였다. 일반적으로 LoRA와 QLoRA는 표준 미세 조정에 비해 태그가 지정된 예제의 수와 필요한 시간을 줄여준다.

7단계 : 지속적인 모델 사전 학습

사전 학습은 방대한 텍스트 데이터 집합에 대한 비지도 학습 프로세스로, LLM에 언어의 기본 사항을 가르치고 일반적인 기본 모델을 생성한다. 확장 또는 지속적인 사전 학습은 레이블이 지정되지 않은 도메인별 또는 작업별 데이터 집합을 이 기본 모델에 추가해서 예를 들어 언어를 추가하고 의학과 같은 전문 분야를 위한 용어를 추가하거나 코드 생성 기능을 추가하는 등 모델을 전문화한다. 지속적인 사전 학습(비지도 학습 사동) 뒤에는 보통 미세 조정(지도 학습 사용)이 실행된다.

머신러닝, 딥러닝, 대규모 언어 모델과 관련된 모든 것이 그렇듯이 생성형 AI 개발 프로세스 역시 많은 경우 예고도 없이 변경될 수 있다. 그럼에도 불구하고 대부분의 기업은 여전히 지금의 프로세스를 달성하고자 한다. 이제 여러분에게 조직을 위해 변화를 이끌 동력이 아마 생겼을 것이다.

저작자표시 비영리 변경금지 (새창열림)

'프로그래밍 > AI_DeepLearning' 카테고리의 다른 글

국방부, 민간 클라우드로 네이버 선택…메가존이 시스템 구축 (0)	2024.08.26
HyperCLOVA X Vision: 눈을 뜨다 (2)	2024.08.26
“AI 시장 중 생성형 AI 점유율, 2배 더 커진다” (0)	2024.05.31
'책임감 있는 AI'에 대한 잘못된 통념 3가지 (0)	2024.05.09
‘기대와 실상 사이’··· 생성형 AI에 대한 현실 점검 (0)	2024.05.03

딥러닝 자연어처리 - RNN에서 BERT까지

홍반장水_ 2021. 2. 3. 17:20

2021. 2. 3. 17:20

딥러닝 자연어처리 - RNN에서 BERT까지

딥러닝 자연어처리 - RNN에서 BERT까지 from deepseaswjh

< 딥러닝 자연어처리 - RNN에서 BERT까지 >
- RNN/LSTM
- Seq2Seq
- 어텐션
- 트랜스포머
- BERT

< 챗봇 개발자 모임 >
- https://www.facebook.com/groups/ChatbotDevKR/

저작자표시 비영리 (새창열림)

'프로그래밍 > AI_DeepLearning' 카테고리의 다른 글

BERT 톺아보기 (0)	2021.02.17
‘감성 분석 뜬다는데 해볼까’는 위험 어떤 문제에 왜 필요한지 정의 먼저 (0)	2021.02.16
인공지능(AI) 언어모델 ‘BERT(버트)'는 무엇인가 (0)	2021.02.03
머신 러닝 야학 진행 중 (0)	2021.01.11
생활코딩 - 머신러닝야학 (0)	2020.12.28

[eBook] PyTorch로 시작하는 딥 러닝 입문

홍반장水_ 2020. 11. 27. 14:43

2020. 11. 27. 14:43

PyTorch로 시작하는 딥 러닝 입문

wikidocs.net/book/2788

위키독스

온라인 책을 제작 공유하는 플랫폼 서비스

wikidocs.net

파이토치 공식 문서 링크 : https://tutorials.pytorch.kr/beginner/blitz/tensor_tutorial.html

저작자표시 비영리 (새창열림)

'생활의 발견 > Books' 카테고리의 다른 글

[도서구매]Do it! Vue.js 입문, HTML+CSS, 프런트엔드 웹 디자인 (0)	2021.09.10
[도서구매] PostgreSQL 2권 외 Node.js, 개궁금 IT 팟캐스트 (0)	2021.01.05
일의 기쁨과 슬픔 (0)	2020.11.26
[도서구매] 모바일 미래보고서, 뉴노멀, 언컨텍트, 포노 사피엔스, 트렌드코리아2021, 마이크로소프트웨어 401호 (0)	2020.11.17
[도서] 고수와의대화. 생산성을 말하다. (0)	2020.11.04

[eBook] 딥 러닝을 이용한 자연어 처리 입문

홍반장水_ 2020. 11. 27. 14:36

2020. 11. 27. 14:36

딥 러닝을 이용한 자연어 처리 입문

wikidocs.net/book/2155

위키독스

온라인 책을 제작 공유하는 플랫폼 서비스

wikidocs.net

저작자표시 비영리 (새창열림)

'프로그래밍 > AI_DeepLearning' 카테고리의 다른 글

대용량 CSV 파일 분할 exe - Free Huge CSV Splitter (0)	2020.12.11
tensorFlow - GPU 지원, Nvidia CUDA 지원 GPU 리스트 (0)	2020.11.30
머신러닝 단기집중과정 (0)	2019.08.27
한국어 오픈소스 자연어처리 라이브러리 프로젝트 Koshort(코숏, 한국 길고양이를 부르는 애칭일지도..)을 소개합니다! (0)	2018.05.22
TensorFlow를 브라우저에서 실행시키는 공식 프로젝트입니다. (0)	2018.04.04

python, pandas, numpy, Matplotlib

홍반장水_ 2020. 11. 27. 14:21

2020. 11. 27. 14:21

데이터 분석을 위한 필수 패키지 삼대장이 있습니다. 바로 Pandas와 Numpy 그리고 Matplotlib입니다.

CMD는 "관리자 권한으로 실행" 하시오.

판다스(Pandas)는 파이썬 데이터 처리를 위한 라이브러리입니다. 파이썬을 이용한 데이터 분석과 같은 작업에서 필수 라이브러리로 알려져있습니다. 참고 할 수 있는 Pandas 링크는 다음과 같습니다.

링크 : http://pandas.pydata.org/pandas-docs/stable/

아나콘다를 설치하지 않았다면 아래의 커맨드로 Pandas를 별도 설치할 수 있습니다.

pip install pandas
pip uninstall pandas

>import pandas as pd
>pd.__version__

Pandas는 총 세 가지의 데이터 구조를 사용합니다.
1. 시리즈(Series)
2. 데이터프레임(DataFrame)
3. 패널(Panel)

1. 시리즈(Series)

sr = pd.Series([17000, 18000, 1000, 5000],
       index=["피자", "치킨", "콜라", "맥주"])
print(sr)
피자    17000
치킨    18000
콜라     1000
맥주     5000
dtype: int64
print(sr.values)
[17000 18000  1000  5000]
print(sr.index)
Index(['피자', '치킨', '콜라', '맥주'], dtype='object')

2) 데이터프레임(DataFrame)

데이터프레임은 2차원 리스트를 매개변수로 전달합니다. 2차원이므로 행방향 인덱스(index)와 열방향 인덱스(column)가 존재합니다. 즉, 행과 열을 가지는 자료구조입니다. 시리즈가 인덱스(index)와 값(values)으로 구성된다면, 데이터프레임은 열(columns)까지 추가되어 열(columns), 인덱스(index), 값(values)으로 구성됩니다.

values = [[1, 2, 3], [4, 5, 6], [7, 8, 9]]
index = ['one', 'two', 'three']
columns = ['A', 'B', 'C']

df = pd.DataFrame(values, index=index, columns=columns)
print(df)
       A  B  C
one    1  2  3
two    4  5  6
three  7  8  9

print(df.index) # 인덱스 출력
Index(['one', 'two', 'three'], dtype='object')
print(df.columns) # 열 출력
Index(['A', 'B', 'C'], dtype='object')
print(df.values) # 값 출력
[[1 2 3]
 [4 5 6]
 [7 8 9]]

넘파이(Numpy)는 수치 데이터를 다루는 파이썬 패키지입니다. Numpy의 핵심이라고 불리는 다차원 행렬 자료구조인 ndarray를 통해 벡터 및 행렬을 사용하는 선형 대수 계산에서 주로 사용됩니다. Numpy는 편의성뿐만 아니라, 속도면에서도 순수 파이썬에 비해 압도적으로 빠르다는 장점이 있습니다.

pip install numpy
> ipython
...
In [1]: import numpy as np
In [2]: np.__version__
Out[2]: '1.16.5'

Numpy의 주요 모듈은 아래와 같습니다.
1. np.array() # 리스트, 튜플, 배열로 부터 ndarray를 생성
2. np.asarray() # 기존의 array로 부터 ndarray를 생성
3. np.arange() # range와 비슷
4. np.linspace(start, end, num) # [start, end] 균일한 간격으로 num개 생성
5. np.logspace(start, end, num) # [start, end] log scale 간격으로 num개 생성

맷플롯립(Matplotlib)은 데이터를 차트(chart)나 플롯(plot)으로 시각화(visulaization)하는 패키지입니다. 데이터 분석에서 Matplotlib은 데이터 분석 이전에 데이터 이해를 위한 시각화나, 데이터 분석 후에 결과를 시각화하기 위해서 사용됩니다.

%matplotlib inline
import matplotlib.pyplot as plt

plt.title('test')
plt.plot([1,2,3,4],[2,4,8,6])
plt.show()

wikidocs.net/32829

위키독스

온라인 책을 제작 공유하는 플랫폼 서비스

wikidocs.net

저작자표시 비영리 (새창열림)

'프로그래밍 > Python' 카테고리의 다른 글

[python] pandas 외부csv 파일 읽기 (0)	2020.12.01
[python] Online python Compiler , 온라인 파이썬 컴파일러 (0)	2020.11.30
[python] pandas 설치 후 import 했는데 오류날때 (0)	2020.11.26
[python] Google Cloud Speech - StreamingRecognitionResult (0)	2020.11.13
[python] Package google.cloud.speech.v1 (0)	2020.11.13

[도서대여]데이터전처리,딥러닝 데이터전처리,인공지능의 마지막 공부,고민이 고민입니다.아이의 고집을 다루다

홍반장水_ 2020. 1. 11. 15:19

2020. 1. 11. 15:19

[도서대여]데이터전처리,딥러닝 데이터전처리,인공지능의 마지막 공부,고민이 고민입니다.아이의 고집을 다루다

'생활의 발견 > Books' 카테고리의 다른 글

내몸사용설명서 - 추천도서. 건강에 관심이 있으면 한번은 읽어봐야하는 책 (0)	2020.06.22
[도서] 고수와의대화, 말버릇마음버릇몸버릇,팔리는나를만들어팝니다. (0)	2020.05.19
[도서대여] 민화,캠핑 희망서귀포 #장욱진 #동의보감 #제주 #숲길 #재래시장 (0)	2019.11.24
[도서] 남해유배지답사기 (0)	2019.11.17
[도서대여] 4차산업혁명 교육이 희망이다. 시미켄의 몸만들기 강좌 (0)	2019.10.24

PREV 이전 1 2 3 NEXT 다음

긍정적 사고, 음식의 절제, 규칙적인 운동

딥러닝

생성형 AI의 개발 프로세스 이해하기

1단계 : 모델 선택

2단계 : 프롬프트 엔지니어링

프롬프트 엔지니어링 포인터

시스템 메시지

프롬프트에 문서 사용하기

밀도의 사슬 프롬프트 사용

생각의 사슬 프롬프트 사용

생각의 뼈대 프롬프트 사용

3단계 : 초매개변수 조정

4단계 : 검색 증강 생성

5단계 : 에이전트

6단계 : 모델 미세 조정

7단계 : 지속적인 모델 사전 학습

'프로그래밍 > AI_DeepLearning' 카테고리의 다른 글

딥러닝 자연어처리 - RNN에서 BERT까지

딥러닝 자연어처리 - RNN에서 BERT까지

'프로그래밍 > AI_DeepLearning' 카테고리의 다른 글

[eBook] PyTorch로 시작하는 딥 러닝 입문

PyTorch로 시작하는 딥 러닝 입문

'생활의 발견 > Books' 카테고리의 다른 글

[eBook] 딥 러닝을 이용한 자연어 처리 입문

딥 러닝을 이용한 자연어 처리 입문

'프로그래밍 > AI_DeepLearning' 카테고리의 다른 글

python, pandas, numpy, Matplotlib

2) 데이터프레임(DataFrame)

'프로그래밍 > Python' 카테고리의 다른 글

[도서대여]데이터전처리,딥러닝 데이터전처리,인공지능의 마지막 공부,고민이 고민입니다.아이의 고집을 다루다

'생활의 발견 > Books' 카테고리의 다른 글

+ Recent posts

티스토리툴바