합격자가 적어보는 AIDE 2급 합격을 위한 이론/실습 내용 총 정리

728x90

데이터 라벨러에 대한 관심이 많아지면서 자연스럽게 AIDE 자격증에 대한 관심도 점차 높아지고 있는데요. 저도 본업을 하면서 공부해 최근 2급 자격증을 취득하였습니다. 오늘은 시험을 보기 전 공부했던 AIDE 2급 이론/실전 학습 노트를 공유할까 합니다. 강의 시간에 배운 내용을 나름대로 메모해 둔 것이라 시험을 준비하고 계시다면 꼭 아래 내용을 읽고 합격하시길 바랍니다.

목차
1. 4차 산업과 인공지능
2. 인공지능 방법론
3. 인공지능 알고리즘
4. 인공지능과 빅데이터
5. 데이터 라벨링 작업 (실습)
- 데이터 유형 별 라벨링 방법 및 정의

1. 4차 산업과 인공지능

4차 산업 혁명 시대 : 2차 산업 혁명(19~20세기 초/ 전기 에너지, 대량생산 혁명) -> 3차 산업 혁명 (20세기 후반/컴퓨터, 인터넷, 지식정보 혁명) -> 4차 산업 혁명 (21세기 초반 ~ / 인공지능, 빅데이터, 사물인터넷, 3D 프린팅, 로봇, 공유경제, 드론)

4차 산업혁명 기술 : 인공지능, 빅데이터 /지능(AI)과 정보(빅데이터)의 발전을 통한 산업 혁명

인공지능 서비스 4단계 : 데이터 획득 → 데이터 가공(전처리) → 모델생성→실시간서비스(API 개발) / 데이터 획득, 데이터 가공이 빅데이터 부분

데이터 획득 : 데이터 수집 (사진, 영상, 텍스트) → IoT, 모바일, M2M으로 수집

* 기계에서 기계로 수집 : M2M 사물(지능)통신을 의미하며 기계간의 통신 및 사람이 동작하는 디바이스와 기계간의 통신을 말하며, 인간의 개입 없는 무인화, 지능화 서비스

수집된 데이터는 인공지능이 이해할 수 있게 변경 필요 → 데이터처리(가공)

데이터라벨링 : 인공지능이 학습할 수 있는 형태로 가공하는 작업 (데이터 입력→ 데이터 학습에 필요한 과정)

모델생성 : 모델 개발 → 데이터 입력 →데이터 학습→모델 수정 (이 과정 반복)

머신러닝(ML) : 지능형 에이전트, 행동이나 협업지능 / 시각, 언어, 청각기능/상황, 감정 이해/추론, 지식 표현

머신러닝 학습 방법 : 지도 학습/비지도학습/강화학습

인공 지능 발전 3단계 : 1차 AI 붐(개념 정립) → 2차 (전문가 시스템을 이용한 인공지능 기술 발전)→3차 (머신러닝, 딥러닝의 출현 : 2000년대부터→ 이 기술이 나오며 일반인도 인공기능 사용 가능)

1차 AI 붐 시대 : 앨런 튜링(인공지능의 아버지) : 기계가 생각할 수 있는지 테스트하는 방법 정립 → 인공지능에 대한 가능성 제기

2차 AI 붐 시대 : 컴퓨터 보급과 동시에 인공지능 같이 발전 / 전문가 시스템 : 자신의 지식을 직접 입력하고 정해진 규칙을 만들어 동작하는 시스템 만듬, 문제점이 많았음 서로 달라서 (획일화 X, 비효율적, 대규모 개발 시 개발비, 유지보스비 높았음)

3차 AI 붐 시대 : 현시대로 2000년대 급격하게 발전 그 계기는 머신러닝과 딥러닝의 기술 발전

현재 인공지능은 2차와 달리 스스로 학습, 학습할 데이터를 다른 문제로 재활용 → 빅데이터 및 데이터 처리 기술 확산 +인공지능 하드웨어 향상(엔비디아, GPU) 급격한 발전 중

기존에는 미리 공식을 알려줬음 → 정해진 규칙대로만 계산, 환경이 바뀌면 오류 발생

인공지능은 새로운 문제를 해결하기 위해 필요하기 때문에 문제와 답을 통해 공식 발견 (기존과 반대) 문제와 답이 달라져도 학습을 통해 변화된 공식을 찾아냄 → 이걸 위해서는 많은 데이터가 필요

인공지능의 원리

사람의 뇌(뉴런), 신경세포를 모방해서 만듬 → 초기 퍼셉트론 구조

퍼셉트론 : 프랑크 로젠블라트가 1957년에 고안한 알고리즘으로 딥러닝(신경망)의 기원이 됨

퍼셉트론이 모여서 **인공신경망(ANN)**을 만듬 -생물학의 신경망에서 영감을 얻은 학습 알고리즘

인공신경망(ANN) 구조 : 입력층 / 은닉층 / 출력층 으로 구성

입력층(input layer) : 학습하고자 하는 데이터를 입력하는 층

은닉층(hidden layer) : 입력된 데이터를 여러 단계로 처리하는 층

출력층(output layer) : 처리된 결과를 출력하는 층

2. 인공지능 방법론 (인공지능의 분류)

인공지능, 머신러닝, 딥러닝의 개념을 이해할 것

인공지능 : 인간의 지적 능력을 컴퓨터를 통한 구현단계(최종목적) → 현재는 불가, 최종목표

머신러닝 : 스스로 학습하여 인공지능의 성능향상 하는 기술 → 데이터 스스로 학습

딥러닝 : 인간의 뉴런과 비슷한 인공신경망으로 학습 방법 (사람이 생각하는 방식대로 학습)

머신러닝과 딥러닝의 차이 : 머신러닝은 데이터의 여러 특징 중 사람이 직접 분석, 판단(사람 개입 필요), 딥러닝은 기계가 자동으로 학습(데이터에서 특징 추출) - 기계 자기 학습 여부로 차이가 나뉨

머신러닝의 학습방법 (지도학습, 비지도학습, 강화학습)

지도 학습 : 딥러닝에 해당 / 문제와 정답을 알려주고 학습 (많은 양의 데이터 필요 → 데이터라벨링), 학습을 통해 예측(회귀 Linear regression)과 분류(Classification techniques)를 할 수 있음

회귀 : 학습한 내용을 바탕으로 미래에 어떤 값이 나올 지 예측하는 것

비지도 학습 : 답을 가르쳐 주지 않고 학습 / 연관 규칙, 군집을 할 수 있음

강화학습 : 보상을 통해 학습하는 방식

3. 인공지능 알고리즘

딥러닝의 표현 방식

딥러닝 : 기계가 자동으로 대규모 데이터에서 패턴과 규칙을 학습 / 학습을 기반으로 의사결정이나 예측 등을 수행하는 기술

인공신경망과 딥러닝의 다른 점은 은닉층의 구조가 다르다는 점 (딥러닝은 은닉층이 하나 이상으로 복잡한 구조를 가짐)

딥러닝 동작 원리 : 인공지능이 학습하기 위해서는 많은 양이 데이터가 필요, 그러나 무조건 많기보다 필요한 데이터를 전처리해서 제공해줘야 함

ex ) 7만 개 데이터가 있다면 8:2로 나눠서 **8은 훈련데이터(train), 2는 평가데이터(test)**로 사용

평가데이터는 학습 후 정확성 평가 (훈련데이터는 모의고사, 평가 데이터는 작년 수능 문제이라고 생각/ 모의고사를 여러 번 보며 오답풀이를 반복해 오답을 줄여나가듯 이것을 epoch(에포크)라고 함)

에포크 : 학습을 몇 번 하는지 반복수를 말함, 전체 데이터가 한 번의 학습과정이 완료되면 1 에포크라고 함 / 평가 : 인공지능에서는 예측(Predict)이라고 함

인공지능 개발 절차

1 라이브러리 읽어 들이기 : 전문가가 미리 만들어놓은 프리셋 (시간과 비용을 줄임)

2 데이터를 읽어 들이고 전처리하기 : 데이터 라벨링

3 신경망 만들기

4 모델 만들기(학습하기) : 라벨링 된 데이터를 학습시킴 (시간 소요)

5 모델 적용하기(예측하기) : 실제 잘 동작하는지 성능 평가

2~4단계 학습 데이터 (데이터 제공) : 데이터 전처리, 데이터셋 활용

5단계 -> 3단계 인공지능 개발 : 데이터셋 활용 인공지능학습, 결과 예측 후 수정사항이 있는 경우 신경망 만들기로 다시 이동

인공지능 객체 검출 방법의 이해

single object : 검출하고자 하는 객체가 하나인 경우

1 분류확인(Classification) : 데이터셋(데이터와 정답 레이블)을 함께 학습한 인공 지능은 이를 토대로 새로운 이미지를 식별하게 되는 과정, 학습되지 않은 클래스는 인식하지 못한다

2 영역표시 (Localization) : 분류를 통해 검출한 객체의 정보를 보기 쉽게 박스 형태로 지정하는 것

바운딩 박스 : 학습을 통해 검출한 객체의 영역을 사격형으로 표시

Multi object : 검출하고자 하는 객체가 여러 개인 경우

1 객체검출(object detection) : 학습을 통해 여러 개의 객체를 인식하고 인식된 객체를 바운딩 박스와 색을 이용해 영역을 표시하는 과정 / 검출된 객체는 바운딩 박스, 색으로 구분

2 세그먼테이션 : 의미적 분할(instance segmentation) : 객체 인식에서 이미지 내의 의미 있는 단위로 분할하는 작업 / 정교하고 복잡한 인공지능 구현을 위해 이미지의 영역별 의미를 부여하는 경우 사용

→ 주로 자율주행에서 사용 (단순히 바운딩박스가 아니라 정확하게 세모, 동그라미 이렇게 디테일하게 구분)

핵심 딥러닝 알고리즘 이해

1 CNN(합성곱신경망, Convolutional Neural Network) : 사진, 영상처리에 많이 사용 / 합성곱 사용

인공신경망합성곱을 이용해 가중치 수를 줄여 이미지 처리에 효과적, 이미지의 특장점을 효과적으로 찾을 수 있는 신경망/ 데이터의 특징을 분석하여 패턴을 파악하는 구조로 Convolution 과정과 Pooling 과정을 통해 진행 (사진이나 영상에서 이미지 패턴을 분석해 어떤 종류인지 판별)

2 RNN(순환신경망, Recurrent Neural Network) : 음성, 텍스트처리에 사용 / 계층의 출력이 순환 구조

계층의 출력이 순환하는 신경망, 순환 방식은 은닉 계층의 결과가 다음 계층으로 넘어가며, 자기 계층으로 다시 되돌어온다/ 시계열 정보 처리처럼 앞뒤 신호와 상관도가 있는 경우

음성, 웨이브폼, 텍스트의 앞뒤를 분석하는 등 언어 처리에 사용

3 GAN(생성적 적대 신경망, Generative Adversarial Network) : 신경망이 2개 존재 / 이미지 생성, 복원 등

신경망끼리 경쟁해 최적화를 수행하는 생성형 신경망, GAN 내부의 두 신경망이 상호 경쟁하면서 학습 (하나는 생성망, 하나는 판별망) : 이미지 생성 복원에 많이 사용

4. 인공지능과 빅데이터

인공지능 빅데이터 활용

빅데이터란 : 대량의 정형, 비정형 데이터로부터 가치를 추출하는 기술 (데이터 처리 기술)

1 대랑의 모든 데이터 : 컴퓨터 인터넷 등 디지털 환경에서 발생하는 데이터

2 데이터의 가치와 결과 분석 기술 : 데이터 관리에서 데이터를 분석해서 가치 창술

3 빅데이터 플랫폼 등장 : 데이터 관리하는 하드웨어, 소프트웨어, 어플 등장

4 대규모 데이터 관리 기술 : 데이터 저장, 관리 분석하는 하드웨어, 소프트웨어, 활용 기술

시대에 따른 데이터의 변화 : 컴퓨터의 발전에 의해 데이터의 양과 형태가 변화하고 있다.

-> 2000년 인터넷 모바일이 발전하며 본격적인 빅데이터 시대 시작, 2020년 IT everywhere (인공지능, 증강현실, 메타버스) 시대 시작

빅데이터 특징

초기 빅데이터 특징 : 3V 규모(Volume), 속도(velocity), 다양성(variety)

4V : 정확성 추가 (Veracity)

5V : 가치(Value) 추가

Volume(규모) : 데이터 크기, 최근 그 양이 증가

Velocity(속도) : 최근은 실시간으로 처리 필요

Variety(다양성) : 정형(Structured), 비정형(Unstructured), 반정형(semi-structured) 형식 관계없이 처리

Veracity(정확성) : 신뢰할 수 있는 데이터인지 구분

Value(가치) : 저장할 가치가 있는지 판단 → 데이터 가공&분석으로 의미 있는 결과 도출

정형 데이터 : 구조화된 데이터, 고정된 필드에 저장된 데이터(데이터베이스, 엑셀, CSV)

반정형 데이터 : 고정된 필드는 아니지만 스키마를 포함, 연산 불가(XML, HTML, JSON 등)

비정형 데이터 : 고정되지 않은 데이터, 연산 불가, 형태 없음 (SNS 데이터, 사진, 영상, 음성)

인공지능(AI) -건강한 사람 / 빅데이터 - 좋은 음식이라고 볼 수 있음

데이터가 충분해야 인공지능도 뛰어남 , 인공지능 개발 시 데이터 처리가 80% 필요

데이터 라벨링 : 기계가 이해할 수 있는 형태로 가공 (정의- 획득 - 정제 - 라벨링- 학습으로 진행)

1 데이터 정의 - 인공지능이 학습할 데이터를 만 들 경 우 어떠한 데이터가 필요한지 정의, 분석 / 구축계획서 작성

2 데이터 획득 - 기존 데이터와 다양한 경로로 확보한 데이터 / 부족한 데이터는 크롤링 작업 통해 확보

3 데이터 정제 - 인공지능이 학습할 수 있는 형태로 분류, 가공함 / 원천데이터 생성

4 데이터 라벨링 : 인공지능이 학습할 수 있는 라벨링 데이터 만듬

5 데이터 학습 : 원천 데이터와 라벨링 데이터를 학습 (데이터 셋)

데이터 셋 : 원천 데이터& 라벨링데이터 집합

초상권 : 사람의 얼굴이나 통념상 특정인임을 식별할 수 있는 신체적 특징에 관하여 촬영 또는 그림 묘사되거나 공표되지 않으며 영리적으로 사용 불가

개인정보는 익명화하여 사용 (신체정보, 정신정보, 재산정보, 사회적 정보) 가명처리, 범주화, *표 마스킹, 부분표기

5. 데이터 라벨링 작업 (실습)

데이터 라벨러 : 데이터의 수집에서 가공에 이르기까지 인공지능 학습에 필요한 형태의 데이터를 만드는 사람

<데이터 라벨러의 작업 유형>

바운딩 : 이미지에서 추출하고자 하는 대상을 네모난 박스로 표시하는 라벨링 기법

(학습을 통해 검출한 객체의 영역을 사격형으로 표시)

태깅 : 이미지나 파일에 이름을 붙이는 것

전사 : 이미지나 영상 속 문자를 텍스트로 옮겨 적는 작업

감정 분석 : 이미지나 영상 속 사람의 표정을 보고 어떤 감정 상태인지 추론하는 라벨링 기법

포인트 : 이미지에서 찾으려는 객체에 대해 점을 찍어 표기하는 방식

키포인트 : 작업 대상의 특정 지점에 마우스를 클릭해 점을 찍어주는 라벨링 기법 (탐지하려는 객체의 모양을 알고 싶을 때 데이터의 외곽선을 따줌으로써 폴리곤과 포인트 정보를 만들어 특징을 갖게 만드는 것)

얼굴 랜드마크 : 얼굴 주요 부위에 마우스를 클릭해 점을 찍어주는 라벨링 기법

폴리곤 : 객체의 불규칙한 경계를 따라 점을 찍는 라벨링 기법

폴리라인 : 여러 개의 점을 연속적으로 그리는 라벨링 기법 / 주로 차량 ADAS에서 자율 주행 위해 사용

시멘틱 세그멘테이션 : 폴리곤, 폴리라인, 브러쉬 등을 사용해 경계를 나누고 분할함으로써 이미지 내 모든 대상의 위치 및 모양을 영역으로 구분해 내는 라벨링 기법

OCR : 영상 이미지상 텍스트를 기계가 읽을 수 있는 문자로 변화하는 라벨링 기법

스켈레톤 : 대상의 특정 부위를 점을 찍는 라벨링 기법

특정 구간 추출 : 작업 대상이 사전에 제시된 기준에 해당하는 말이나 행동 등을 할 때 구간을 선택해 추출하는 라벨링 기법

3D 라벨링 기법 : 육면체의 입체적인 박스를 생성하여 바운딩하는 것과 같이 2차원 라벨링의 한계를 넘어 3차원의 입체를 표현하게 하는 기법

복합 라벨링 : 여러 개의 라벨링 기법을 복합적으로 사용하는 라벨링 기법

문장 의미 비교 : 주어진 문장들의 의미가 같은 것인지 태깅하는 라벨링 기법

감정 태깅 : 제시된 글을 읽었을 때 느껴지는 감정을 선택하는 라벨링 기법

키워드 찾기 : 대화 내용 속에서 핵심이 되는 키워드를 찾는 라벨링 기법

문장 요약 : 글을 읽고 핵심이 되는 내용을 요약하는 라벨링 기법

화자 구분 : 제시된 음성을 모두 듣고 동일한 사람의 목소리인지를 판단해서 태깅하는 라벨링 기법

음성 받아쓰기 : 주어진 음성을 듣고 받아쓰는 라벨링 기법

일반 전사 : 말한 그대로를 문자화하여 전사하는 기법

이중 전사 : 한글 맞춤법 표기에 따른 발음에 차이가 있는 경우, 발음 전사와 철자 전사를 병행하여 작성하는 방법

큐보이드 : 정육면체. 3차원 데이터로 더 많은 정보 제공. 자율주행 시스템에서 차량의 앞뒤좌우를 표기하는데 유용

* 이외에도 각 실습에서 실제 작업했던 내용들을 기준으로 시험에 나오니 꼭 시험 보기 전 체크하시는 것을 추천드립니다.

실제 시험 응시 당시 합격에 도움이 되는 유의사항은 아래 링크를 클릭해 확인해 보세요!

AIDE 2급 자격증 합격 후 적는 시험 범위와 시험 시 유의사항

저작자표시 (새창열림)

'소소한 공부' 카테고리의 다른 글

이 폰트 뭐야? 한글/영어 폰트 검색 사이트 추천 (109)	2024.01.14
이제 포토샵에도 생성형 AI로 간편하게! _ Adobe Firefly (134)	2023.09.28
여러 장의 이미지를 하나로! 간편한 이미지 합치기 사이트 추천 (2)	2023.08.22
업무 메일, 자소서 작성에 필수! 맞춤법 검사기, 영문법 검사기 추천 (1)	2023.08.10
AIDE 2급 자격증 합격 후 적는 시험 범위와 시험 시 유의사항 (0)	2023.08.01

에디크의 소소한 이야기

합격자가 적어보는 AIDE 2급 합격을 위한 이론/실습 내용 총 정리

1. 4차 산업과 인공지능

2. 인공지능 방법론 (인공지능의 분류)

3. 인공지능 알고리즘

4. 인공지능과 빅데이터

5. 데이터 라벨링 작업 (실습)

AIDE 2급 자격증 합격 후 적는 시험 범위와 시험 시 유의사항

'소소한 공부' 카테고리의 다른 글

티스토리툴바

합격자가 적어보는 AIDE 2급 합격을 위한 이론/실습 내용 총 정리

1. 4차 산업과 인공지능

2. 인공지능 방법론 (인공지능의 분류)

3. 인공지능 알고리즘

4. 인공지능과 빅데이터

5. 데이터 라벨링 작업 (실습)

AIDE 2급 자격증 합격 후 적는 시험 범위와 시험 시 유의사항

'소소한 공부' 카테고리의 다른 글

관련글

티스토리툴바