미래 신직업

미래 직업 데이터 라벨러(Data Labeler)

하루하루77 2023. 5. 11. 16:27
반응형

한국고용정보원에서 발간한 '미래 유망 신직업 발굴 및 국내 활성화 방안 연구'에서 밝히는 신직업 중 데이터 라벨러에 대해서 알아보려고 합니다.

 

위 연구에서 신직업은 아래와 같이 정의하고 있었습니다.

  • 우리나라에 없으나 외국에 있는 직업으로 국내 도입 및 활성화 지원으로 일자리 창출이 가능한 직업
  • 국내에 새롭게 나타났거나 인지도가 낮은 직업(혹은 직무)이지만, 향후 시장 확장, 수요 증가, 환경 변화 등으로 일자리 창출이 가능한 직업
  • 기존 직업으로 법․제도적으로 정립되지 않았지만, 종사자의 직업적 안정화 등을 위해 정책적 지원 필요성이 있는 직업

 

 

 

 

 

 

 

 

 

 

생성 배경 

데이터 라벨링(data labeling)이란, 인공지능 학습을 위해 수치 데이터가 아닌정성적 데이터를 인공지능에 인식할 수 있도록 재가공하는 작업을 말하며, 이, 작업을 수행하는 자를 데이터 라벨러(data labeler)라고 함.

  • 데이터 라벨링은 사진 이미지, 동영상, 사운드 등의 파일에 등장하는 사물,동물, 특정 단어 등에 표식을 달아 데이터화하는 것임.
  • 실제 사례를 보면, ‘고양이가 걷는 영상’은 고양이 로봇을 만드는 기업에서 활용이 되는데, 인공지능 스피커를 만드는 기업에서는 여성이나 어린이,노인의 목소리부터 사투리를 녹음한 음성 데이터를 필요로 함.
  • 데이터 라벨링은 자동화가 어려워 일일이 사람에 의해 수행되어야 하기때문에 이 모습이 마치 인형에 눈알을 붙이는 작업과 비슷해 IT 업계의 막노동, ‘AI 눈알 붙이기’라고 불리기도 함.

 

앞으로 기업들이 점점 정교하고 복잡한 데이터를 필요로 하게 됨에 따라 앞으로 데이터 라벨링 작업은 더욱 정교해지고 난이도가 높아질 것으로 전망됨(서울경제, 2021).

  • 예를 들어, 폐 사진만 보고 폐암이 맞는지 구분하는 데이터 라벨링은 의사가아니라면 하기 어려운 작업이며, 법학 전공지식이 필요한 경우도 있고,일본어․중국어․러시아어등다양한언어능력이필요한경우도더욱많아질것임.
  • 인공지능 기술이 발달함에 따라 더 많은, 더 높은 품질의 데이터가 요구되기때문에 ‘데이터 라벨링’의 영역은 점점 확장되고 고도화될 것으로 전망함.

 

부가 20207월에 디지털 뉴딜 정책을 발표하면서 데이터 라벨링 사업이 활발히 진행되고 있음.

  • 과학기술정보통신부는 디지털 뉴딜 ‘데이터 댐’의 핵심인 인공지능 학습용데이터 구축 사업을 통해 다양한 인력이 참여할 수 있는 일자리가 대거창출될 것으로 예상함.

 

 
 
 

 

수행직무

데이터 라벨러는 자율주행, 자연어 인식 등 인공지능 프로그램 개발을 위해인공지능이 학습 데이터를 쉽게 인식할 수 있도록 전처리하는 작업, 즉 사진이미지, 동영상, 사운드 등의 파일에 등장하는 사물, 동식물, 특정 단어 등에 라벨(정보라벨( 표식)을 입력하는 작업을 수행함.

  • 데이터 구축 방식은 기존 데이터에 대해 라벨링을 통해 구축하는 방식이일반적이지만, 기존 데이터가 없는 경우에는 신규로 정성 데이터를 제작(사진촬영, 음성 녹음 등)하여 라벨링한 후, 온라인 플랫폼에 업로드 작업을 수행함(업로드 작업량에 따라 보수를 수령).

 

작업 유형은 데이터 유형에 따라 (1)이미지, (2) 영상, (3) 텍스트, (4) 음성4가지로 분류함

 

 프로젝트 유형별 데이터 수집가공 내용

 

유형 내용
이미지 수집 휴대폰으로 정해진 대상의 사진을 찍어 업로드
가공 바운딩: 이미지에서 정해진 대상을 마우스로 드래그하여 박스를 그리는 프로젝트
스켈레톤 추출: 대상의 특정 부위에 점을 찍는 직업
OCR: 인공지능에 글자를 가르쳐주기 위한 프로젝트
감정태깅, 상태묘사: 사진 속 사람의 얼굴 표정을 보고 감정을 추론해 태깅하거나 이미지를 글로 상세히 묘사하는작업.
가공된 데이터는이미지나
영상의 객체를 인식하는 소프트웨어를 개발하는 데 활용됨
유형 내용
영상 수집 휴대폰으로 정해진 대상의 영상을 찍어 업로드
구간추출: 영상에서특정구간선택. 화자가특정동작이나대사를말할 때 해당 구간 선택, 고객사에서 필요한 데이터에 따라 영상의 구간을 선택해 추출.
구간 추출 후에는감정을 태깅하거나 대사를 받아쓰는 직업
으로 이어지기도 함.
바운딩: 정해진대상을마우스로드래그해바운딩하는작업진행. 바운딩 후에는 대상을 분류하는 태깅으로 이어질 때가 많음
스켈레톤 추출: 대상의 특정 부위에 점을 찍는 작업
텍스트 수집 주어진 시나리오에 맞 는Q&A 대화를 만들거나 제시된 지문을 읽고 질문을 만드는 작업
가공 1. 문장비교: 주어진 문장을 읽고 의미가 같은지 다른지 태깅하는 작업
2. 감정 태깅: 주어진 문장을 읽고 느껴지는 감정을 태깅하는 작업
3. 키워드 찾기: 대화 속 주제의 키워드를 찾는 작업
4. 문장 요약: 지문을 읽고 핵심 내용을 요약하는 작업
음성 수집 휴대폰으로 정해진 문장을 녹음하는 작업
가공 1. 음성 받아쓰기: 주어진 음성을 듣고 들리는 대로 받아쓰는 작업
2. 화자구분: 기준 음성과 비교대상 음성을 듣고 화자가 같은지 다른지를 태깅하는 직업
 

대부분의 데이터 라벨링 작업은 작업의 난이도가 낮아 데이터 라벨링 업체나기관의 간단한 교육만으로 업무 수행이 가능하며, 따라서 요구되는 학력이나경력, 자격이 필요 없는 경우가 많음.

  • 컴퓨터와 인터넷이 연결된 곳이라면 언제 어디서든 자유롭게 업무를 할 수있어, 프리랜서나 세컨드잡으로 일을 하는 경우가 많음.
  • 또한, 다양한 과제와 세분화된 업무들 중에서 본인에게 적합한 작업을 선택할 수 있는 장점이 있음.
  • 다만, 의료영상에 대한 라벨링 등 전문성이 요구되는 분야는 일반 데이터라벨러가 아닌, 의사 등 의료인이 라벨링 작업을 하기 때문에 분야에 따라전문성의 수준과 작업조건 등이 다를 수 있음.

 

데이터 라벨링은 엄격한 정확도가 요구되고, 기술개발 전체 작업시간의 70%를 차지할 만큼 오랜 시간과 인력이 필요한 공정이기 때문에 꼼꼼하고 세심한 성격,성격, 책임감과 집중력이 요구됨.

 

 

데이터 라벨링 작업에는 직접 라벨(정보 표식)을 다는 데이터 라벨러 외에 데이터 라벨러들이 작업한 결과물을 검수하는 데이터 라벨링 검수원(품질관리원)’도 있음.

  • 크라우드 소싱 방식으로 데이터 라벨러들이 데이터 전처리 작업을 하면, 평균정확도가 70% 이하로 나오는데, 데이터 라벨링 검수원은 전처리 작업 결과물을 전수 검수하여 데이터의 품질을 올리는 업무를 담당함.

 

 
 

 

 
 
 
 
 
 

 

 

 

 

 

 

 

 

 

 

 

국내현황

국내 대표적인 플랫폼으로 크라우드 웍스, 레이블러, 에이모, 데이터 고블린등이 있음.

  • ㈜클라우드웍스의 경우, 반려견의 질환을 사진으로 촬영한 후 진단명을입력 및 업로드, 다양한 각도와 포즈의 손모양 및 손톱 사진 업로드, 아이의두 눈이 또렷하게 나온 독사진을 연도별, 계절별로 다양하게 정리하여 업로드하는 등의 프로젝트를 실시하고, 데이터 라벨러에게 책정된 보수(포인트 형태)를 지급하는 사업을 운영하고 있음.

 

2020 산업별 데이터 활용 수요 현황 분석 보고서에 따르면 2021년 3월기준, 국내 데이터 라벨러 종사자 수는 약 50만 명으로 추산되며, 주로 프리랜서 형태로 근로하고 있음.

  • 데이터 라벨러의 절반 이상(직장인 43.8%, 자영업 종사자 10.5%, 공무원1.3%)이 본업이 있는 상황에서 부수적인 경제활동으로 일을 하고 있으며,그 외에는 학생(취업준비생 포함)이 17.3%, 기타(구직자ㆍ전업주부)가 27.1%로응답함.

 

크라우드웍스에서 전업으로 일하는 경우, 연간 4천만 원 이상의 수입을 얻는 사례도 있는데, 이 정도로 많은 작업에 참여하려면 여러 교육 프로그램을 통과해야 하는데, 이 기준을 충족하는 크라우드웍스의 데이터 라벨러는 3만 명 정도임.

  • 누적 확보된 전체 라벨러는 25만 명이 넘으며, 이 중 5만 명 가량이 한 달에한 건 이상 작업에 참여하고 있음

 

데이터라벨러는 플랫폼기업이 시행하는 프로젝트에 참여하여,

  • 목소리 녹음은 40원, 얼굴 사진 촬영은 1,500원 등으로 건당 10원부터 5,000원까지 다양하게 지급이 되며, 이 금액은 작업의 종류, 난이도 등에 따라 달라짐
  • 작업량이 많을수록 등급이 올라가고, 등급이 올라갈수록 숙련도를 인정하여참여할 수 있는 작업이 많아지고 동시에 단가도 높아짐.
  • 초보자의 경우 처음부터 많은 돈을 벌기는 힘들지만, 6개월에서 1년 이상지속해 온 숙련자라면 하루에 2~3시간만 투자해서 100만 원 이상의 수익을올리는 경우도 있음.

현재, 데이터 라벨러 양성과정은 과학기술정보통신부와 한국지능정보사회진흥원에서 추진하는 AI Hub에서 인공지능 학습용 데이터 라벨링 전문 교과정이 있음.

  • 교육과정은 총3가지로(1)데이터라벨러과정, (2)데이터전문가 과정, (3)데이터고급관리자(PM) 과정으로 구성되어 있음.

 

미래 직업 데이터 라벨러(Data Labeler)
데이터 라벨러 양성 교육과정
 
 
 
 
 

활성화 방안

1) 주로 프리랜서로 일하는 데이터 라벨러들에게 적재적소의 일자리를 중개해 주는 플랫폼이 필요함.

  • 현재, 데이터 라벨러들은 일거리를 받기 위해 먼저, 크라우드형 플랫폼에가입하게 되는데, 그 가입 경로를 보면, 많은 수가 ‘기존 작업자의 소개’인것으로 나타남(응답자의 30% 이상)153).
  • 더욱이 데이터 라벨러 대상 전문 교육을 이수한 인력들에게도 일자리 정보가공유되지 않아 해당 인력들이 활용되지 못하는 문제가 발생.
  • 따라서, 데이터 라벨링 업무와 인력을 연결해 줄 수 있는 일자리 플랫폼 개발또는 워크넷(Work-Net) 같은 기존 일자리 포털을 통해 전문적으로 서비스를제공하는 방안도 검토가 필요함.

 

2) 현재 데이터 라벨러 양성과정이 여러 곳에서 실시되고 있는데, 이수자에대해 자격증을 부여하는 방안을 검토할 필요가 있음.

  • 국가자격 신설보다는 공신력 있는 협회에서 (공인)민간자격 형태로 자격을신설하고 품질을 관리하는 방안이 타당해 보임.
  • 데이터 라벨러의 자격화는 결국, 데이터 품질 향상과 인공지능 발전으로이어질 것으로 기대됨.
반응형