DATA WRANGLER

BigData-DataAnalytics

DATA WRANGLER

naksani 2023. 12. 17. 11:21

728x90

쉽고 빠르게 데이터를 탐색하고 원하는 형태로 재구성해주는 서비스.

Data Wrangler는 수집된 Raw 데이터를 사용자에게 익숙한 엑셀 형태의 시각적인 데이터로 변환하여 제공하며, 이를 통해 데이터를 정리하고 분석하는 시간을 줄일 수 있습니다. 데이터 탐색부터 변환까지 데이터 처리 과정은 모두 시각적으로 확인 가능하며, 데이터 프로파일 정보, Join 유형 및 조건, 데이터 원천 등을 클릭만으로 간편하게 확인할 수 있습니다.

특징

시각적 데이터 준비

웹 기반으로 편리하게 Self Service로 데이터 전처리가 가능합니다. 데이터를 탐색하고 원하는 데이터를 로드하여, 시각적으로 확인하면서 데이터의 보정, 변환 등을 처리하는 데이터 처리 함수를 제공합니다.

데이터 프로파일링 기반 탐색

데이터 프로파일링을 통해 데이터 분포 현황, 데이터 유효성 검사, 통계 정보 등을 확인할 수 있습니다. 선택한 데이터 셋의 전체적인 현황을 한눈에 파악하여 데이터 정제 대상 및 처리 유형을 결정할 수 있습니다. 컬럼별 데이터 분포와 Invalid data를 확인하여 데이터 보정을 제안하며, 최대값, 최소값, 평균값, 최빈값 등을 확인할 수 있습니다.

작업 내용 Recipe 관리

데이터가 변환된 히스토리를 저장, 관리하여 변환된 스크립트를 확인하거나 로딩된 데이터, 컬럼 변환 내역 관리 등 작업 내용에 대한 커뮤니케이션 기능을 제공합니다.

데이터 원천 확인

서로 다른 출처의 데이터를 병합 처리할 수 있으며, 변환된 데이터에 대한 출처와 적용된 Recipe 간의 관계는 Lineage Diagram을 통해 간편하게 확인할 수 있습니다.

구성도와 상세기능

아키텍처 다이어그램

간편한 설치

Data Wrangler 신청 시 Kubernetes Engine까지 한 번에 신청 가능

Kubernetes Engine의 자원은 Data Wrangler에서 신청한 자원 규모 이상으로 설정할 수 있어 사용자 실수에 의한 에러 방지 가능

다양한 데이터 연계 기능

연결된 데이터 소스의 Schema 정보 사용 (Hive Schema, RDB Schema)

SQL을 이용한 데이터 로드

Local File 기능을 이용한 대상 데이터 업로드

다양한 데이터 분석 함수 제공

Group 함수 : count, sum, avg, min, max, first, last, countDistinct, sumDistinct, collect_list, collect_set 등

Window 함수 : lag, lead, rank, dense_rank, row_number 등

데이터 전처리에 필요한 함수, Math 함수뿐만 아니라 내장된 다양한 Scalar 함수 사용

Job 관리 및 모니터링

전처리 작업의 결과물인 Recipe를 전체 데이터에 적용하는 Job을 관리하고 실행 현황을 모니터링

Job 상태별 조회, Name 조회

Job 목록, 상태, 실행시간 등의 상세 현황 모니터링

요금 기준

Data 작업 실행시, Data Wrangler가 사용하는 Kubernetes Engine의 컨테이너 Pod가 이용하는 CPU 사용시간 단위로 과금됩니다.

저작자표시 비영리 변경금지

'BigData-DataAnalytics' 카테고리의 다른 글

AI/ML service (0)	2023.12.17
QUICK QUERY (0)	2023.12.17
DATA FLOW (0)	2023.12.17
DATA OPS (0)	2023.12.17
CLOUD HADOOP (0)	2023.12.17

현재글DATA WRANGLER

naksani

삼성클라우드플랫폼 소개 및 국내 클라우드 기술 공유

삼성SDS cloud academy, openvpn connect, VPN routing, scp 비용계산기, Cloud, windows 접속 확인, CBL, scp 교육센터, ssl vpn, IPsec vpn, scp, Samsung Cloud Platform, DevOps, 클라우드 비용계산기, scp icon, Data Analytics, openvpn, Firewall, scp 상품 icon, Public Cloud,

Today :
Yesterday :

일	월	화	수	목	금	토
					1	2
3	4	5	6	7	8	9
10	11	12	13	14	15	16
17	18	19	20	21	22	23
24	25	26	27	28	29	30

naksani

DATA WRANGLER

'BigData-DataAnalytics' 카테고리의 다른 글

'BigData-DataAnalytics'의 다른글

티스토리툴바

DATA WRANGLER

'BigData-DataAnalytics' 카테고리의 다른 글

'BigData-DataAnalytics'의 다른글

관련글

티스토리툴바