1 life 2 live

스파크(스칼라)를 이용한 빅데이터 (1) [20.8.11] 본문

빅데이터

스파크(스칼라)를 이용한 빅데이터 (1) [20.8.11]

대희투 2020. 8. 11. 20:54

스파크의 기능 : 빅데이터 어플에 필요한 대부분 기능 지원

● 맵리듀스와 유사한 일괄 처리 기능

● 시간 데이터 처리 기능 (Spark Streaming)

● SQL과 유사한 정형 데이터 처리 기능 (Spark SQL)

● 그래프 알고리즘 (Spark GraphX)

● 머신 러닝 알고리즘 (Spark MLlib)

 

스파크의 장점

● 하둡의 맵리듀스 보다 10~100배 빠름

● 스칼라로 구성되어 간결한 코드로 작업 가능

● 자바 라이브러리 모두 사용 가능

 

스칼라

● 객체 지향 언어의 특징 + 함수형 언어의 특징 = 다중 패러다임 프로그래밍 언어

● 자바가상머신언어(JVML) - 예) 스칼라, 코틀린 등등

● 함수형 언어

   - 코드가 짧다

   - 겟터, 섹터, 생성자 x

   - 표현식을 간소화

● 바이트 코드 최적화

   - 자바보다 빠름

● 동시성에 강함

   - 변경 불가능한 변수를 가지고 있어 속성 변경 불가능

   - 순수 함수를 사용해 병렬 프로그래밍에 강함

 

함수형 프로그래밍

● 자료를 수학적 함수의 계산으로 취급하여 가변 데이터를 피함

● 순수 함수 + 보조 함수 = 조건문과 반복문을 제거(복잡성 제거), 변수의 사용을 억제

   - 순수 함수 : 함수의 실행이 외부에 영향이 없음 => 스레드-세이프, 병렬 계산 가능

   - 익명 함수 : 선언부가 없는 익명 함수를 사용하여 코드의 길이를 줄임

   - 고차 함수 : 함수를 인수로 취함

 

 

 

 

모든 글의 출처는 https://wikidocs.net/ 입니다.

728x90
반응형
Comments