본문 바로가기
728x90

hadoop5

[Hadoop] Overview of Hadoop, MapReduce 하둡 - 맵리듀스 Small Talk 빅데이터 처리 순서: Acquisition (취득) - Storage (저장) - Analysis (분석) - Access (접근) 빅데이터에 Hadoop이 필요한 이유 Apache Hadoop: MapReduce 모델을 사용하기 위해 빅데이터 세트의 분산 저장 및 처리에 사용되는 오픈 소스 소프트웨어 프레임워크 commodity hardware로 구성 - 쉽게 볼 수 있는 machine 데이터 저장 및 분석 단일 드라이브에서 모든 데이터를 읽고 쓰는데 오랜 시간이 걸린다 → 여러 디스크에서 한 번에 분할 데이터를 읽자 사용자는 분석 시간을 단축하는 대신 여러 드라이브에서 접근을 공유할 수 있어야 한다 여기서 문제 하드웨어 오류: 드라이브 하나에 오류가 발생할 가능성 높음 99개 드라.. 2022. 10. 26.
[Hadoop] MapReduce Application java final → 뒤에 어떤 값이 들어와도 상수 취급 Job이 잘 돌아가는지 확인을 먼저 하고 cluster에 돌리는게 낫다 cluster에 바로 돌리는건 heavy하니까 local로 먼저 test → configuration의 이유 -conf 옵션 주기 위해서 configuration, generic option Combiner : local reducer split 마다 mapper가 만든 결과 값을 합쳐서 reducer에 전달, local reducer 개념 reducer가 할 일을 미리한다, shuffle 할 data size가 작아진다, mapper 바로 후에 실행 HDFS -> mapper -> disk -> reducer -> HDFS MapReduce Workflows Top word.. 2022. 10. 26.
[Hadoop] 논문 리뷰 MapReduce: Simplified Data Processing on Large Clusters Intro 데이터의 양 증가 large-scale의 데이터들(raw data, web request logs, crawled documents, etc..) 분산된 시스템에서 데이터를 처리하고 배포하는 방법 → MapReduce = Map+ Reduce 사용자가 쉽게 사용할 수 있는 자동 분배 및 병렬 시스템 제공 Method Map key/value 쌍의 input data를 받아 사용자가 작성한 map 함수를 따라 intermediate key/value 쌍을 생성 intermediate key를 사용해 intermediate value을 그룹화하고 Reduce 함수에 전달 Reduce intermediate key를 통해 같은 key를 가진 값들을 병합해 output file write Implem.. 2022. 10. 26.
[Hadoop] hadoop에서의 straggler Straggler란 map 또는 reduce 작업 중 하나를 완료하는데 비정상적으로 오랜 시간이 걸리는 machine MapReduce 작업에 소요되는 총 시간을 늘리는 일반적인 원인 중 하나가 straggler 낙오자는 여러 가지 이유로 발생 가능 ex. 불량 디스크가 있는 시스템 낙오자 5명으로 44% 더 많은 시간 소요 2022. 10. 25.
[Hadoop] 하둡 기본 기초 Basics 설명 2 Design of HDFS - 큰 파일을 저장할 수 있다 - Streaming data access pattern : 사용자에게 끊기지 않고 데이터를 읽을 수 있게 해준다. 하드웨어에서 데이터 손실이 나더라도 그 손실을 느끼지 않게. 한 번 쓰고, 여러번 읽는다는 컨셉. - Commodity hardware : node spec이 고사양이 아닌 평범한 머신을 여러 개로 구성해서 cluster화 시킴. 슈퍼 컴퓨터 X Trade Off - Low-latency data access : 높은 데이터 처리량과 불러오는 시간 (high throughput / expense of latency) - Lots of small files : data block이 작아서 data 저장 위치와 index를 저장해야 하는.. 2022. 10. 7.
728x90
반응형