본문 바로가기
728x90

Computer S&E/빅데이터8

[빅데이터] 논문 리뷰 An Experimental Comparison of Pregel-like Graph Processing Systems Abstract 구글 프레겔의 등장은 대규모 그래프 데이터 처리 분야에 큰 관심을 불러일으켰고, 지난 2년 동안 등장한 Apache Giraph, GPS, Mizan, GraphLab과 같은 Pregel 유사 시스템 개발에 영감을 주었습니다. Pregel과 같은 시스템이 어떻게 작동하는지 이해하기 위해 그래프와 알고리즘에 구애받지 않는 최적화를 고려하고 여러 메트릭을 사용하여 Giraph, GPS, Mizan 및 GraphLab을 동일한 기준에서 실험적으로 비교하는 연구를 수행합니다. 시스템은 최대 128개의 Amazon EC2 시스템에서 4가지 다른 알고리즘(PageRank, 단일 소스 최단 경로, 약하게 연결된 구성 요소 및 분산 최소 스패닝 트리)과 비교됩니다. Giraph 및 GraphLab에 있.. 2022. 11. 9.
[Hadoop] Overview of Hadoop, MapReduce 하둡 - 맵리듀스 Small Talk 빅데이터 처리 순서: Acquisition (취득) - Storage (저장) - Analysis (분석) - Access (접근) 빅데이터에 Hadoop이 필요한 이유 Apache Hadoop: MapReduce 모델을 사용하기 위해 빅데이터 세트의 분산 저장 및 처리에 사용되는 오픈 소스 소프트웨어 프레임워크 commodity hardware로 구성 - 쉽게 볼 수 있는 machine 데이터 저장 및 분석 단일 드라이브에서 모든 데이터를 읽고 쓰는데 오랜 시간이 걸린다 → 여러 디스크에서 한 번에 분할 데이터를 읽자 사용자는 분석 시간을 단축하는 대신 여러 드라이브에서 접근을 공유할 수 있어야 한다 여기서 문제 하드웨어 오류: 드라이브 하나에 오류가 발생할 가능성 높음 99개 드라.. 2022. 10. 26.
[Hadoop] MapReduce Application java final → 뒤에 어떤 값이 들어와도 상수 취급 Job이 잘 돌아가는지 확인을 먼저 하고 cluster에 돌리는게 낫다 cluster에 바로 돌리는건 heavy하니까 local로 먼저 test → configuration의 이유 -conf 옵션 주기 위해서 configuration, generic option Combiner : local reducer split 마다 mapper가 만든 결과 값을 합쳐서 reducer에 전달, local reducer 개념 reducer가 할 일을 미리한다, shuffle 할 data size가 작아진다, mapper 바로 후에 실행 HDFS -> mapper -> disk -> reducer -> HDFS MapReduce Workflows Top word.. 2022. 10. 26.
[Hadoop] 논문 리뷰 MapReduce: Simplified Data Processing on Large Clusters Intro 데이터의 양 증가 large-scale의 데이터들(raw data, web request logs, crawled documents, etc..) 분산된 시스템에서 데이터를 처리하고 배포하는 방법 → MapReduce = Map+ Reduce 사용자가 쉽게 사용할 수 있는 자동 분배 및 병렬 시스템 제공 Method Map key/value 쌍의 input data를 받아 사용자가 작성한 map 함수를 따라 intermediate key/value 쌍을 생성 intermediate key를 사용해 intermediate value을 그룹화하고 Reduce 함수에 전달 Reduce intermediate key를 통해 같은 key를 가진 값들을 병합해 output file write Implem.. 2022. 10. 26.
[Hadoop] hadoop에서의 straggler Straggler란 map 또는 reduce 작업 중 하나를 완료하는데 비정상적으로 오랜 시간이 걸리는 machine MapReduce 작업에 소요되는 총 시간을 늘리는 일반적인 원인 중 하나가 straggler 낙오자는 여러 가지 이유로 발생 가능 ex. 불량 디스크가 있는 시스템 낙오자 5명으로 44% 더 많은 시간 소요 2022. 10. 25.
[Hadoop] MapReduce: Simplified Data Processing on Large Clusters 논문 병렬 구조 처리 ouput은 로컬 머신이 아니라 key-value pair는 local machine에 저장, worker가 그것을 받아서 output 저장 2022. 10. 7.
728x90
반응형