본문 바로가기
728x90

빅데이터4

[Hadoop] Overview of Hadoop, MapReduce 하둡 - 맵리듀스 Small Talk 빅데이터 처리 순서: Acquisition (취득) - Storage (저장) - Analysis (분석) - Access (접근) 빅데이터에 Hadoop이 필요한 이유 Apache Hadoop: MapReduce 모델을 사용하기 위해 빅데이터 세트의 분산 저장 및 처리에 사용되는 오픈 소스 소프트웨어 프레임워크 commodity hardware로 구성 - 쉽게 볼 수 있는 machine 데이터 저장 및 분석 단일 드라이브에서 모든 데이터를 읽고 쓰는데 오랜 시간이 걸린다 → 여러 디스크에서 한 번에 분할 데이터를 읽자 사용자는 분석 시간을 단축하는 대신 여러 드라이브에서 접근을 공유할 수 있어야 한다 여기서 문제 하드웨어 오류: 드라이브 하나에 오류가 발생할 가능성 높음 99개 드라.. 2022. 10. 26.
[Hadoop] MapReduce Application java final → 뒤에 어떤 값이 들어와도 상수 취급 Job이 잘 돌아가는지 확인을 먼저 하고 cluster에 돌리는게 낫다 cluster에 바로 돌리는건 heavy하니까 local로 먼저 test → configuration의 이유 -conf 옵션 주기 위해서 configuration, generic option Combiner : local reducer split 마다 mapper가 만든 결과 값을 합쳐서 reducer에 전달, local reducer 개념 reducer가 할 일을 미리한다, shuffle 할 data size가 작아진다, mapper 바로 후에 실행 HDFS -> mapper -> disk -> reducer -> HDFS MapReduce Workflows Top word.. 2022. 10. 26.
[Hadoop] 하둡 기본 기초 Basics 설명 2 Design of HDFS - 큰 파일을 저장할 수 있다 - Streaming data access pattern : 사용자에게 끊기지 않고 데이터를 읽을 수 있게 해준다. 하드웨어에서 데이터 손실이 나더라도 그 손실을 느끼지 않게. 한 번 쓰고, 여러번 읽는다는 컨셉. - Commodity hardware : node spec이 고사양이 아닌 평범한 머신을 여러 개로 구성해서 cluster화 시킴. 슈퍼 컴퓨터 X Trade Off - Low-latency data access : 높은 데이터 처리량과 불러오는 시간 (high throughput / expense of latency) - Lots of small files : data block이 작아서 data 저장 위치와 index를 저장해야 하는.. 2022. 10. 7.
[Hadoop] 하둡 기본 기초 Basics 설명 1 RDMS: 대규모 데이터를 빠르게 조회 HDFS 클라이언트들이 바라봤을 때 끊기지 않게 string access seek time / transfer rate : 탐색 시간 / 대역폭 대역폭이 커진 속도를 탐색 시간이 못 따라잡았다 latency : 데이터를 읽으려고 할 때 hadoop은 processing 시간이 필요 seek time이 줄어 디스크 블럭 사이즈가 작아지면 디스크 공간 효율은 좋아지는데 병목 디스크 블럭 사이즈가 작아지면 main node가 데이터를 많이 읽어와야 함 B-Tree (RDMS) vs MapReduce structured data - csv / RDMS 관리 용이 semi-strucured data - json / Hadoop에서 관리 unstructured data - i.. 2022. 9. 30.
728x90
반응형