728x90 Computer S&E/빅데이터8 [Hadoop] 하둡 기본 기초 Basics 설명 2 Design of HDFS - 큰 파일을 저장할 수 있다 - Streaming data access pattern : 사용자에게 끊기지 않고 데이터를 읽을 수 있게 해준다. 하드웨어에서 데이터 손실이 나더라도 그 손실을 느끼지 않게. 한 번 쓰고, 여러번 읽는다는 컨셉. - Commodity hardware : node spec이 고사양이 아닌 평범한 머신을 여러 개로 구성해서 cluster화 시킴. 슈퍼 컴퓨터 X Trade Off - Low-latency data access : 높은 데이터 처리량과 불러오는 시간 (high throughput / expense of latency) - Lots of small files : data block이 작아서 data 저장 위치와 index를 저장해야 하는.. 2022. 10. 7. [Hadoop] 하둡 기본 기초 Basics 설명 1 RDMS: 대규모 데이터를 빠르게 조회 HDFS 클라이언트들이 바라봤을 때 끊기지 않게 string access seek time / transfer rate : 탐색 시간 / 대역폭 대역폭이 커진 속도를 탐색 시간이 못 따라잡았다 latency : 데이터를 읽으려고 할 때 hadoop은 processing 시간이 필요 seek time이 줄어 디스크 블럭 사이즈가 작아지면 디스크 공간 효율은 좋아지는데 병목 디스크 블럭 사이즈가 작아지면 main node가 데이터를 많이 읽어와야 함 B-Tree (RDMS) vs MapReduce structured data - csv / RDMS 관리 용이 semi-strucured data - json / Hadoop에서 관리 unstructured data - i.. 2022. 9. 30. 이전 1 2 다음 728x90 반응형