본문 바로가기
728x90

Computer S&E14

[Hadoop] hadoop에서의 straggler Straggler란 map 또는 reduce 작업 중 하나를 완료하는데 비정상적으로 오랜 시간이 걸리는 machine MapReduce 작업에 소요되는 총 시간을 늘리는 일반적인 원인 중 하나가 straggler 낙오자는 여러 가지 이유로 발생 가능 ex. 불량 디스크가 있는 시스템 낙오자 5명으로 44% 더 많은 시간 소요 2022. 10. 25.
[컴퓨터구조] 1-3. Performance Defining Performance 무엇을 기준으로 하느냐에 따라 성능이 다름 Response Time as Performance 개별 유저 기준으로 본다 컴퓨터 X에 대한 퍼포먼스 성능X = 1 / 실행 시간X X와 Y 비교 성능 시간 좋은 쪽이 실행 시간 짧다 X is n times faster than Y 성능X / 성능Y = 실행 시간Y / 실행 시간X # Question A program 10s on A, 15s on B **How much faster is A than B?** # Solution **A가 B보다 1.5배 빠르다** 수행 시간 측정 경과 시간 한 작업을 끝내는 데 필요한 전체 시간 디스크 접근, 메모리 접근, 입출력 작업, 운영체제 오버헤드 등 모든 시간을 다 더한 것 CPU.. 2022. 10. 25.
[컴퓨터구조] 1-2. Computer Organization Classes of Computers PCs 개인을 위해, 가장 잘 알려진 컴퓨터 형태, 단일 유저, 낮은 가격, third-party(제3자) software ** first: 직접 만듦, sec: 외주, third: 아무나 Servers 큰 프로그램, 여러 유저, 네트워크 통해서만 접속 가능, 더 나은 연산, 저장 공간 greater emphasis on dependability (신뢰성, 의존성 아님) Supercomputers 거대한 수의 프로세서, 메모리, 완전 비싼..., 가장 높은 성능, 하지만 컴퓨터 시장에서 작은 비중 Embedded computers 다른 장치 안에 있는 컴퓨터, 한정된 기능, 비용과 전력 줄이는 것이 가장 주요 목표 lower tolerance for failure (.. 2022. 10. 13.
[컴퓨터구조] 1-1. Introduction 참고 책 : Computer Organization and Design The Hardware/Software Interface 5th 1장. 컴퓨터 추상화 및 관련 기술 - 2장. 명령어: 컴퓨터 언어 - 3장. 컴퓨터 연산 - 4장. 프로세서 - 5장. 메모리 계층구조 - 6장. 병렬 프로세서: 클라이언트에서 클라우드까지 - 2022. 10. 12.
[Hadoop] MapReduce: Simplified Data Processing on Large Clusters 논문 병렬 구조 처리 ouput은 로컬 머신이 아니라 key-value pair는 local machine에 저장, worker가 그것을 받아서 output 저장 2022. 10. 7.
[Hadoop] 하둡 기본 기초 Basics 설명 2 Design of HDFS - 큰 파일을 저장할 수 있다 - Streaming data access pattern : 사용자에게 끊기지 않고 데이터를 읽을 수 있게 해준다. 하드웨어에서 데이터 손실이 나더라도 그 손실을 느끼지 않게. 한 번 쓰고, 여러번 읽는다는 컨셉. - Commodity hardware : node spec이 고사양이 아닌 평범한 머신을 여러 개로 구성해서 cluster화 시킴. 슈퍼 컴퓨터 X Trade Off - Low-latency data access : 높은 데이터 처리량과 불러오는 시간 (high throughput / expense of latency) - Lots of small files : data block이 작아서 data 저장 위치와 index를 저장해야 하는.. 2022. 10. 7.
728x90
반응형