본문 바로가기
728x90

분류 전체보기43

[Hadoop] MapReduce Application java final → 뒤에 어떤 값이 들어와도 상수 취급 Job이 잘 돌아가는지 확인을 먼저 하고 cluster에 돌리는게 낫다 cluster에 바로 돌리는건 heavy하니까 local로 먼저 test → configuration의 이유 -conf 옵션 주기 위해서 configuration, generic option Combiner : local reducer split 마다 mapper가 만든 결과 값을 합쳐서 reducer에 전달, local reducer 개념 reducer가 할 일을 미리한다, shuffle 할 data size가 작아진다, mapper 바로 후에 실행 HDFS -> mapper -> disk -> reducer -> HDFS MapReduce Workflows Top word.. 2022. 10. 26.
[Hadoop] 논문 리뷰 MapReduce: Simplified Data Processing on Large Clusters Intro 데이터의 양 증가 large-scale의 데이터들(raw data, web request logs, crawled documents, etc..) 분산된 시스템에서 데이터를 처리하고 배포하는 방법 → MapReduce = Map+ Reduce 사용자가 쉽게 사용할 수 있는 자동 분배 및 병렬 시스템 제공 Method Map key/value 쌍의 input data를 받아 사용자가 작성한 map 함수를 따라 intermediate key/value 쌍을 생성 intermediate key를 사용해 intermediate value을 그룹화하고 Reduce 함수에 전달 Reduce intermediate key를 통해 같은 key를 가진 값들을 병합해 output file write Implem.. 2022. 10. 26.
[Hadoop] hadoop에서의 straggler Straggler란 map 또는 reduce 작업 중 하나를 완료하는데 비정상적으로 오랜 시간이 걸리는 machine MapReduce 작업에 소요되는 총 시간을 늘리는 일반적인 원인 중 하나가 straggler 낙오자는 여러 가지 이유로 발생 가능 ex. 불량 디스크가 있는 시스템 낙오자 5명으로 44% 더 많은 시간 소요 2022. 10. 25.
[컴퓨터구조] 1-3. Performance Defining Performance 무엇을 기준으로 하느냐에 따라 성능이 다름 Response Time as Performance 개별 유저 기준으로 본다 컴퓨터 X에 대한 퍼포먼스 성능X = 1 / 실행 시간X X와 Y 비교 성능 시간 좋은 쪽이 실행 시간 짧다 X is n times faster than Y 성능X / 성능Y = 실행 시간Y / 실행 시간X # Question A program 10s on A, 15s on B **How much faster is A than B?** # Solution **A가 B보다 1.5배 빠르다** 수행 시간 측정 경과 시간 한 작업을 끝내는 데 필요한 전체 시간 디스크 접근, 메모리 접근, 입출력 작업, 운영체제 오버헤드 등 모든 시간을 다 더한 것 CPU.. 2022. 10. 25.
[컴퓨터구조] 1-2. Computer Organization Classes of Computers PCs 개인을 위해, 가장 잘 알려진 컴퓨터 형태, 단일 유저, 낮은 가격, third-party(제3자) software ** first: 직접 만듦, sec: 외주, third: 아무나 Servers 큰 프로그램, 여러 유저, 네트워크 통해서만 접속 가능, 더 나은 연산, 저장 공간 greater emphasis on dependability (신뢰성, 의존성 아님) Supercomputers 거대한 수의 프로세서, 메모리, 완전 비싼..., 가장 높은 성능, 하지만 컴퓨터 시장에서 작은 비중 Embedded computers 다른 장치 안에 있는 컴퓨터, 한정된 기능, 비용과 전력 줄이는 것이 가장 주요 목표 lower tolerance for failure (.. 2022. 10. 13.
[컴퓨터구조] 1-1. Introduction 참고 책 : Computer Organization and Design The Hardware/Software Interface 5th 1장. 컴퓨터 추상화 및 관련 기술 - 2장. 명령어: 컴퓨터 언어 - 3장. 컴퓨터 연산 - 4장. 프로세서 - 5장. 메모리 계층구조 - 6장. 병렬 프로세서: 클라이언트에서 클라우드까지 - 2022. 10. 12.
728x90
반응형