본문 바로가기
728x90

전체 글43

[LG Aimers] <AI 윤리> 3 - 세계적인 데이터 과학자가 되는 방법 해당 글은 LG에서 지원하는 LG Aimers의 교육 내용을 정리한 것으로, 모든 출처는 https://www.lgaimers.ai/입니다. 데이터 사이언티스트의 소양 기존 산업에서 디지털 전환 데이터에 대한 호기심 이종 데이터의 결합은 혁신을 가져옴 ex) 서울 버스 노선 예측 - 기지국 데이터와의 결합 이종(heterogeneous) 빅데이터의 결합과 새로운 인공지능 기반 계산과학 방법의 적용으로 데이터 사이언스 기반 난제 해결, 정책결정 및 신규 산업 창출의 도약이 다가올 것을 기대 데일리 루틴 마크 저커버그 "매일 아침 일어나서 10억 명 이상에게 서비스할 수 있는 좋은 위치에 있는데 내가 무엇을 먹고 입는지에 대한 결정으로 잠시라도 고민하고 싶지 않다." 변화가 곧 생존 목표가 너무 낮으면 너무.. 2023. 1. 5.
[LG Aimers] <AI 윤리> 2 - AI Ethics 해당 글은 LG에서 지원하는 LG Aimers의 교육 내용을 정리한 것으로, 모든 출처는 https://www.lgaimers.ai/입니다. AI 관련 윤리와 신뢰 문제 AI and Creativity GAN -> 창작 AI가 만든 첫 교향곡: Iamus - "Hello World" 저작권이 없는 예술의 시대 Copyright Issues 학습에 사용된 데이터를 제공한 사람에게도 혜택이 돌아가기 어렵다 창작자인 AI는 법적 권리를 제공 할 수 있는 법적 제도가 없다 현존하는 예술가의 스타일을 따라한 예술 작품을 만들 경우 상업적 피해를 준다 창작된 작품이 인간의 윤리적 규범을 따르지 않을 수 있다 아직은 창작물의 저작권은 인간의 고유권한으로 원숭이의 사진은 카메라 주인이 소유할 수 없음 인공지능의 작품 .. 2023. 1. 5.
[LG Aimers] <AI 윤리> 1 - 데이터 분석과 AI학습에서 유의할 점 해당 글은 LG에서 지원하는 LG Aimers의 교육 내용을 정리한 것으로, 모든 출처는 https://www.lgaimers.ai/입니다. 데이터 처리 및 수집에서 윤리 이슈 데이터 해석 상관관계와 인과관계 구별하기 데이터 전처리 및 분석 도표에 Error bar 추가하기 적합한 통계 테스트 찾기 아웃라이어 제거하기 데이터 정규화하기 EDA(Exploratory Data Analysis) 충분히 하기 데이터의 양 100만 데이터는 있어야 충분히 학습 됨 하지만 모델의 용량이 부족하다면 언더피팅 모델의 용량이 데이터보다 크다면 오버피팅 학습 데이터와 테스트 데이터는 달라야 함 Black Box Algorithm 실제 사례에서는 성능 뿐만 아니라 설명력도 중요 사후 설명력 post-hoc explainab.. 2023. 1. 5.
[빅데이터] 논문 리뷰 An Experimental Comparison of Pregel-like Graph Processing Systems Abstract 구글 프레겔의 등장은 대규모 그래프 데이터 처리 분야에 큰 관심을 불러일으켰고, 지난 2년 동안 등장한 Apache Giraph, GPS, Mizan, GraphLab과 같은 Pregel 유사 시스템 개발에 영감을 주었습니다. Pregel과 같은 시스템이 어떻게 작동하는지 이해하기 위해 그래프와 알고리즘에 구애받지 않는 최적화를 고려하고 여러 메트릭을 사용하여 Giraph, GPS, Mizan 및 GraphLab을 동일한 기준에서 실험적으로 비교하는 연구를 수행합니다. 시스템은 최대 128개의 Amazon EC2 시스템에서 4가지 다른 알고리즘(PageRank, 단일 소스 최단 경로, 약하게 연결된 구성 요소 및 분산 최소 스패닝 트리)과 비교됩니다. Giraph 및 GraphLab에 있.. 2022. 11. 9.
[격언] 인생에서 가장 중요한 두 날이 있다 (마크 트웨인) 인생에서 가장 중요한 두 날이 있다. 첫번째는 태어난 날이고, 두번째는 그 이유를 알아낸 날이다. - 마크 트웨인 2022. 10. 30.
[Hadoop] Overview of Hadoop, MapReduce 하둡 - 맵리듀스 Small Talk 빅데이터 처리 순서: Acquisition (취득) - Storage (저장) - Analysis (분석) - Access (접근) 빅데이터에 Hadoop이 필요한 이유 Apache Hadoop: MapReduce 모델을 사용하기 위해 빅데이터 세트의 분산 저장 및 처리에 사용되는 오픈 소스 소프트웨어 프레임워크 commodity hardware로 구성 - 쉽게 볼 수 있는 machine 데이터 저장 및 분석 단일 드라이브에서 모든 데이터를 읽고 쓰는데 오랜 시간이 걸린다 → 여러 디스크에서 한 번에 분할 데이터를 읽자 사용자는 분석 시간을 단축하는 대신 여러 드라이브에서 접근을 공유할 수 있어야 한다 여기서 문제 하드웨어 오류: 드라이브 하나에 오류가 발생할 가능성 높음 99개 드라.. 2022. 10. 26.
[Hadoop] MapReduce Application java final → 뒤에 어떤 값이 들어와도 상수 취급 Job이 잘 돌아가는지 확인을 먼저 하고 cluster에 돌리는게 낫다 cluster에 바로 돌리는건 heavy하니까 local로 먼저 test → configuration의 이유 -conf 옵션 주기 위해서 configuration, generic option Combiner : local reducer split 마다 mapper가 만든 결과 값을 합쳐서 reducer에 전달, local reducer 개념 reducer가 할 일을 미리한다, shuffle 할 data size가 작아진다, mapper 바로 후에 실행 HDFS -> mapper -> disk -> reducer -> HDFS MapReduce Workflows Top word.. 2022. 10. 26.
[Hadoop] 논문 리뷰 MapReduce: Simplified Data Processing on Large Clusters Intro 데이터의 양 증가 large-scale의 데이터들(raw data, web request logs, crawled documents, etc..) 분산된 시스템에서 데이터를 처리하고 배포하는 방법 → MapReduce = Map+ Reduce 사용자가 쉽게 사용할 수 있는 자동 분배 및 병렬 시스템 제공 Method Map key/value 쌍의 input data를 받아 사용자가 작성한 map 함수를 따라 intermediate key/value 쌍을 생성 intermediate key를 사용해 intermediate value을 그룹화하고 Reduce 함수에 전달 Reduce intermediate key를 통해 같은 key를 가진 값들을 병합해 output file write Implem.. 2022. 10. 26.
[Hadoop] hadoop에서의 straggler Straggler란 map 또는 reduce 작업 중 하나를 완료하는데 비정상적으로 오랜 시간이 걸리는 machine MapReduce 작업에 소요되는 총 시간을 늘리는 일반적인 원인 중 하나가 straggler 낙오자는 여러 가지 이유로 발생 가능 ex. 불량 디스크가 있는 시스템 낙오자 5명으로 44% 더 많은 시간 소요 2022. 10. 25.
728x90
반응형