본문 바로가기

반응형
개발 53

CNN(Convolutional Neural Network) 구조와 용어 이해하기 CNN은 필터링 기법을 인공신경망에 적용함으로써 이미지를 효과적으로 처리하는 것을 목표로한다. 기본 개념은 행렬로 표현된 필터의 각 요소가 데이터 처리에 적합하도록 학습되게 하자는 것이다. 머신러닝을 공부하면서 - 필터라는 걸 통해서 특징을 추출하는 것은 알겠는데, 그래서 어떻게 기계가 그림을 인지한다는 거지? - 필터의 원리는 뭘까..? 수학 식으로 이차저차해서 뭔가 결과가 나오는 것은 알겠는데, 그래서 필터가 어떻게 특징을 추출해? 라는 생각을 해본 경험이 있습니다. 의문을 해결하기 위해 각종 원리를 찾아보았는데, 제 입장에서는 머릿속에 쉽게 들어오지 않았던 용어들과 식들로 인해 이해는 이해대로 안되고, 흥미는 흥미대로 잃는 경우가 많았었습니다. 그러다 조대협님의 블로그에서 해당 내용과 관련하여 쉽게.. 2020. 12. 9.
인공지능, 데이터 마이닝, 머신러닝, 딥러닝의 차이점 오늘은 AI와 관련해서 작성해보고자 합니다. 처음 AI를 접하게 되면, 비슷해보이는 개념에 다른 용어들이 마구 나오는 것을 볼 수 있습니다. 대표적으로 데이터 마이닝 (Data mining), 머신러닝(ML), 인공지능(AI), 딥러닝이 여기에 해당되는데, 뭐가 다른지 잘 모르고 용어를 혼용해서 사용하는 경우가 많습니다. 오늘은 이 4가지 용어에 대해서 차이점을 명확하게 정리해보는 시간을 갖겠습니다. 인공지능 (Artificial Intelligence) 기계학습을 뛰어 넘는 분석기법으로 시스템에 추론능력을 제공한다. 인간 지능의 한 단면을 기계가 모방한 시스템 이전의 패턴이나 지도를 보지 않고도 추론을 통해 구성요소들과 사건 간의 관계를 밝혀낸다. 데이터마이닝 (Data mining) 다양한 관점에서 .. 2020. 12. 9.
Spark 3.0 한 번에 정리하기 Overview 본 포스트는 Spark Release 3.0 공식 페이지의 Jira 티켓을 참고하여 작성하였습니다. Spark 3.0에서 향상된 기능은 Structed streaming, MLlib의 library, SQL, DataFrame의 API에도 영향을 미침 최적화와 관련된 다양한 것들이 추가 Spark 3.0은 Spark 2.4보다 약 2배 빠름 (30TB 환경의 TCP-DS) Spark SQL: Release에서 가장 많이 변화, 해결된 티켓의 46% PySpark: 기능과 사용성이 개선 Python의 타입 힌트와 새로운 padas UDF(User Defined Function) type를 포함하여 pandas의 UDF API를 재설계 더 나은 Python스러운 에러 핸들링이 포함 Other.. 2020. 12. 4.
[Clean Code] 5장. 형식맞추기 Intro 코드의 형식을 맞추는 목적이 무엇일까? 깔끔하고, 일관적이며, 꼼꼼하고, 질서정연한 코드라고 느껴지는 코드는 어떤 코드일까? 책에서는, 그리고 나 또한 공감하는 부분으로써 가독성이 높고, 형식을 깔끔하게 맞춰서 규칙을 착실하게 지키는 코드를 보면 '깔끔하다', '질서정연하다', '진짜 잘짰다' 싶은 생각이 드는 것 같습니다. 이건 팀으로 일할 경우에도 합의하여 규칙을 정하고, 모두가 그 규칙을 따른다면 깔끔하고 잘짰다는 인상을 줄 수 있는 것 같아요. 책에서 필자는 다음과 같이 얘기를 합니다. 오늘 구현한 코드의 가독성은 앞으로 바뀔 코드의 품질에 지대한 영향을 미친다. ... 코드가 많이 바뀌어도 맨 처음 잡아놓은 구현스타일과 가독성 수준은 유지보수 용이성과 확장성에 계속 영향을 미친다. 그.. 2020. 12. 1.
[k8s study] 15. 쿠버네티스 인프라 관리 15장에서 다루는 내용 클러스터 업그레이드 클러스터 스케일링 클러스터 유지보수 기반 인스턴스와 리소스 불안정성을 처리하는 방법 부분적으로만 사용할 수 있는 기반 HW에서 고가용성 워크로드를 실행하기 위한 전략 - 쿠버네티스 컴포넌트의 배포 계획 수립 - 쿠버네티스 인프라의 보호 - 클러스터와 kubeadm 업그레이드 - 클러스터 스케일업 - 사용할 수 있는 외부 리소스 클러스터 계획 클러스터 구축을 계획할 때 사용할 수 있는 옵션을 간략하게 짚고 가봅시다. 적합한 솔루션 선택 로컬 솔루션 minikube: 단일 노드 클러스터 우분투에 LXD/KVM설치: 멀티인스턴스 클러스터 IBM 클라우드 프라이빗 CE: 멀티인스턴스 클러스터 kubeadm-dind(Docker-in-Docker): 멀티 노드 클러스터 .. 2020. 11. 27.
Apache Hadoop (v1 특징, v2 특징, yarn 아키텍처, HDFS, 맵리듀스) 하둡은 분산 파일 시스템인 HDFS(Hadoop Distributed File System)에 데이터를 저장하고, 분산처리 시스템인 맵 리듀스(MapReduce)를 이용하여 데이터를 처리한다. Hadoop은 현재 v1, v2, v3까지 나왔다. (v3는 추후 기술 예정) Hadoop의 특징 Distributed (데이터를 분산하여 저장) 수십만대 컴퓨터에 자 분산 저장 및 처리 => 데이터를 block단위로 나누어 저장 하나의 큰 file을 아래와 같이 블록단위로 나누어서 저장 (일반적으로 64M~128M) 블록을 보통 크게 만드는 이유? 디스크 seek time 감소 네임 노드가 관리하는 metadata의 개수 감소 metadata의 개수가 적으면 뭐가 좋을까? 클라이언트와 네임노드의 통신 감소 Sca.. 2020. 11. 24.
반응형