본문 바로가기

반응형
Hadoop 4

[HBase] Online Region Merge와 Empty Region Merge에 대해 Intro 운영하는 서비스에서 HBase 테이블의 column family에 ttl을 세팅하여 사용하고 있습니다. ttl을 걸어두게 되면, Hbase는 ttl(만료 시간)에 도달한 row를 삭제합니다. 참고로 HBase에서는 Delete 연산을 하더라도 바로 삭제되지는 않습니다. 'tombstone marker'를 사용해서 Scan/Get과 같은 조회연산에서 반영되지 않도록 하고, 실제로 삭제되는 시점은 Major Compaction 때 삭제됩니다. 이는 ttl을 설정한 row에도 적용이 됩니다. 갑자기 ttl이 왜나오냐 의문을 가지실 수 있는데요. 제가 운영하는 테이블의 rowkey는 timestamp가 포함된 형태고 1개의 column family를 사용하는데 ttl을 7일로 설정해두었습니다. (멍청.. 2022. 6. 30.
CDH6 HBase2 X Impala2 쿼리 튜닝 ※ Cloudera 공식 문서의 impala_hbase 를 번역했습니다. Using Impala to Query HBase Tables | 6.3.x | Cloudera Documentation The Impala INSERT statement works for HBase tables. The INSERT ... VALUES syntax is ideally suited to HBase tables, because inserting a single row is an efficient operation for an HBase table. (For regular Impala tables, with data files in HDFS, the tiny d docs.cloudera.com HBase 열에 지원되는 .. 2021. 11. 11.
Spark 3.0 한 번에 정리하기 Overview 본 포스트는 Spark Release 3.0 공식 페이지의 Jira 티켓을 참고하여 작성하였습니다. Spark 3.0에서 향상된 기능은 Structed streaming, MLlib의 library, SQL, DataFrame의 API에도 영향을 미침 최적화와 관련된 다양한 것들이 추가 Spark 3.0은 Spark 2.4보다 약 2배 빠름 (30TB 환경의 TCP-DS) Spark SQL: Release에서 가장 많이 변화, 해결된 티켓의 46% PySpark: 기능과 사용성이 개선 Python의 타입 힌트와 새로운 padas UDF(User Defined Function) type를 포함하여 pandas의 UDF API를 재설계 더 나은 Python스러운 에러 핸들링이 포함 Other.. 2020. 12. 4.
Apache Hadoop (v1 특징, v2 특징, yarn 아키텍처, HDFS, 맵리듀스) 하둡은 분산 파일 시스템인 HDFS(Hadoop Distributed File System)에 데이터를 저장하고, 분산처리 시스템인 맵 리듀스(MapReduce)를 이용하여 데이터를 처리한다. Hadoop은 현재 v1, v2, v3까지 나왔다. (v3는 추후 기술 예정) Hadoop의 특징 Distributed (데이터를 분산하여 저장) 수십만대 컴퓨터에 자 분산 저장 및 처리 => 데이터를 block단위로 나누어 저장 하나의 큰 file을 아래와 같이 블록단위로 나누어서 저장 (일반적으로 64M~128M) 블록을 보통 크게 만드는 이유? 디스크 seek time 감소 네임 노드가 관리하는 metadata의 개수 감소 metadata의 개수가 적으면 뭐가 좋을까? 클라이언트와 네임노드의 통신 감소 Sca.. 2020. 11. 24.
반응형