본문 바로가기

반응형
개발/Hadoop eco-system 6

[Hadoop] HiveServer2 Introduction HiveServer2(HS2)는 클라이언트가 Hive에 대해 쿼리를 실행할 수 있도록 하는 서비스입니다. HiveServer2는 더 이상 사용되지 않는 HiveServer1의 후속 제품입니다. HS2는 다중 클라이언트 동시성 및 인증을 지원합니다. JDBC 및 ODBC와 같은 개방형 API 클라이언트에 대한 더 나은 지원을 제공하도록 설계되었습니다. HS2는 Thrift 기반 Hive 서비스(TCP 또는 HTTP)와 웹 UI용 Jetty 웹 서버를 포함하는 복합 서비스로 실행되는 단일 프로세스입니다. HS2 Architecture Thrift 기반 Hive 서비스는 HS2의 핵심이며 Hive 쿼리(예: Beeline에서) 서비스를 담당합니다. Thrift는 교차 플랫폼 서비스를 구.. 2023. 1. 13.
[HBase] Online Region Merge와 Empty Region Merge에 대해 Intro 운영하는 서비스에서 HBase 테이블의 column family에 ttl을 세팅하여 사용하고 있습니다. ttl을 걸어두게 되면, Hbase는 ttl(만료 시간)에 도달한 row를 삭제합니다. 참고로 HBase에서는 Delete 연산을 하더라도 바로 삭제되지는 않습니다. 'tombstone marker'를 사용해서 Scan/Get과 같은 조회연산에서 반영되지 않도록 하고, 실제로 삭제되는 시점은 Major Compaction 때 삭제됩니다. 이는 ttl을 설정한 row에도 적용이 됩니다. 갑자기 ttl이 왜나오냐 의문을 가지실 수 있는데요. 제가 운영하는 테이블의 rowkey는 timestamp가 포함된 형태고 1개의 column family를 사용하는데 ttl을 7일로 설정해두었습니다. (멍청.. 2022. 6. 30.
Impala Query Performance - EXPLAIN 계획과 Query 프로파일 ※ CDH6 Impala Docs의 Understanding Impala Query Performance 를 번역하였습니다. Intro Impala 쿼리에 대한 높은 수준의 성능 고려 사항을 이해하려면, 쿼리에 대한 EXPLAIN 문의 출력을 읽으세요. 실제로 쿼리 자체를 실행하지 않고도 EXPLAIN 계획을 얻을 수 있습니다. 쿼리의 physical performance 특성에 대한 개요를 보려면, 쿼리 실행 직후 impala-shell에서 SUMMARY 문을 실행하십시오. 이 요약된 정보는 가장 많은 시간이 소요된 실행 단계와 각 단계의 메모리 사용량 및 행 수에 대한 추정치를 실제 값과 비교하는 방법을 보여줍니다. 쿼리에 대한 자세한 성능 특성을 이해하려면 쿼리 실행 직후 impala-shell에서.. 2021. 11. 11.
CDH6 HBase2 X Impala2 쿼리 튜닝 ※ Cloudera 공식 문서의 impala_hbase 를 번역했습니다. Using Impala to Query HBase Tables | 6.3.x | Cloudera Documentation The Impala INSERT statement works for HBase tables. The INSERT ... VALUES syntax is ideally suited to HBase tables, because inserting a single row is an efficient operation for an HBase table. (For regular Impala tables, with data files in HDFS, the tiny d docs.cloudera.com HBase 열에 지원되는 .. 2021. 11. 11.
Spark 3.0 한 번에 정리하기 Overview 본 포스트는 Spark Release 3.0 공식 페이지의 Jira 티켓을 참고하여 작성하였습니다. Spark 3.0에서 향상된 기능은 Structed streaming, MLlib의 library, SQL, DataFrame의 API에도 영향을 미침 최적화와 관련된 다양한 것들이 추가 Spark 3.0은 Spark 2.4보다 약 2배 빠름 (30TB 환경의 TCP-DS) Spark SQL: Release에서 가장 많이 변화, 해결된 티켓의 46% PySpark: 기능과 사용성이 개선 Python의 타입 힌트와 새로운 padas UDF(User Defined Function) type를 포함하여 pandas의 UDF API를 재설계 더 나은 Python스러운 에러 핸들링이 포함 Other.. 2020. 12. 4.
Apache Hadoop (v1 특징, v2 특징, yarn 아키텍처, HDFS, 맵리듀스) 하둡은 분산 파일 시스템인 HDFS(Hadoop Distributed File System)에 데이터를 저장하고, 분산처리 시스템인 맵 리듀스(MapReduce)를 이용하여 데이터를 처리한다. Hadoop은 현재 v1, v2, v3까지 나왔다. (v3는 추후 기술 예정) Hadoop의 특징 Distributed (데이터를 분산하여 저장) 수십만대 컴퓨터에 자 분산 저장 및 처리 => 데이터를 block단위로 나누어 저장 하나의 큰 file을 아래와 같이 블록단위로 나누어서 저장 (일반적으로 64M~128M) 블록을 보통 크게 만드는 이유? 디스크 seek time 감소 네임 노드가 관리하는 metadata의 개수 감소 metadata의 개수가 적으면 뭐가 좋을까? 클라이언트와 네임노드의 통신 감소 Sca.. 2020. 11. 24.
반응형