hadoop | IT懒猫 - 技术成就梦想

catroom

catroom

学习给人智慧，对真理而言，信服比流言更危险。

Apache hudi COW表和 MOR表

Hudi表分为Copy on Write和Merge on Read两种类型，Copy on Write（简称COW）或Merge on Read（简称MOR），Merge on Read是对Copy on Write的优化，主要是写入性能优化。对于COW表，每次更新都会生成一个新的文件，里面包括了更新的数据以及属于同一个文件但没有被更新的老数据。所以这个文件比较大，写入也会比较慢。为了加快写...

博客 2023-09-22 367 标签: 大数据 hadoop

阅读详细

Apache Hudi 原理解析二-- hudi upsert过程

Hudi的Upsert的过程整体分为3步（这里省略了很多不太重要的步骤）： 1、根据partitionPath进行重新分区。 2、根据recordKey确定哪些记录需要插入，哪些记录需要更新。对于需要更新的记录，还需要找到旧的记录所在的文件。（这个过程被称为tagging） 3、把记录写入实际的文件。重新分区无论DataFrame在写入前是如何分区的，Hudi都会对它们进行重新...

博客 2023-09-22 344 标签: 大数据 hadoop

阅读详细

Apache Hudi 原理解析一

Hudi，正式的全称是Hadoop Upsert Delete and Incremental，从源代码里可以看到这个项目最初的名字是hoodie，和现在的名字发音相同。但这个名字还是透露了一些信息的，那就是Hudi项目最初的设计目标：在hadoop上实现update和delete操作。Hudi经常被拿来跟Delta，Iceberg一起，并称为“数据湖三剑客”。众所众知的是，无论是HDFS还是云...

博客 2023-09-21 302 标签: 大数据 hadoop

阅读详细

hadoop mapreduce计算实例

hadoop中使用mapreduce计算框架进行计算任务，场景：统计日志文件data02.log的数据中一共包含多少部电影。 Mapreduce代码实例 //Mapper过程 package sss; import java.io.IOException; import org.apache.hadoop.io.LongWritable; import org.apache.hadoop.io...

脚本代码 2023-04-27 302 标签: 数据分析 大数据 hadoop

阅读详细

hadoop yarn队列资源配置

yarn队列资源配置详解 yarn现有资源查看 http://master:8088 //默认端口 8088 yarn队列资源详细设置修改配置文件capacity-scheduler.xml //指定队列名 <property> <name>yarn.scheduler.capacity.root.queues</name> <val...

博客 2022-09-12 488 标签: hadoop 大数据

阅读详细

spark部署测试

安装之前请确保已安装好Hadoop和jdk，并且已经设置好HADOOP_HOME环境变量以及JAVA_HOME环境变量，测试和现网环境需要在原来的hadoop环境中安装。 1、下载安装包从http://www.scala-lang.org/files/archive/scala-2.11.12.tgz 获取scala安装包，从http://d3kbcqa49mib13.cloudfront.n...

博客 2022-09-26 486 标签: hadoop 大数据

阅读详细

flink单节点部署 standalone model deploy

Flink单节点部署测试官网下载最新压缩包 https://nightlies.apache.org/flink, 这里选择版本 flink-1.14.2 scala-2.11版本检查服务器已配置 jdk环境以及无秘钥通信修改配置文件cd flink-1.14.2/confvim flink-conf.yaml增加配置项 ### jdk env.java.home: /mysoft/jd...

博客 2022-09-26 542 标签: hadoop 大数据

阅读详细

hadoop hdfs 常用的文件操作命令

概述命令基本格式:hadoop fs -cmd < args > 命令列表 ls put get rm mkdir getmerge cp mv count du text setrep stat tail archive balancer dfsadmin distcp 命令介...

博客 2022-09-12 515 标签: hadoop 大数据

阅读详细

hadoop-2.7.1扩容磁盘挂载(虚拟机测试)

1、虚拟机里增加新磁盘查看新增加的磁盘 [root]# fdisk -lu 2、磁盘进行分区和格式化 fdisk /dev/sdb 输入n 添加分区号输入1会生成 sdb1只做一个分区就好（测试环境只分了一个区）分好之后输入w 保存退出。再查看一次分区表 fdisk -lu 磁盘格式化 mkfs -t ext4 /dev/sdb 3、挂载磁盘这里新建了目录 ...

博客 2022-09-12 571 标签: hadoop 大数据

阅读详细

user_photo default icons

catroom

学习给人智慧，对真理而言，信服比流言更危险。

热门文章

最新文章