标签：Hadoop - 每日运维网

系统管理员的容器时代之殇

系统管理现在处于一个癫狂的时代，一片混乱。我并不是抱怨老式系统管理员们，他们还是知道如何让系统工作起来，知道怎么更新系统和如何升级扩容。这篇吐槽是关于容器、预构建虚拟机镜像的，它们真是令人难以置信的混乱，它们的脑子里面就根本没有“可信”和“升级”的概念。（题图来自 crtdot.com）举个 Had

剑圣无痕 2024-07-20

0 0 0

大数据探索：在树莓派上通过 Apache Spark on YARN 搭建 Hadoop 集群

有些时候我们想从 DQYDJ 网站的数据中分析点有用的东西出来，在过去，我们要用 R 语言提取固定宽度的数据，然后通过数学建模来分析美国的最低收入补贴，当然也包括其他优秀的方法。今天我将向你展示对大数据的一点探索，不过有点变化，使用的是全世界最流行的微型电脑————树莓派，如果手头没有，那就看下一篇

共饮一杯 2024-07-19

0 0 0

如何在 CentOS 上安装 Apache Hadoop

Apache Hadoop 软件库是一个框架，它允许使用简单的编程模型在计算机集群上对大型数据集进行分布式处理。Apache™ Hadoop® 是可靠、可扩展、分布式计算的开源软件。该项目包括以下模块：Hadoop Common：支持其他 Hadoop 模块的常用工具。Hadoop 分布式文件系统

宇宙之一粟 2024-07-19

0 0 0

OceanBase适配CDH的一些分享

CDH是Cloudera的早前开源平台发行版，是事实上的Apache Hadoop生态系统的安装管理平台，专为满足企业需求而构建。CDH提供开箱即用的企业使用所需的一切。通过将Hadoop与十几个其他关键的开源项目集成，Cloudera创建了一个功能先进的系统，可帮助您执行端到端的大数据工作流程。免

泡泡 2024-05-07

0 0 0

Java大数据处理框架的学习路线

java 大数据处理框架学习路线：hadoop 生态系统掌握基础知识spark 精通核心概念，使用 sql 查询数据，学习实时数据处理和机器学习flink 深入理解流处理，事件时间处理和容错性实战案例：mapreduce 处理日志数据，spark 分析社交媒体数据，flink 监测物联网设备进阶学习

大猫 2024-04-21

0 0 0

Apache Spark与Hadoop之间的区别

apache spark 和 hadoop 在数据处理方法上存在差异：hadoop：分布式文件系统，批处理，使用 mapreduce 计算。spark：统一数据处理引擎，实时处理和批处理兼备，提供内存计算、流处理和机器学习等功能。 Apache Spark 与 Hadoop：概念和区别 Apach

三掌柜 2024-04-20

0 0 0

Hadoop YARN Cgroups 资源隔离讲解，你学会了吗？

一、概述Hadoop YARN (Yet Another Resource Negotiator)使用 Cgroups（Control Groups）来进行资源管理和隔离。Cgroups 是 Linux 内核提供的一种机制，用于限制、账户和隔离进程组（process groups）的资源（例如 CP

剑圣无痕 2023-12-26

0 0 0

在Linux系统中实现容器化的大规模数据分析平台：Hadoop和Spark

在Linux系统中实现容器化的大规模数据分析平台，我们可以利用Hadoop和Spark这两个强大的开源工具。Hadoop是一个分布式计算框架，适用于处理大规模数据集。它提供了分布式文件系统（HDFS）和分布式计算模型（MapReduce），可以将任务划分为多个子任务，并运行在多个节点上，充分利用集群

三掌柜 2023-12-15

0 0 0

Linux配置Hadoop伪分布式环境

💡前提：已配置好Java环境（本文使用的Java版本为JDK1.8，Hadoop版本为3.3.0）。配置SSH免密码 Hadoop启动需要配置SSH免密码，执行如下命令： # 生成SSH密钥，一路按回车即可 ssh-keygen # 将SSH密钥写入密钥文件 cat ~/.ssh/id_rsa.

三掌柜 2023-10-16

0 0 0

Hadoop➖Windows系统下Hadoop单机环境搭建教程

Hadoop——Windows系统下Hadoop单机环境搭建教程关于作者作者介绍 🍓 博客主页：作者主页 🍓 简介：JAVA领域优质创作者🥇、一名初入职场小白🎓、曾在校期间参加各种省赛、国赛，斩获一系列荣誉🏆 🍓 关注我：关注我学习资料、文档下载统统都有，每日定时更新文章，励志做一名JA

醒在深海的猫 2023-10-13

0 0 0

hadoop集群搭建及编程实践

Hadoop集群搭建前期准备及JDK，hadoop安装设置主机名和添加主机映射验证连通性 SSH无密码登录配置集群/分布式环境修改workers 修改文件core-site.xml 修改hdfs-site.xml 修改mapred-site.xml 修改yarn-site.xml

泡泡 2023-10-09

0 0 0

如何使用Hadoop和MapReduce进行数据处理？

Hadoop和MapReduce是一对强大的工具，用于分布式存储和处理大规模数据集。Hadoop是一个开源框架，提供了可靠性、可扩展性和容错性等特性，而MapReduce是一种编程模型，在Hadoop上实现了分布式数据处理。下面将详细介绍如何使用Hadoop和MapReduce进行数据处理。1、Ha

竹子爱熊猫 2023-09-27

0 0 0

如何在 Debian 12 上安装 Apache Hadoop

大数据是现代数据驱动型业务的支柱，Hadoop已成为处理和分析海量数据集的首选解决方案。如果你想在 Debian 12 系统上利用 Hadoop 的强大功能，那么你来对地方了。在 Debian 12 书虫上安装 Apache Hadoop 第 1 步。在我们安装任何软件之前，通过在终端中运行以下

穿过生命散发芬芳 2023-09-17

0 0 0

Hadoop源码阅读（二）：DataNode启动

说明： 1.Hadoop版本：3.1.3 2.阅读工具：IDEA 2023.1.2 3.源码获取：Index of /dist/hadoop/core/hadoop-3.1.3 (apache.org) 4.工程导入：下载源码之后得到 hadoop-3.1.3-src.tar.gz 压缩包，在当前目

穿过生命散发芬芳 2023-09-17

0 0 0

大数据学习HDFS分布式存储原理

Hadoop的基本概念 Hadoop是Apache的一个开源的分布式计算平台，核心是以HDFS分布式文件系统和MapReduce分布式计算框架构成，为用户提供了一套底层透明的分布式基础设施 Hadoop框架中最核心设计就是：HDFS和MapReduce。HDFS提供了海量数据的存储，MapR

法医 2023-09-16

0 0 0

超详细Hadoop集群搭建

前期环境准备 JDK安装配置 # 快速手把手教你Centos7中安装Java8 JDK 新增非root用户 adduser hadoop passwd hadoop chown -R hadoop hadoop /app 下面所有hadoop集群安装配置及启动的操作都是在hadoop用户下完成的

贤蛋大眼萌 2023-09-12

0 0 0

macos+ubuntu系统安装hadoop

Hadoop 分布式计算平台，核心是分布式文件系统HDFS macos下安装下载地址：Index of apache-local/hadoop/core/hadoop-3.3.0 使用参考文章：Mac部署hadoop3(伪分布式) - 掘金进入目录~/tools/hadoop-3.3.0/e

穿过生命散发芬芳 2023-09-12

0 0 0

Hadoop3.0大数据处理学习（Haddop介绍、部署、Hive部署）

Hadoop3.0快速入门学习步骤：三大组件的基本理论和实际操作 Hadoop3的使用，实际开发流程结合具体问题，提供排查思路开发技术栈： Linux基础操作、Sehll脚本基础 JavaSE、Idea操作 MySQL Hadoop简介 Hadoop是一个适合海量数据存储与计算的平台

共饮一杯 2023-09-02

0 0 0

：centos7系统搭建Hadoop环境教程

在CentOS 7上搭建Hadoop环境是一项常见的任务，下面是一个简单的教程：安装Java： Hadoop是基于Java开发的，所以首先需要安装Java。您可以按照以下步骤在CentOS 7上安装Java：下载适用于Linux的Java JDK（Java Development Kit）

张二河 2023-08-29

0 0 0

如何在Java中实现表单数据的分布式计算和分布式处理？

如何在Java中实现表单数据的分布式计算和分布式处理？随着互联网的快速发展，信息量的增加，对于大数据的计算和处理需求也越来越大。分布式计算和分布式处理成为一种解决大规模计算和处理问题的有效手段。在Java中，我们可以利用一些开源框架来实现表单数据的分布式计算和分布式处理，本文将介绍一种基于Apach

捡田螺的小男孩 2023-08-28

0 0 0

1 2 3 4 »