Hadoop的安装和使用

news/2024/9/21 21:51:07 标签: hadoop, 大数据, 分布式

1. Hadoop简介

Hadoop是一个能够对大量数据进行分布式处理的软件框架,并且是以一种可靠、高效、可伸缩的方式进行处理的,它具有以下几个方面的特性。

  1. 高可靠性。
  2. 高效性。
  3. 高可扩展性。
  4. 高容错性。
  5. 成本低。
  6. 运行在Linux平台上。
  7. 支持多种编程语言。

2. 分布式文件系统HDFS

简介

Hadoop分布式文件系统(Hadoop Distributed File System,HDFS)是Hadoop项目的两大核心之一,是针对谷歌文件系统(Google File System,GFS)的开源实现。
总体而言,HDFS要实现以下目标:

  1. 兼容廉价的硬件设备。
  2. 流数据读写。
  3. 大数据集。
  4. 简单的文件模型。
  5. 强大的跨平台兼容性。

体系结构

HDFS采用了主从(Master/Slave)结构模型,一个HDFS集群包括一个名称节点和若干个数据节点。

安装

Hadoop包括三种安装模式:

  1. 单机模式:只在一台机器上运行,存储是采用本地文件系统,没有采用分布式文件系统HDFS;
  2. 分布式模式:存储采用分布式文件系统HDFS,但是,HDFS的名称节点和数据节点都在同一台机器上;
  3. 分布式模式:存储采用分布式文件系统HDFS,而且,HDFS的名称节点和数据节点位于不同机器上。
    这里介绍Hadoop伪分布式模式的安装方法。

3. Hadoop的安装

4. HDFS的基本使用方法

1>使用WEB管理页面操作HDFS

首先启动Hadoop,然后可以在浏览器中输入“http://localhost:9870”,就可以访问Hadoop的WEB管理页面
在WEB管理页面中,点击顶部右侧的菜单选项“Utilities”,在弹出的子菜单中点击“Browse the file system”,会出现HDFS文件系统操作页面,在这个页面中可以创建、查看、删除目录和文件。

2>使用命令操作HDFS

除了在浏览器中通过WEB方式操作HDFS以外,还可以在cmd窗口中使用命令对HDFS进行操作。
首先,创建一个名称为“user”的目录,命令如下:

cd c:\hadoop-3.1.3\bin
hadoop fs -mkdir hdfs://localhost:9000/user/
hadoop fs -mkdir hdfs://localhost:9000/user/xiaoming

然后,在“C:\”下创建一个文件test.txt,里面输入一行语句“I love hadoop”,使用如下命令把该文件上传到HDFS中:

hadoop fs -put C:\test.txt hdfs://localhost:9000/user/xiaoming
使用如下命令查看HDFS中的目录和文件:
hadoop fs -ls hdfs://localhost:9000/user/xiaoming

使用如下命令把HDFS中的文件内容显示到本地屏幕上:
hadoop fs -cat hdfs://localhost:9000/user/xiaoming/test.txt

把上面的HDFS中的文件test.txt下载到本地文件系统,并重命名为test1.txt:

hadoop fs -get hdfs://localhost:9000/user/xiaoming/test.txt C:\test1.txt

使用如下命令删除HDFS中的一个文件:

hadoop fs -rm hdfs://localhost:9000/user/xiaoming/test.txt

使用如下命令删除HDFS中的一个目录及其下面的文件:

hadoop fs -rm -r hdfs://localhost:9000/user/xiaoming


http://www.niftyadmin.cn/n/5669507.html

相关文章

线性表一(vector)

#include<bits/stdc.h> using namespace std; vector<int> a(5,2);//定义一个初始长度为5&#xff0c;每个元素值为2的可变数组 vector<char> b(3);//定义一个初始长度为3&#xff0c;每个元素为默认值的可变数组 vector<int> v;//定义一个长度为0的可…

python使用Pandas读取excel的行列内容

我的Excel文件名称是“测试.xlsx” 首先读取excle的文件内容 import pandas as pd dfpd.read_excel(测试.xlsx) #这个会直接默认读取到这个Excel的第一个sheet print(df)可以看看输出的是什么&#xff1a; 2. df.loc[0]&#xff0c;表示读取Excel的第一行&#xff08;这里…

VRRP协议原理

目录 VRRP概述 VRRP产生背景 VRRP介绍 VRRP相关概念 VRRP报文 VRRP的三种状态 VRRP工作原理 优先级和抢占 VRRP接口跟踪 VRRP概述 VRRP产生背景 通常同一网段内的所有主机都会配置相同的网关&#xff0c;以访问外部网络 当唯一的网关设备发生故障时&#xff0c;所有主…

Java笔试面试题AI答之设计模式(2)

文章目录 6. 什么是单例模式&#xff0c;以及他解决的问题&#xff0c;应用的环境 &#xff1f;解决的问题应用的环境实现方式 7. 什么是工厂模式&#xff0c;以及他解决的问题&#xff0c;应用的环境 &#xff1f;工厂模式简述工厂模式解决的问题工厂模式的应用环境工厂模式的…

MySQL 数据库备份与恢复指南

MySQL 是一种广泛使用的开源关系数据库管理系统。对于数据库管理员和开发人员来说,备份和恢复数据库是必不可少的技能,以确保数据的安全和可持续性。本文将详细介绍如何在 MySQL 中进行数据库备份和恢复操作。更多内容,请查阅 1. 准备工作 在开始备份和恢复之前,请确保你…

Linux —— 多线程

一、本篇重点 1.了解线程概念&#xff0c;理解线程与进程区别与联系 2.理解和学会线程控制相关的接口和操作 3.了解线程分离与线程安全的概念 4.学会线程同步。 5.学会互斥量&#xff0c;条件变量&#xff0c;posix信号量&#xff0c;以及读写锁 6.理解基于读写锁的读者写…

Hive企业级调优[5]—— HQL语法优化之数据倾斜

目录 HQL语法优化之数据倾斜 数据倾斜概述 分组聚合导致的数据倾斜 优化说明 优化案例 Join导致的数据倾斜 优化说明 优化案例 HQL语法优化之数据倾斜 数据倾斜概述 数据倾斜问题通常指的是参与计算的数据分布不均&#xff0c;即某个key或某些key的数据量远超其他key&#xff…

JVM 调优篇8 调优案例5- 逃逸分析

一 逃逸分析 1.1 概念 逃逸分析的基本行为就是分析对象动态作用域&#xff1a;当一个对象在方法中被定义后&#xff0c;对象只在方法内部使用&#xff0c;则认为没有发生逃逸。当一个对象在方法中被定义后&#xff0c;它被外部方法所引用&#xff0c;则认为发生逃逸。例如作为…