• 原创美文
  • 经典文章
  • 情感美文
  • 伤感文章
  • 散文
  • 美文随笔
  • 感人文章
  • 人生哲理
  • 学生美文
  • 民族文化
  • 说说大全
  • 网名大全
  • 范文大全
  • 当前位置: 佩佩美文网 > 原创美文 > 正文

    2021年大数据技术-大数据概论简介

    时间:2021-01-23 07:37:27来源:佩佩美文网 本文已影响 佩佩美文网手机站

    大数据概论简介

    大数据背景

    1、大数据是怎么来的

    数据量爆炸

    物联网时代无所不在的数据

    传统行业的厚积薄发

    每个人都是大数据的生产者

    2、大数据的挑战

    存储

    分析

    管理

    3、大数据应用场景

    金融

    政府

    医疗

    4、大数据应用案例

    阿里金融

    游戏

    智慧交通

    互联网视频

    通信

    5、大数据落地行业

    互联网

    政府:交通、地质、公安、智慧城市...

    通信:联通、移动、电信

    金融:部分银行和证券公司

    广电、传媒

    医疗

    建筑行业

    大数据技术

    必备基础知识

    1、大数据常用技术

    2、大数据处理平台

    3、大数据技术路线

    4、大数据课程体系

    Hadoop生态圈

    尽管Hadoop因MapReduce及其分布式文件系统(HDFS,由NDFS改名而来)而出名,但Hadoop这个名字也用于一组相关项目的统称,这些相关项目都使用这个基础平台进行分布式计算和海量数据处理。

    大多数核心项目都受Apache软件基金会支持,该基金会对开源软件项目的组织提供支持,其中包括最初的HTTP Server项目。随着Hadoop生态圈的成长,出现了越来越多的项目,其中不乏一些非Apache主管的项目,这些项目对Hadoop是个很好的补充,或提供一些更高层的抽象。

    Hadoop项目简述如下。

    Common

    一组分布式文件系统和通用I/O的组件与接口(序列化、Java RPC和持久化数据结构)。

    Avro

    一种支持高效、跨语言的RPC以及永久存储数据的序列化系统。

    MapReduce

    分布式数据处理模型和执行环境,运行于大型商用机集群。

    HDFS

    分布式文件系统,运行于大型商用机集群。

    Pig

    一种数据流语言和运行环境,用以检索非常大的数据集。Pig运行在MapReduce和HDFS的集群上。

    Hive

    一个分布式、按列存储的数据仓库。Hive管理HDFS中存储的数据,并提供基于SQL的查询语言(由运行时引擎翻译成MapReduce作业)用以查询数据。

    HBase

    一个分布式、按列存储数据库。HBase使用HDFS作为底层存储,同时支持MapReduce的批量式计算和点查询(随机读取)。

    ZooKeeper

    一个分布式、可用性高的协调服务。ZooKeeper提供分布式锁之类的基本服务用于构建分布式应用。

    Sqoop

    在数据库和HDFS之间高效传输数据的工具。

    四、Hadoop环境搭建

    1、配置hosts

    ------------

    #安装软件(如果没有)

    apt -y install vim

    #在文件末添加

    vim /etc/hosts

    ...

    hadoop1

    ...

    ---------------

    2、实现本地免密

    ---------------

    #安装软件(如果没有)

    apt -y install openssh-server

    #修改ssh配置文件

    vim /etc/ssh/sshd_config

    ...

    PasswordAuthentication yes

    ....

    PermitRootLogin yes

    ...

    #重启ssh服务

    service ssh restart

    #生成秘钥对(根据提示回车

    ssh-keygen

    #将公钥拷贝到免密节点

    ssh-copy-id hadoop1

    #验证(ssh连接如果没提示输入密码,则免密成功)

    ssh hadoop1

    -----------------

    3、解压相关软件包

    -----------------

    cd /opt

    tar -zxvf jdk1.8.0_111.tar.gz

    tar -zxvf hadoop-2.7.3.tar.gz

    ---------------

    4、增加环境变量

    ---------------

    #在文件末尾添加

    vim /etc/profile

    ...

    export JAVA_HOME=/opt/jdk1.8.0_111

    export HADOOP_HOME=/opt/hadoop-2.7.3

    export PATH=$PATH:$JAVA_HOME/bin:$HADOOP_HOME/bin:$HADOOP_HOME/sbin

    #使添加环境变量生效

    source /etc/profile

    #验证

    java -version

    hadoop version

    -------------

    5、配置hadoop

    -------------

    cd hadoop-2.7.3/etc/hadoop

    vim hadoop-env.sh

    export JAVA_HOME=/opt/jdk1.8.0_111

    将 slave 的主机名写入到该文件(这里是单节点伪分布式所以只需要加入本机host)

    vim slaves

    hadoop1

    #编辑相关配置文件

    vim core-site.xml

    ...

    <configuration>

    <property>

    <name>fs.defaultFS</name>

    <value>hdfs://hadoop1:9000</value>

    </property>

     <!-- 指定hadoop运行时产生文件的存储目录 -->

    <property>

    <name>hadoop.tmp.dir</name>

    <value>file:/usr/local/hadoop/tmp</value>

    <description>Abase for other temporary directories.</description>

    </property>

    </configuration>

    vim hdfs-site.xml

    ...

    <configuration>

    <property>

    <name>node.http-address</name>

    <value>hadoop1:50070</value>

    </property>

    <property>

    <name>node.secondary.http-address</name>

    <value>hadoop1:50090</value>

    </property>

    <!-- 指定HDFS副本的数量 -->

    <property>

    <name>dfs.replication</name>

    <value>1</value>

    </property>

    <property>

    <name>.dir</name>

    <value>file:/usr/local/hadoop/tmp/dfs/name</value>

    </property>

    <property>

    <name>dfs.datanode.data.dir</name>

    <value>file:/usr/local/hadoop/tmp/dfs/data</value>

    </property>

    </configuration>

    cp mapred-site.xml.template mapred-site.xml

    vim mapred-site.xml

    ...

    <!-- 指定mr运行在yarn上 -->

    <configuration>

    <property>

    <name></name>

    <value>yarn</value>

    </property>

    <property>

    <name>mapreduce.jobhistory.address</name>

    <value>hadoop1:10020</value>

    </property>

    <property>

    <name>mapreduce.jobhistory.webapp.address</name>

    <value>hadoop1:19888</value>

    </property>

    </configuration>

    vim yarn-site.xml

    ...

    <configuration>

    <property>

    <name>yarn.resoursemanager.hostname</name>

    <value>hadoop1</value>

    </property>

    <!-- reducer获取数据的方式 -->

    <property>

    <name>yarn.nodemanager.aux-services</name>

    <value>mapreduce_shuffle</value>

    </property>

    </configuration>

    -------------

    6、启动hadoop

    -------------

    #首次启动需要先在master节点(这里的hadoop1)上执行namenode的格式化操作,成功的话,会看到"Exitting with status 0"的提示,若为"Exitting with status 1"则是出错。

    hdfs namenode -format

    #完成 Hadoop 格式化后,在namenode节点上启动Hadoop各个服务,使用jps命令验证相关服务是否运行起来。

    start-dfs.sh

    jps

    **************

    58993 NameNode

    59601 Jps

    59459 SecondaryNameNode

    59304 DataNode

    **************

    start-yarn.sh

    jps

    **************

    58993 NameNode

    59649 ResourceManager

    59459 SecondaryNameNode

    60070 Jps

    59766 NodeManager

    59303 DataNode

    **************

    mr-jobhistory-daemon.sh start historyserver

    jps

    **************

    58993 NameNode

    59649 ResourceManager

    60147 Jps

    59459 SecondaryNameNode

    59767 NodeManager

    59304 DataNode

    60107 JobHistoryServer

    ***********

    -------------

    7、验证hadoop

    -------------

    #另外还需要在Master节点(hadoop1)上通过命令

    hdfs dfsadmin -report

    #查看DataNode是否正常启动,如果Live datanode不为0,则说明集群启动成功

    HDFS管理界面(NameNode结点) http://hadoop1:50070

    (SecondaryNameNode) htpp://hadoop1:50090

    ResourceManager管理界面 http://hadoop1:8088

    (yarn)

    -------

    8、实例

    -------

    #查看帮助命令

    hdfs dfs -help

    #创建一个数据导入文件夹

    hdfs dfs -mkdir -p /data/input

    #在本地创建两个文本,并加入有规律内容

    echo "hello world">test1.txt

    echo "hello hadoop">test2.txt

    #将文件上传至hdfs上

    hdfs dfs -put ./*.txt /data/input

    #查看hdfs上的文件

    hdfs dfs -ls /data/input/

    #运行wordcunt(grep)方法进行计算

    hadoop jar /opt/hadoop-2.7.3/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.3.jar wordcount /data/input/ output

    #hadoop jar /opt/hadoop-2.7.3/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.3.jar grep /data/input/ output 'hello'

    #查看运行结果

    hdfs dfs -cat output/*

    #将结果取回本地

    hdfs dfs -get output ./output

    #删除hdfs上的文件或文件夹

    hdfs dfs -rm -r output

    • 2021年大数据技术-大数据概论简介 相关文章: