-
hadoop2.7之作业提交详解(下) hadoop2.7之作业提交
所属栏目:[大数据] 日期:2021-05-19 热度:150
接着作业提交详解(上)继续写:在上一篇(hadoop2.7之作业提交详解(上))中已经讲到了 YARNRunner.submitJob() [ WordCount.main() - Job.waitForCompletion() - Job.submit()? - Job.connect() - Cluster.Cluster() - Cluster.initialize() - Yarn Client[详细]
-
hadoop2.7作业提交详解之文件分片 hadoop2.7之作业提
所属栏目:[大数据] 日期:2021-05-19 热度:100
在前面一篇文章中(hadoop2.7之作业提交详解(上))中涉及到文件的分片。 JobSubmitter.submitJobInternal方法中调用了 int maps = writeSplits(job,submitJobDir); //设置map的数量,而map的数量是根据文件的大小和分片的大小,以及文件的数量决定的 接下来[详细]
-
flink 1.7.2 安装详解
所属栏目:[大数据] 日期:2021-05-19 热度:78
##flink 1.7.2 安装 需要java环境 下载地址 https://flink.apache.org/downloads.html #1、单机版 #创建用户flink useradd flink -d /home/flink echo "flink123" | passwd flink --stdin #解压 tar -zxvf flink-1.7.2-bin-hadoop26-scala_2.11.tgz #启动 cd[详细]
-
hadoop2.7+spark2.2+zookeeper3.4.简单安装
所属栏目:[大数据] 日期:2021-05-19 热度:149
1、zookeeper的安装 ##配置/etc/hosts 192.168.88.130 lgh 192.168.88.131 lgh1 192.168.88.132 lgh2@H_403_5@ ##安装java8 解压配置环境即可@H_403_5@ ##ssh(每一台机器) ssh-keyscan #生成密码 ssh-copy-id lgh2 #复制到不同机器@H_403_5@ ##创建用户 usera[详细]
-
windows下通过idea连接hadoop和spark集群
所属栏目:[大数据] 日期:2021-05-19 热度:66
###windows下链接hadoop集群 1、假如在linux机器上已经搭建好hadoop集群 2、在windows上把hadoop的压缩包解压到一个没有空格的目录下,比如是D盘根目录 3、配置环境变量 HADOOP_HOME=D:hadoop-2.7.7 Path下添加 %HADOOP_HOME%bin 4、下载相似版本的文件 ha[详细]
-
大数据的技术生态概述(转载)
所属栏目:[大数据] 日期:2021-05-19 热度:166
如何用形象的比喻描述大数据的技术生态?Hadoop、Hive、Spark 之间是什么关系? 大数据本身是个很宽泛的概念,Hadoop生态圈(或者泛生态圈)基本上都是为了处理超过单机尺度的数据处理而诞生的。你可以把它比作一个厨房所以需要的各种工具。锅碗瓢盆,各有各[详细]
-
如何进行大数据分析及处理?
所属栏目:[大数据] 日期:2021-05-19 热度:88
大数据的分析 从所周知,大数据已经不简简单单是数据大的事实了,而最重要的现实是对大数据进行分析,只有通过分析才能获取很多智能的,深入的,有价值的信息。那么越来越多的应用涉及到大数据,而这些大数据的属性,包括数量,速度,多样性等等都是呈现了大[详细]
-
开源大数据处理工具汇总(下)
所属栏目:[大数据] 日期:2021-05-19 热度:145
第二部分主要收集整理的内容主要有日志收集系统、消息系统、分布式服务、集群管理、RPC、基础设施、搜索引擎、Iaas和监控管理等大数据开源工具。 日志收集系统 一、Facebook?Scribe 贡献者 :Facebook 简介 :Scribe是Facebook开源的日志收集系统,在Faceboo[详细]
-
推荐大数据分析的八大工具
所属栏目:[大数据] 日期:2021-05-19 热度:93
去年,IBM宣布以17亿美元收购数据分析公司Netezza;EMC继收购数据仓库软件厂商Greenplum后再次收购集群NAS厂商Isilon;Teradata收购了Aster Data 公司;随后,惠普收购实时分析平台Vertica等,这些收购事件指向的是同一个目标市[详细]
-
流式大数据处理的三种框架:Storm,Spark和Samza
所属栏目:[大数据] 日期:2021-05-19 热度:129
许多分布式计算系统都可以实时或接近实时地处理大数据流。本文将对三种Apache框架分别进行简单介绍,然后尝试快速、高度概述其异同。 Apache Storm 在Storm中,先要设计一个用于实时计算的图状结构,我们称之为拓扑(topology)。这个拓扑将会被提交给集群,[详细]
-
大数版的斐波那契数列
所属栏目:[大数据] 日期:2021-05-19 热度:53
光棍的yy http://acm.nyist.net/JudgeOnline/problem.php?pid=655 时间限制:1000?ms ?|? 内存限制:65535?KB 难度:2 输入 第一行输入一个n表示有n个测试数据 以下n行,每行输入m个1 (1 = n,m = 200) 输出 输出这种组合种数,占一行 样例输入 31111122222[详细]
-
大数据时代必不可少的大数据分析和制作工具大全
所属栏目:[大数据] 日期:2021-05-19 热度:56
1.微信大数据分析工具 新媒体指数:http://www.gsdata.cn 2.数据可视化工具 百度ECharts:http://echarts.baidu.com/ Cytoscape:http://www.cytoscape.org/ 图表秀:http://www.tubiaoxiu.com/ 数据观:http://shujuguan.cn/ 微博足迹可视化:http://vis.pk[详细]
-
A+B Problem II 大数加法
所属栏目:[大数据] 日期:2021-05-19 热度:135
A+B Problem II http://acm.nyist.net/JudgeOnline/problem.php?pid=103 时间限制:3000?ms ?|? 内存限制:65535?KB 难度:3 输入 The first line of the input contains an integer T(1=T=20) which means the number of test cases. Then T lines follow,e[详细]
-
NBA篮球运动员大数据分析决策支持系统
所属栏目:[大数据] 日期:2021-05-19 热度:185
package com.dt.spark.sparksql import org.apache.hadoop.conf.Configuration import org.apache.hadoop.fs.{FileSystem,Path} import org.apache.spark.SparkConf import org.apache.spark.sql.SparkSession /** ? * NBA篮球运动员大数据分析决策支持系统[详细]
-
某种序列-大数计算
所属栏目:[大数据] 日期:2021-05-19 热度:196
某种序列 http://acm.nyist.net/JudgeOnline/problem.php?pid=114 时间限制:3000?ms ?|? 内存限制:65535?KB 难度:4 输入 输入包含多行数据? 每行数据包含3个整数A0,A1,A2 (0 = A0,A2 = 100000000)? 数据以EOF结束 输出 对于输入的每一行输出A99的值 样例[详细]
-
视音频数据处理入门:UDP-RTP协议解析
所属栏目:[大数据] 日期:2021-05-19 热度:95
http://blog.csdn.net/leixiaohua1020/article/details/50535230[详细]
-
数据挖掘中的模式发现(八)轨迹模式挖掘、空间模式挖掘
所属栏目:[大数据] 日期:2021-05-19 热度:57
这是模式挖掘、数据挖掘的一部分应用。 空间模式挖掘(Mining Spatiotemporal Patterns) 两个空间实体之间存在若干拓扑关系,这些关系基于两个实体的位置: 分离 相交 包含 如图所示地表示位置信息,可以提取类似下面的规则: i s _ a ( x , l a r g e _ t o[详细]
-
大数阶乘
所属栏目:[大数据] 日期:2021-05-19 热度:126
大数阶乘 http://acm.nyist.net/JudgeOnline/problem.php?pid=28 时间限制:3000?ms ?|? 内存限制:65535?KB 难度:3 输入 输入一个整数m(0m=5000) 输出 输出m的阶乘,并在输出结束之后输入一个换行符 样例输入 50 样例输出 3041409320171337804361260816606[详细]
-
国信优易深耕数据资产评估领域 助推数据要素市场化配置进程
所属栏目:[大数据] 日期:2021-05-13 热度:164
数字化浪潮汹涌澎湃,数据作为战略性资源的价值与地位不言而喻。自2014年发展大数据产业首次写入政府工作报告,之后几乎每年都有相关文件发布或出台,从顶层设计与统筹协调等高度推动大数据发展与应用。至2020年,数据正式被纳入生产要素范围,与土地、劳动[详细]
-
一文说清AI、BI与大数据的关系
所属栏目:[大数据] 日期:2021-05-13 热度:91
近年,随着企业数字化转型的不断深入,以及对智能化场景应用需求的日趋迫切,使得企业对大数据、人工智能、BI等技术越来越关注。这使得企业在数据应用实践中面临一个问题,到底是选择大数据还是BI?这是其实是两者实际上时相互依赖,相互渗透递进的。 什么是[详细]
-
技术自强,点购友礼以大数据赋能商家精准营销
所属栏目:[大数据] 日期:2021-05-06 热度:116
随着我国产业数字化发展的大力推进以及电商存量化竞争加剧,商家之间的流量争夺战愈加激烈,尤其是在疫情后的经济复苏时期,众多商家着力于布局全渠道经营与营销,注重创造品销合一的商业生态优势。值得注意的是,随着数据实时性、准确性与全面性的提升,部[详细]
-
深度布局大数据领域 | 亿达信息接受《国际商报》专访
所属栏目:[大数据] 日期:2021-04-30 热度:122
4月28日-29日,2021中国大数据产业创新大会在北京召开。亿达信息作为数字化运营专家受邀参加本次大会,会议期间亿达信息高级副总裁文瑞接受了国家商务部直属媒体《国际商报》记者的深度专访。 亿达信息高级副总裁文瑞(右一)对话《国际商报》记者 2021中国大[详细]
-
九章数据CEO张师磊 解读数据管理解决方案平台2.0
所属栏目:[大数据] 日期:2021-04-29 热度:81
近日,九章数据首次正式发布了数据管理解决方案平台2.0(Data Management Professor,以下简称数据平台2.0)九章数据CEO张师磊介绍,对于企业而言,数据平台2.0其核心价值在于,一是通过数据中台,帮助企业实现数据资产化;二是立足企业场景需求,通过数据资产[详细]
-
智慧城市赛道跑出独角兽,摘果子的为何是平安?
所属栏目:[大数据] 日期:2021-04-29 热度:169
沿循往年的惯例,在刚刚结束的中国独角兽企业报告发布会上,长城战略咨询公布了2020年度的中国独角兽榜单。 2020年入选中国独角兽企业的数量有251家,合计估值首次超过万亿美元,其中深耕智慧城市赛道的平安智慧城市被列入2020年新晋独角兽名单。 作为市场上[详细]
-
【2021中国新消费品牌增长力大调查Growth50榜单评选】提名入围名
所属栏目:[大数据] 日期:2021-04-27 热度:71
3月,第一财经、第一财经商业数据中心(CBNData)重磅启动 2021中国新消费品牌增长力大调查暨Growth50榜单评选 项目,寻找中国消费市场极具成长性的品牌。 经过一个多月的品牌报名及投资机构、MCN推荐,一大批优秀的中国新消费品牌已积极参[详细]