大数据_北几岛

hadoop2.7之作业提交详解（下） hadoop2.7之作业提交

所属栏目：[大数据] 日期：2021-05-19 热度：150

接着作业提交详解（上）继续写：在上一篇（hadoop2.7之作业提交详解（上））中已经讲到了 YARNRunner.submitJob() [ WordCount.main() - Job.waitForCompletion() - Job.submit()? - Job.connect() - Cluster.Cluster() - Cluster.initialize() - Yarn Client[详细]
hadoop2.7作业提交详解之文件分片 hadoop2.7之作业提

所属栏目：[大数据] 日期：2021-05-19 热度：100

在前面一篇文章中（hadoop2.7之作业提交详解（上））中涉及到文件的分片。 JobSubmitter.submitJobInternal方法中调用了 int maps = writeSplits(job,submitJobDir); //设置map的数量，而map的数量是根据文件的大小和分片的大小，以及文件的数量决定的接下来[详细]
flink 1.7.2 安装详解

所属栏目：[大数据] 日期：2021-05-19 热度：78

##flink 1.7.2 安装需要java环境下载地址 https://flink.apache.org/downloads.html #1、单机版 #创建用户flink useradd flink -d /home/flink echo "flink123" | passwd flink --stdin #解压 tar -zxvf flink-1.7.2-bin-hadoop26-scala_2.11.tgz #启动 cd[详细]
hadoop2.7+spark2.2+zookeeper3.4.简单安装

所属栏目：[大数据] 日期：2021-05-19 热度：149

1、zookeeper的安装 ##配置/etc/hosts 192.168.88.130 lgh 192.168.88.131 lgh1 192.168.88.132 lgh2@H_403_5@ ##安装java8 解压配置环境即可@H_403_5@ ##ssh(每一台机器) ssh-keyscan #生成密码 ssh-copy-id lgh2 #复制到不同机器@H_403_5@ ##创建用户 usera[详细]
windows下通过idea连接hadoop和spark集群

所属栏目：[大数据] 日期：2021-05-19 热度：66

###windows下链接hadoop集群 1、假如在linux机器上已经搭建好hadoop集群 2、在windows上把hadoop的压缩包解压到一个没有空格的目录下，比如是D盘根目录 3、配置环境变量 HADOOP_HOME=D:hadoop-2.7.7 Path下添加 %HADOOP_HOME%bin 4、下载相似版本的文件 ha[详细]
大数据的技术生态概述（转载）

所属栏目：[大数据] 日期：2021-05-19 热度：166

如何用形象的比喻描述大数据的技术生态？Hadoop、Hive、Spark 之间是什么关系？大数据本身是个很宽泛的概念，Hadoop生态圈（或者泛生态圈）基本上都是为了处理超过单机尺度的数据处理而诞生的。你可以把它比作一个厨房所以需要的各种工具。锅碗瓢盆，各有各[详细]
如何进行大数据分析及处理？

所属栏目：[大数据] 日期：2021-05-19 热度：88

大数据的分析从所周知，大数据已经不简简单单是数据大的事实了，而最重要的现实是对大数据进行分析，只有通过分析才能获取很多智能的，深入的，有价值的信息。那么越来越多的应用涉及到大数据，而这些大数据的属性，包括数量，速度，多样性等等都是呈现了大[详细]
开源大数据处理工具汇总（下）

所属栏目：[大数据] 日期：2021-05-19 热度：145

第二部分主要收集整理的内容主要有日志收集系统、消息系统、分布式服务、集群管理、RPC、基础设施、搜索引擎、Iaas和监控管理等大数据开源工具。日志收集系统一、Facebook?Scribe 贡献者：Facebook 简介：Scribe是Facebook开源的日志收集系统，在Faceboo[详细]
推荐大数据分析的八大工具

所属栏目：[大数据] 日期：2021-05-19 热度：93

去年，IBM宣布以17亿美元收购数据分析公司Netezza；EMC继收购数据仓库软件厂商Greenplum后再次收购集群NAS厂商Isilon；Teradata收购了Aster Data 公司；随后，惠普收购实时分析平台Vertica等，这些收购事件指向的是同一个目标市[详细]
流式大数据处理的三种框架：Storm，Spark和Samza

所属栏目：[大数据] 日期：2021-05-19 热度：129

许多分布式计算系统都可以实时或接近实时地处理大数据流。本文将对三种Apache框架分别进行简单介绍，然后尝试快速、高度概述其异同。 Apache Storm 在Storm中，先要设计一个用于实时计算的图状结构，我们称之为拓扑（topology）。这个拓扑将会被提交给集群，[详细]
大数版的斐波那契数列

所属栏目：[大数据] 日期：2021-05-19 热度：53

光棍的yy http://acm.nyist.net/JudgeOnline/problem.php?pid=655 时间限制：1000?ms ?|? 内存限制：65535?KB 难度：2 输入第一行输入一个n表示有n个测试数据以下n行，每行输入m个1 (1 = n,m = 200) 输出输出这种组合种数，占一行样例输入 31111122222[详细]
大数据时代必不可少的大数据分析和制作工具大全

所属栏目：[大数据] 日期：2021-05-19 热度：56

1.微信大数据分析工具新媒体指数：http://www.gsdata.cn 2.数据可视化工具百度ECharts：http://echarts.baidu.com/ Cytoscape：http://www.cytoscape.org/ 图表秀：http://www.tubiaoxiu.com/ 数据观：http://shujuguan.cn/ 微博足迹可视化：http://vis.pk[详细]
A+B Problem II 大数加法

所属栏目：[大数据] 日期：2021-05-19 热度：135

A+B Problem II http://acm.nyist.net/JudgeOnline/problem.php?pid=103 时间限制：3000?ms ?|? 内存限制：65535?KB 难度：3 输入 The first line of the input contains an integer T(1=T=20) which means the number of test cases. Then T lines follow,e[详细]
NBA篮球运动员大数据分析决策支持系统

所属栏目：[大数据] 日期：2021-05-19 热度：185

package com.dt.spark.sparksql import org.apache.hadoop.conf.Configuration import org.apache.hadoop.fs.{FileSystem,Path} import org.apache.spark.SparkConf import org.apache.spark.sql.SparkSession /** ? * NBA篮球运动员大数据分析决策支持系统[详细]
某种序列-大数计算

所属栏目：[大数据] 日期：2021-05-19 热度：196

某种序列 http://acm.nyist.net/JudgeOnline/problem.php?pid=114 时间限制：3000?ms ?|? 内存限制：65535?KB 难度：4 输入输入包含多行数据? 每行数据包含3个整数A0,A1,A2 (0 = A0,A2 = 100000000)? 数据以EOF结束输出对于输入的每一行输出A99的值样例[详细]
视音频数据处理入门：UDP-RTP协议解析

所属栏目：[大数据] 日期：2021-05-19 热度：95

http://blog.csdn.net/leixiaohua1020/article/details/50535230[详细]
数据挖掘中的模式发现（八）轨迹模式挖掘、空间模式挖掘

所属栏目：[大数据] 日期：2021-05-19 热度：57

这是模式挖掘、数据挖掘的一部分应用。空间模式挖掘(Mining Spatiotemporal Patterns) 两个空间实体之间存在若干拓扑关系，这些关系基于两个实体的位置：分离相交包含如图所示地表示位置信息，可以提取类似下面的规则： i s _ a ( x , l a r g e _ t o[详细]
大数阶乘

所属栏目：[大数据] 日期：2021-05-19 热度：126

大数阶乘 http://acm.nyist.net/JudgeOnline/problem.php?pid=28 时间限制：3000?ms ?|? 内存限制：65535?KB 难度：3 输入输入一个整数m(0m=5000) 输出输出m的阶乘，并在输出结束之后输入一个换行符样例输入 50 样例输出 3041409320171337804361260816606[详细]
国信优易深耕数据资产评估领域助推数据要素市场化配置进程

所属栏目：[大数据] 日期：2021-05-13 热度：164

数字化浪潮汹涌澎湃，数据作为战略性资源的价值与地位不言而喻。自2014年发展大数据产业首次写入政府工作报告，之后几乎每年都有相关文件发布或出台，从顶层设计与统筹协调等高度推动大数据发展与应用。至2020年，数据正式被纳入生产要素范围，与土地、劳动[详细]
一文说清AI、BI与大数据的关系

所属栏目：[大数据] 日期：2021-05-13 热度：91

近年，随着企业数字化转型的不断深入，以及对智能化场景应用需求的日趋迫切，使得企业对大数据、人工智能、BI等技术越来越关注。这使得企业在数据应用实践中面临一个问题，到底是选择大数据还是BI?这是其实是两者实际上时相互依赖，相互渗透递进的。什么是[详细]
技术自强，点购友礼以大数据赋能商家精准营销

所属栏目：[大数据] 日期：2021-05-06 热度：116

随着我国产业数字化发展的大力推进以及电商存量化竞争加剧，商家之间的流量争夺战愈加激烈，尤其是在疫情后的经济复苏时期，众多商家着力于布局全渠道经营与营销，注重创造品销合一的商业生态优势。值得注意的是，随着数据实时性、准确性与全面性的提升，部[详细]
深度布局大数据领域 | 亿达信息接受《国际商报》专访

所属栏目：[大数据] 日期：2021-04-30 热度：122

4月28日-29日，2021中国大数据产业创新大会在北京召开。亿达信息作为数字化运营专家受邀参加本次大会，会议期间亿达信息高级副总裁文瑞接受了国家商务部直属媒体《国际商报》记者的深度专访。亿达信息高级副总裁文瑞(右一)对话《国际商报》记者 2021中国大[详细]
九章数据CEO张师磊解读数据管理解决方案平台2.0

所属栏目：[大数据] 日期：2021-04-29 热度：81

近日，九章数据首次正式发布了数据管理解决方案平台2.0(Data Management Professor，以下简称数据平台2.0)九章数据CEO张师磊介绍，对于企业而言，数据平台2.0其核心价值在于，一是通过数据中台，帮助企业实现数据资产化;二是立足企业场景需求，通过数据资产[详细]
智慧城市赛道跑出独角兽，摘果子的为何是平安？

所属栏目：[大数据] 日期：2021-04-29 热度：169

沿循往年的惯例，在刚刚结束的中国独角兽企业报告发布会上，长城战略咨询公布了2020年度的中国独角兽榜单。 2020年入选中国独角兽企业的数量有251家，合计估值首次超过万亿美元，其中深耕智慧城市赛道的平安智慧城市被列入2020年新晋独角兽名单。作为市场上[详细]
【2021中国新消费品牌增长力大调查Growth50榜单评选】提名入围名

所属栏目：[大数据] 日期：2021-04-27 热度：71

3月，第一财经、第一财经商业数据中心（CBNData）重磅启动 2021中国新消费品牌增长力大调查暨Growth50榜单评选项目，寻找中国消费市场极具成长性的品牌。经过一个多月的品牌报名及投资机构、MCN推荐，一大批优秀的中国新消费品牌已积极参[详细]

4606

首页

182