使用 Datameer 对数据进行分析和可视化
Datameer 能够让您轻松将所有数据整合到 Hadoop 中。它是一款端到端平台,消除了大数据分析任务的复杂性。仅需数分钟而非数月便可完成数据驱动的决策。 Datameer 也是一款一站式平台,能够将所有的数据整合到 Hadoop 中并加以分析,然后以您偏好的格式视觉化呈现洞察。
Datameer Analytics App Market 是全球首个针对预置分析应用的市场,能够让您轻松连接您自己的数据并以图形化的方式查看最终结果。您无需进行任何构建工作。
如果您具有从分散来源收集的海量数据,这些数据结构各异并呈不断增长的态势,同时速度多变,Datameer 将能够帮助您实现数据的虚拟化。如果您的数据分散在云中、传统数据库中以及桌面的电子表格中,Hadoop 或许有用但却不足以处理所有分散的数据。 现在,借助 Datameer,您仅需按照向导操作便可将所有的数据整合到 Hadoop 中。借助与所有常规结构化和非结构化数据来源相连的内置连接器,显著简化了大数据的整合。您只需在 Datameer 中简单指明以下事项即可:
- 需要将哪些数据整合到 Hadoop 中,及采用何种方式
- 在添加新数据时是一次性导入还是进行流处理
- 按照您确定的计划导入
分析
借助 Datameer,大数据分析将如同使用电子表格一样简单。若要构建一个分析,使用向导:
- 选择在电子表格中操作的数据
- 从 250 多个预置分析功能中选择想要的功能
- 通过 Datameer 的智能取样技术,快速使用迭代的点击式分析功能
Datameer 绑定了多个 Hadoop 平台,如 Cloudera、Hortonworks 和 MapR 等等。Datameer 使用 IBM BigInsights®,后者是一种针对 Apache Hadoop 的可靠的企业级实施。Datameer 和 Cloudera 两者结合,可提供一款完整的大数据分析解决方案。借助 Cloudera 的企业级数据中心,您将能够以成本高效的方式将所有数据集中并存储到 Hadoop 中,同时确保原始保真度。任何符合标准的大数据分析平台均可无缝地连接至 Datameer 平台。
可视化
数据分析工具有助于展示实际的洞察,而这些洞察应以用户偏好的格式予以呈现。借助 Datameer 的 WYSIWYG 业务信息图表(与 Designer 一起打包提供),无论何种数据类型、规模或来源,均可实现拖放式的可视化。您可以使用空白的 HTML5 画布设计信息图表式的报告,该报告可在每次数据更新时自动更新。您还可以导入任意图片、嵌入视频、撰写自由格式文本、进行自定义设置等等。借助 HTML5,您可以在任何设备上实现可视化。
系统要求
生产环境的推荐硬件包括:
- 1U 服务器
- 2 个四核 CPU
- 8+ GB RAM
- 2 x 1 TB 硬盘(建议可用磁盘空间为 250GB)
- RAID - 0 加速存取
- RAID - 1 镜像
- 冗余电源
- 若要实现故障转移,需要一台具有相同配置的备用服务器
表 1 所示为支持 Datameer 的操作系统。
表 1. 支持 Datameer 的操作系统
操作系统 | 版本 | 备注 |
---|---|---|
Ubuntu 10 | 10.04 LTS | MySQL 5.1.41 |
Ubuntu 12 | 12.04 LTS | MySQL 5.5 |
Debian 5 (Lenny) | 5.0.5 | MySQL 5.1.47 |
Solaris 10 | 10 | MySQL 5.1.30 |
Red Hat Enterprise Linux (RHEL) | 5.5, 6.x | MySQL 5.0.77 |
Fedora | MySQL 5.1.48MySQL 5.1.60 | |
CentOS | MySQL 5.0.77MySQL 5.1.61 | |
Scientific Linux | 6.1 | MySQL 5.1.52 |
提供基于 IBM SoftLayer 的 CentOS 服务器
若要在 Softlayer 云中提供虚拟机,请使用以下 IP 详情:
- 公共 IP:
158.85.184.55
- 服务器 IP:
10.122.153.190
- 服务器名称:
datameerpoc.softlayer.com
- 地址:
10.122.153.190
/158.85.184.55
- 用户:
root / xxxxx
回页首
安装 Datameer
- 从 Datameer 网站下载 Datameer 。
- 使用 WinSCP 或 FillZilla 将 datameer_apache_1.0.3-4.5.0-1.noarch.rpm 文件拖至虚拟机中的目录。
- 复制 Datameer 软件到 usr/local 目录中,如 图 1 所示,然后输入以下命令,进行必要的授权:
chmod -R 777 datameer_apache_1.0.3-4.5.0-1.noarch.rpm
图 1. 设置文件权限
- 在 VM 命令行,输入以下命令,导出软件包:
export INSTALL_LOCATION=/usr/local
- 在安装 Datameer 之前,输入
java -version
命令,以检查是否安装了 Java™ 编程语言。 -
如果 Java 语言未安装,则输入以下命令安装 Java 语言:
sudo yum install java-1.7.0-openjdk-devel
此时会出现一个消息,显示安装的 Java 语言版本,以及安装的附属功能部件,如 图 2 所示。
图 2. Java 语言安装成功的消息
Java 语言安装完成后,即可开始 Datameer 的安装。
-
输入以下命令,展开存档:
rpm2cpio datameer_apache_1.0.3-4.5.0-1.noarch.rpm | cpio -idmv
此时会列出存档中的文件,如 图 3 所示。
图 3. 展开的存档
点击查看大图
关闭 [x]
图 3. 展开的存档
刷新目录路径。
启动 Datameer 应用服务器
若要启动 Datameer 应用服务器:
- 输入 清单 1 中的命令,切换到 Datameer。
清单 1. 切换到 Datameer 用户并启动服务器
su – datameer cd /usr/local/Datameer-trial-5.0.1-apache-1.0.3 cd bin ./conductor.sh start
- 启动 Datameer 服务器后,使用 URL http://158.85.184.55:8080 打开浏览器会话,该会话将会引导至 Datameer 软件协议,如 图 4 所示。
选择 I agree with the license terms ,然后单击 Continue 。
图 4. 软件协议
点击查看大图
关闭 [x]
图 4. 软件协议
-
此时,您应该看到 Datameer 仪表盘,如 图 5 所示,其中包含有 Home、Browser、App Market 和 Administration 等选项卡。
在 Datameer 仪表盘的左侧,显示的选项分别为 Filter、Admin、Analytics、Data、Examples、Images、Users 和 Visualization。
选择窗口左侧的 Admin 选项。
图 5. 欢迎屏幕
点击查看大图
关闭 [x]
图 5. 欢迎屏幕
将 CSV 文件上传到 Datameer 服务器
若要上传 CSV 文件,单击 Browser 选项卡,并单击 + 图标,如 图 6 所示,然后选择 Data > File upload 。
图 6. 添加项目的图标
点击查看大图
关闭 [x]
图 6. 添加项目的图标
- 在 New File Upload 窗口中,如 图 7 所示,单击 Browse 。在 File Type 字段中,选择 CSV/TSV ,以使用示例文件,然后单击 Next 。
图 7. 指定文件类型
- 图 8 所示为示例的 Define Fields 选项卡。Datameer 团队已在示例应用中提供了数据。该文件显示了不同城市的人群年龄。
图 8. 定义字段
点击查看大图
关闭 [x]
图 8. 定义字段
- 在 Data Details 页面的 Data Details 选项卡中,输入 Delimiter、Schema 和 Column 名称,如 图 9 所示。在本文中,我们使用默认数据,因为我们还没有任何客户方案。
图 9. 数据详情
- 对于样本大小,我们将 Sample 选项卡中的 Sample Records 字段设置为 5000,如 图 10 所示,然后单击 Next 。
图 10. 样本
- 提供数据的简要描述,如 图 11 所示,然后单击 Save 。
图 11. 保存
- 图 12 显示文件已成功上传到工具中。 选择 Drop record ,其他字段保持默认状态,然后单击 Next 。
图 12. 占位符
- 此时,您可以在 Data 选项卡中看到上传的文件。 指定文件名并单击 Save 。如 图 13 所示,之后您将会看到所有已保存的文件。
图 13. 已保存的文件
点击查看大图
关闭 [x]
图 13. 已保存的文件
- 双击已保存的文件(图 13 中的 FileUpload),即可查看文件的当前状态,如 图 14 所示。
图 14. 文件的当前状态
点击查看大图
关闭 [x]
图 14. 文件的当前状态
- 单击 Link data in new workbook ,然后单击 Browse Data ,即可查看结果,如 图 15 所示。
图 15. 结果
- 单击 Download ,即可查看决策树,如 图 16 所示。
图 16. 决策树
- 单击 图 14 中的 Link data in new workbook 选项卡,即可查看您针对示例数据所作的选择,如 图 17 所示。
图 17. 分析选项
- 选择 Decision Tree Sheet 图标(在 图 17 的红色框中高亮显示),转至 Settings 窗口,如 图 18 所示。在该窗口,您可以创建想要的表单或设置。然后,拖动列并将其放置在设置框中。
图 18. 设置
- 单击 Create Sheet ,即可查看输出,如 图 19 所示。
图 19. 电子表格
- 从工具栏中选择相应选项(在 图 20 的红色框中高亮显示),即可创建 Clustering Sheet、Decision Tree Sheet、Recommendation Sheet、Column Dependencies Sheet 和 Flip Sheet。(我们的示例仅提供了一个样本表单,用以介绍该软件。)
图 20. 选择表单
- 您所加载的数据将存储在 Workbooks 的 Analytics 文件中,如 图 21 所示。若要查看数据,选择 Home 选项卡,然后选择 Analytics 。
图 21. 存储的数据
回页首
分析数据
若要分析数据:
- 在 Datameer 中,单击 App Market 选项卡,如 图 22 所示。
图 22. 应用市场 (App Market)
点击查看大图
关闭 [x]
图 22. 应用市场 (App Market)
- 选择并安装 LinkedIn Pro Network。单击 Authorize Datameer to retrieve data ,如 图 23 所示。此时,您将需要提供您的 LinkedIn 简历认证。
图 23. 安装 LinkedIn Pro Network
提供相关详情后,按照提示单击 OK 。登录到 LinkedIn Pro Network 后,单击 Save & Run ,如 图 24 所示。
图 24. 保存并运行
- 图 25 显示了 LinkedIn Pro Network 的第一个屏幕,以及连接是否成功。
图 25. LinkedIn Pro Network
点击查看大图
关闭 [x]
图 25. LinkedIn Pro Network
- 等待数据完全加载后,单击 Open infographic
,即可查看 LinkedIn Statics 屏幕,如 图 26 所示。LinkedIn 已经对您的数据进行了整理和可视化。举例来说,您可以查看在您的 LinkedIn 简历上有多少朋友、有多少互动朋友、他们在哪个位置等等。
图 26. Linkedin Statistics
点击查看大图
关闭 [x]
图 26. Linkedin Statistics
图 27 显示了您全球各地朋友所在的位置。
图 27. Linkedin Statistics
点击查看大图
关闭 [x]
图 27. Linkedin Statistics
回页首
示例:
本节将为您介绍来自 Datameer App Market 的一个示例。
单击 App Market 选项卡(如 图 22 所示),然后安装 Tutorial Email Word 应用。 该应用能够从您的 LinkedIn 简历中获取数据并筛选登录次数、程序使用次数等诸多信息。
应用加载的时间视您的网络速度而定。在看到 Install tutorial Email Word Complexity 选项时,单击 Run 。图 28 会显示安装进度。
图 28. 启动 Tutorial Email Word Complexity
若要查看上传到应用中的所有数据,应确保所有的勾选标记符号均为绿色, 如 图 29 所示。
图 29. 所有上传的数据
单击 Open Infographic ,即可查看可视化的电子邮件内容,如 图 30 所示。
图 30. 信息图表
点击查看大图
关闭 [x]
图 30. 信息图表
若要添加数据并使其相互链接:
- 单击 Browser 选项卡(如 图 22 所示)。
- 单击窗口左上角的 + 图标。
- 依次选择 Analytics > Workbook
。
此时,您可以看到 Add Data 窗口,如 图 31 所示。
- 依次选择 Users > Admin > Applications > Resources ,然后单击 Add Data 。
图 31. 添加数据
在 Simple 选项卡中,选择待显示的分区并下载分区数据,如 图 32 所示,然后单击 Select All 。
图 32. 按分区筛选
数据已加载,如 图 33 所示。各列按业务观点填写。您可以根据年份段、月份段、日期段和小时段查看用户数据。
图 33. 示例数据
添加更多数据
您可以回到 Add Data 窗口添加更多数据。依次选择 Resources > Customer ... ,然后单击 Add Data ,如 图 34 所示。
图 34. 添加数据
如 图 35 所示,您将会看到 ID、用户和电子邮件等信息的列表。
图 35. 新数据
此处,您可以合并两个不同的数据表单。单击工具栏中的 Join Sheet ,即可创建一个合并表单,如 图 36 所示。
图 36. 选择表单和列
如 图 37 所示,依次选择 remoteUser > User > Clickstream_Data > Customer_Profile/User ,然后单击 Create Joined Sheet 。
图 37. 创建合并表单
图 38 所示为合并后的数据表单。
图 38. 合并的数据表单
点击查看大图
关闭 [x]
图 38. 合并的数据表单
在合并了两个数据表单之后,在当前表单上单击 Add additional Sheet 。此时,您将看到 Formula Builder 窗口。选择第一列(名称为 Group),该列在 图 39 的红色框中高亮显示。选择 Grouping 和 GROUPBY ,然后单击 OK 。
图 39. 公式创建器
选择第二列并重复之前的步骤,以查看 图 40 中的数据。第二列的数据基于第一列中所选的对象。(第二列将显示第一列对象的相关属性。)
图 40. 访问者数据
若要筛选数据,单击 Apply Filter 。选择筛选条件,然后单击 Create ,如 图 41 所示。
图 41. 应用筛选器到表单
若要保存数据,单击工具栏上的 Save ,并指定文件名,然后再次单击 Save ,如 图 42 所示。
图 42. 保存 Workbook
所有已保存数据将存储在 Workbooks 文件夹中,如 图 43 所示。
图 43. 已保存的数据
点击查看大图
关闭 [x]
图 43. 已保存的数据
以图形的方式可视化数据
若要可视化信息,单击窗口左上角的 + 的图标,并依次选择 Visualization > Infographic 。此时,您可以看到 图 44 所示的窗口。
图 44. 已保存的文件
点击查看大图
关闭 [x]
图 44. 已保存的文件
将饼分图小工具拖动到画布上。将数据文件拖动到饼分图上,即可看到 图 45 中所示的结果。
图 45. 信息图表
单击工具栏上的 Save 选项,然后单击 Save 。图 46和 图 47 显示了您已选择的项目。
图 46. 以图形的方式可视化数据
在 图 47 中,您可以选择 Browser 。
图 47. 选择 Browser
回页首
管理
如果需要再次启动应用,输入 bin/conductor.sh start
。
若要停止应用,输入 bin/conductor.sh stop
。
回页首
结论
尽管有很多平台和工具能够帮助从大数据中提取洞察,但采用一款能够加快分析流程的端到端平台至为重要。Datameer 的定位是针对企业内部环境和外部环境的下一代大数据分析平台。 借助基于云的 Datameer,您可以降低大数据分析相关的复杂性。本文通过一个示例应用,展示了如何将 Datameer 迁移到 IBM SoftLayer 云,以及如何对其进行配置,以优化性能。