首页>> 正文

借助 IBM SoftLayer 上的 Datameer 从大数据中获取敏捷洞察

来源:商群邮件营销时间:2015-08-12 22:04:45点击:2166

使用 Datameer 对数据进行分析和可视化

Datameer 能够让您轻松将所有数据整合到 Hadoop 中。它是一款端到端平台,消除了大数据分析任务的复杂性。仅需数分钟而非数月便可完成数据驱动的决策。 Datameer 也是一款一站式平台,能够将所有的数据整合到 Hadoop 中并加以分析,然后以您偏好的格式视觉化呈现洞察。

Datameer Analytics App Market 是全球首个针对预置分析应用的市场,能够让您轻松连接您自己的数据并以图形化的方式查看最终结果。您无需进行任何构建工作。

如果您具有从分散来源收集的海量数据,这些数据结构各异并呈不断增长的态势,同时速度多变,Datameer 将能够帮助您实现数据的虚拟化。如果您的数据分散在云中、传统数据库中以及桌面的电子表格中,Hadoop 或许有用但却不足以处理所有分散的数据。 现在,借助 Datameer,您仅需按照向导操作便可将所有的数据整合到 Hadoop 中。借助与所有常规结构化和非结构化数据来源相连的内置连接器,显著简化了大数据的整合。您只需在 Datameer 中简单指明以下事项即可:

  • 需要将哪些数据整合到 Hadoop 中,及采用何种方式
  • 在添加新数据时是一次性导入还是进行流处理
  • 按照您确定的计划导入

分析

借助 Datameer,大数据分析将如同使用电子表格一样简单。若要构建一个分析,使用向导:

  • 选择在电子表格中操作的数据
  • 从 250 多个预置分析功能中选择想要的功能
  • 通过 Datameer 的智能取样技术,快速使用迭代的点击式分析功能

Datameer 绑定了多个 Hadoop 平台,如 Cloudera、Hortonworks 和 MapR 等等。Datameer 使用 IBM BigInsights®,后者是一种针对 Apache Hadoop 的可靠的企业级实施。Datameer 和 Cloudera 两者结合,可提供一款完整的大数据分析解决方案。借助 Cloudera 的企业级数据中心,您将能够以成本高效的方式将所有数据集中并存储到 Hadoop 中,同时确保原始保真度。任何符合标准的大数据分析平台均可无缝地连接至 Datameer 平台。

可视化

数据分析工具有助于展示实际的洞察,而这些洞察应以用户偏好的格式予以呈现。借助 Datameer 的 WYSIWYG 业务信息图表(与 Designer 一起打包提供),无论何种数据类型、规模或来源,均可实现拖放式的可视化。您可以使用空白的 HTML5 画布设计信息图表式的报告,该报告可在每次数据更新时自动更新。您还可以导入任意图片、嵌入视频、撰写自由格式文本、进行自定义设置等等。借助 HTML5,您可以在任何设备上实现可视化。

系统要求

生产环境的推荐硬件包括:

  • 1U 服务器
  • 2 个四核 CPU
  • 8+ GB RAM
  • 2 x 1 TB 硬盘(建议可用磁盘空间为 250GB)
  • RAID - 0 加速存取
  • RAID - 1 镜像
  • 冗余电源
  • 若要实现故障转移,需要一台具有相同配置的备用服务器

表 1 所示为支持 Datameer 的操作系统。

表 1. 支持 Datameer 的操作系统

操作系统 版本 备注
Ubuntu 10 10.04 LTS MySQL 5.1.41
Ubuntu 12 12.04 LTS MySQL 5.5
Debian 5 (Lenny) 5.0.5 MySQL 5.1.47
Solaris 10 10 MySQL 5.1.30
Red Hat Enterprise Linux (RHEL) 5.5, 6.x MySQL 5.0.77
Fedora MySQL 5.1.48MySQL 5.1.60
CentOS MySQL 5.0.77MySQL 5.1.61
Scientific Linux 6.1 MySQL 5.1.52

提供基于 IBM SoftLayer 的 CentOS 服务器

若要在 Softlayer 云中提供虚拟机,请使用以下 IP 详情:

  • 公共 IP: 158.85.184.55
  • 服务器 IP: 10.122.153.190
  • 服务器名称: datameerpoc.softlayer.com
  • 地址: 10.122.153.190 / 158.85.184.55
  • 用户: root / xxxxx

回页首

安装 Datameer

  1. 从 Datameer 网站下载 Datameer 。
  2. 使用 WinSCP 或 FillZilla 将 datameer_apache_1.0.3-4.5.0-1.noarch.rpm 文件拖至虚拟机中的目录。
  3. 复制 Datameer 软件到 usr/local 目录中,如 图 1 所示,然后输入以下命令,进行必要的授权:
    chmod -R 777 datameer_apache_1.0.3-4.5.0-1.noarch.rpm

    图 1. 设置文件权限

  4. 在 VM 命令行,输入以下命令,导出软件包:
    export INSTALL_LOCATION=/usr/local
  5. 在安装 Datameer 之前,输入 java -version 命令,以检查是否安装了 Java™ 编程语言。
  6. 如果 Java 语言未安装,则输入以下命令安装 Java 语言:

    sudo yum install java-1.7.0-openjdk-devel

    此时会出现一个消息,显示安装的 Java 语言版本,以及安装的附属功能部件,如 图 2 所示。

    图 2. Java 语言安装成功的消息

    Java 语言安装完成后,即可开始 Datameer 的安装。

  7. 输入以下命令,展开存档:

    rpm2cpio datameer_apache_1.0.3-4.5.0-1.noarch.rpm | cpio -idmv

    此时会列出存档中的文件,如 图 3 所示。

    图 3. 展开的存档

    点击查看大图

    关闭 [x]

    图 3. 展开的存档

    刷新目录路径。

启动 Datameer 应用服务器

若要启动 Datameer 应用服务器:

  1. 输入 清单 1 中的命令,切换到 Datameer。

    清单 1. 切换到 Datameer 用户并启动服务器

    su – datameer
    cd /usr/local/Datameer-trial-5.0.1-apache-1.0.3
    cd bin
    ./conductor.sh start
  2. 启动 Datameer 服务器后,使用 URL http://158.85.184.55:8080 打开浏览器会话,该会话将会引导至 Datameer 软件协议,如 图 4 所示。

    选择 I agree with the license terms ,然后单击 Continue

    图 4. 软件协议

    点击查看大图

    关闭 [x]

    图 4. 软件协议

  3. 此时,您应该看到 Datameer 仪表盘,如 图 5 所示,其中包含有 Home、Browser、App Market 和 Administration 等选项卡。

    在 Datameer 仪表盘的左侧,显示的选项分别为 Filter、Admin、Analytics、Data、Examples、Images、Users 和 Visualization。

    选择窗口左侧的 Admin 选项。

    图 5. 欢迎屏幕

    点击查看大图

    关闭 [x]

    图 5. 欢迎屏幕

将 CSV 文件上传到 Datameer 服务器

若要上传 CSV 文件,单击 Browser 选项卡,并单击 + 图标,如 图 6 所示,然后选择 Data > File upload

图 6. 添加项目的图标

点击查看大图

关闭 [x]

图 6. 添加项目的图标

  1. 在 New File Upload 窗口中,如 图 7 所示,单击 Browse 。在 File Type 字段中,选择 CSV/TSV ,以使用示例文件,然后单击 Next

    图 7. 指定文件类型

  2. 图 8 所示为示例的 Define Fields 选项卡。Datameer 团队已在示例应用中提供了数据。该文件显示了不同城市的人群年龄。

    图 8. 定义字段

    点击查看大图

    关闭 [x]

    图 8. 定义字段

  3. 在 Data Details 页面的 Data Details 选项卡中,输入 Delimiter、Schema 和 Column 名称,如 图 9 所示。在本文中,我们使用默认数据,因为我们还没有任何客户方案。

    图 9. 数据详情

  4. 对于样本大小,我们将 Sample 选项卡中的 Sample Records 字段设置为 5000,如 图 10 所示,然后单击 Next

    图 10. 样本

  5. 提供数据的简要描述,如 图 11 所示,然后单击 Save

    图 11. 保存

  6. 图 12 显示文件已成功上传到工具中。 选择 Drop record ,其他字段保持默认状态,然后单击 Next

    图 12. 占位符

  7. 此时,您可以在 Data 选项卡中看到上传的文件。 指定文件名并单击 Save 。如 图 13 所示,之后您将会看到所有已保存的文件。

    图 13. 已保存的文件

    点击查看大图

    关闭 [x]

    图 13. 已保存的文件

  8. 双击已保存的文件(图 13 中的 FileUpload),即可查看文件的当前状态,如 图 14 所示。

    图 14. 文件的当前状态

    点击查看大图

    关闭 [x]

    图 14. 文件的当前状态

  9. 单击 Link data in new workbook ,然后单击 Browse Data ,即可查看结果,如 图 15 所示。

    图 15. 结果

  10. 单击 Download ,即可查看决策树,如 图 16 所示。

    图 16. 决策树

  11. 单击 图 14 中的 Link data in new workbook 选项卡,即可查看您针对示例数据所作的选择,如 图 17 所示。

    图 17. 分析选项

  12. 选择 Decision Tree Sheet 图标(在 图 17 的红色框中高亮显示),转至 Settings 窗口,如 图 18 所示。在该窗口,您可以创建想要的表单或设置。然后,拖动列并将其放置在设置框中。

    图 18. 设置

  13. 单击 Create Sheet ,即可查看输出,如 图 19 所示。

    图 19. 电子表格

  14. 从工具栏中选择相应选项(在 图 20 的红色框中高亮显示),即可创建 Clustering Sheet、Decision Tree Sheet、Recommendation Sheet、Column Dependencies Sheet 和 Flip Sheet。(我们的示例仅提供了一个样本表单,用以介绍该软件。)

    图 20. 选择表单

  15. 您所加载的数据将存储在 Workbooks 的 Analytics 文件中,如 图 21 所示。若要查看数据,选择 Home 选项卡,然后选择 Analytics

    图 21. 存储的数据

回页首

分析数据

若要分析数据:

  1. 在 Datameer 中,单击 App Market 选项卡,如 图 22 所示。

    图 22. 应用市场 (App Market)

    点击查看大图

    关闭 [x]

    图 22. 应用市场 (App Market)

  2. 选择并安装 LinkedIn Pro Network。单击 Authorize Datameer to retrieve data ,如 图 23 所示。此时,您将需要提供您的 LinkedIn 简历认证。

    图 23. 安装 LinkedIn Pro Network

    提供相关详情后,按照提示单击 OK 。登录到 LinkedIn Pro Network 后,单击 Save & Run ,如 图 24 所示。

    图 24. 保存并运行

  3. 图 25 显示了 LinkedIn Pro Network 的第一个屏幕,以及连接是否成功。

    图 25. LinkedIn Pro Network

    点击查看大图

    关闭 [x]

    图 25. LinkedIn Pro Network

  4. 等待数据完全加载后,单击 Open infographic

    ,即可查看 LinkedIn Statics 屏幕,如 图 26 所示。LinkedIn 已经对您的数据进行了整理和可视化。举例来说,您可以查看在您的 LinkedIn 简历上有多少朋友、有多少互动朋友、他们在哪个位置等等。

    图 26. Linkedin Statistics

    点击查看大图

    关闭 [x]

    图 26. Linkedin Statistics

    图 27 显示了您全球各地朋友所在的位置。

    图 27. Linkedin Statistics

    点击查看大图

    关闭 [x]

    图 27. Linkedin Statistics

回页首

示例:

本节将为您介绍来自 Datameer App Market 的一个示例。

单击 App Market 选项卡(如 图 22 所示),然后安装 Tutorial Email Word 应用。 该应用能够从您的 LinkedIn 简历中获取数据并筛选登录次数、程序使用次数等诸多信息。

应用加载的时间视您的网络速度而定。在看到 Install tutorial Email Word Complexity 选项时,单击 Run 。图 28 会显示安装进度。

图 28. 启动 Tutorial Email Word Complexity

若要查看上传到应用中的所有数据,应确保所有的勾选标记符号均为绿色, 如 图 29 所示。

图 29. 所有上传的数据

单击 Open Infographic ,即可查看可视化的电子邮件内容,如 图 30 所示。

图 30. 信息图表

点击查看大图

关闭 [x]

图 30. 信息图表

若要添加数据并使其相互链接:

  1. 单击 Browser 选项卡(如 图 22 所示)。
  2. 单击窗口左上角的 + 图标。
  3. 依次选择 Analytics > Workbook

    此时,您可以看到 Add Data 窗口,如 图 31 所示。

  4. 依次选择 Users > Admin > Applications > Resources ,然后单击 Add Data

图 31. 添加数据

在 Simple 选项卡中,选择待显示的分区并下载分区数据,如 图 32 所示,然后单击 Select All

图 32. 按分区筛选

数据已加载,如 图 33 所示。各列按业务观点填写。您可以根据年份段、月份段、日期段和小时段查看用户数据。

图 33. 示例数据

添加更多数据

您可以回到 Add Data 窗口添加更多数据。依次选择 Resources > Customer ... ,然后单击 Add Data ,如 图 34 所示。

图 34. 添加数据

如 图 35 所示,您将会看到 ID、用户和电子邮件等信息的列表。

图 35. 新数据

此处,您可以合并两个不同的数据表单。单击工具栏中的 Join Sheet ,即可创建一个合并表单,如 图 36 所示。

图 36. 选择表单和列

如 图 37 所示,依次选择 remoteUser > User > Clickstream_Data > Customer_Profile/User ,然后单击 Create Joined Sheet

图 37. 创建合并表单

图 38 所示为合并后的数据表单。

图 38. 合并的数据表单

点击查看大图

关闭 [x]

图 38. 合并的数据表单

在合并了两个数据表单之后,在当前表单上单击 Add additional Sheet 。此时,您将看到 Formula Builder 窗口。选择第一列(名称为 Group),该列在 图 39 的红色框中高亮显示。选择 GroupingGROUPBY ,然后单击 OK

图 39. 公式创建器

选择第二列并重复之前的步骤,以查看 图 40 中的数据。第二列的数据基于第一列中所选的对象。(第二列将显示第一列对象的相关属性。)

图 40. 访问者数据

若要筛选数据,单击 Apply Filter 。选择筛选条件,然后单击 Create ,如 图 41 所示。

图 41. 应用筛选器到表单

若要保存数据,单击工具栏上的 Save ,并指定文件名,然后再次单击 Save ,如 图 42 所示。

图 42. 保存 Workbook

所有已保存数据将存储在 Workbooks 文件夹中,如 图 43 所示。

图 43. 已保存的数据

点击查看大图

关闭 [x]

图 43. 已保存的数据

以图形的方式可视化数据

若要可视化信息,单击窗口左上角的 + 的图标,并依次选择 Visualization > Infographic 。此时,您可以看到 图 44 所示的窗口。

图 44. 已保存的文件

点击查看大图

关闭 [x]

图 44. 已保存的文件

将饼分图小工具拖动到画布上。将数据文件拖动到饼分图上,即可看到 图 45 中所示的结果。

图 45. 信息图表

单击工具栏上的 Save 选项,然后单击 Save 。图 46和 图 47 显示了您已选择的项目。

图 46. 以图形的方式可视化数据

在 图 47 中,您可以选择 Browser

图 47. 选择 Browser

回页首

管理

如果需要再次启动应用,输入 bin/conductor.sh start

若要停止应用,输入 bin/conductor.sh stop

回页首

结论

尽管有很多平台和工具能够帮助从大数据中提取洞察,但采用一款能够加快分析流程的端到端平台至为重要。Datameer 的定位是针对企业内部环境和外部环境的下一代大数据分析平台。 借助基于云的 Datameer,您可以降低大数据分析相关的复杂性。本文通过一个示例应用,展示了如何将 Datameer 迁移到 IBM SoftLayer 云,以及如何对其进行配置,以优化性能。

  • *真实姓名:
  • *手机号码:
  • 公司名称:
  • 咨询内容:

CopyRight © 2009 - 2020 All Right Reserved 备案号:闽ICP备15004550号-275

厦门书生企友通科技有限公司 QYT.com 版权所有