1 00:00:02,280 --> 00:00:09,280 2 00:00:17,880 --> 00:00:19,539 大家好! 欢迎学习 3 00:00:19,539 --> 00:00:24,489 “Weka在数据挖掘中的运用” 我是Ian Witten,来自新西兰怀卡托大学 4 00:00:24,489 --> 00:00:28,399 这门课是怀卡托大学 5 00:00:28,399 --> 00:00:30,779 计算机科学学院开设课程。 6 00:00:30,779 --> 00:00:35,940 数据挖掘是一门成熟的技术, 7 00:00:35,940 --> 00:00:36,680 很多人已认识到了数据挖掘的重要性, 8 00:00:36,680 --> 00:00:40,540 而另一些人认为数据挖掘很神秘。 9 00:00:40,540 --> 00:00:44,739 这门课旨在揭示数据挖掘的神秘性。 10 00:00:44,739 --> 00:00:48,149 这是一门实用性的课程,主要讲述如何使用Weka数据挖掘工具包。 11 00:00:48,149 --> 00:00:51,469 作为课程的一部分,你可以直接下载Weka来尝试数据挖掘。 12 00:00:51,469 --> 00:00:55,890 我会讲述几个常见算法的基本原理 13 00:00:55,890 --> 00:00:59,629 以及他们的实际应用。 14 00:00:59,629 --> 00:01:03,440 在当今世界,我们被数据环绕: 15 00:01:03,440 --> 00:01:07,310 当我们刷信用卡, 在超市 16 00:01:07,310 --> 00:01:08,229 结账, 17 00:01:08,229 --> 00:01:12,429 发短信、打电话、发邮件 18 00:01:12,429 --> 00:01:16,569 甚至敲击电脑按键,当我们走过摄像头, 19 00:01:16,569 --> 00:01:20,659 都会生成数据。 数据挖掘是 20 00:01:20,659 --> 00:01:21,290 为了 21 00:01:21,290 --> 00:01:25,310 从原始数据中找出有用的信息。 在现实世界中,信息 22 00:01:25,310 --> 00:01:26,189 可被用于 23 00:01:26,189 --> 00:01:30,970 做预测。 我来 24 00:01:30,970 --> 00:01:35,680 给大家举个例子。假如你正站在超市的收银台前, 25 00:01:35,680 --> 00:01:39,820 收银机记录下了你买的每一件东西, 26 00:01:39,820 --> 00:01:44,299 最后,你出示优惠卡。超市工作人员会给你几个百分点的折扣, 27 00:01:44,299 --> 00:01:45,200 但是 28 00:01:45,200 --> 00:01:48,770 你要提供姓名和住址。超市间接地得到了 29 00:01:48,770 --> 00:01:50,579 你以及诸多和你一样的顾客的 30 00:01:50,579 --> 00:01:54,110 个人信息。谁都希望少花钱。 31 00:01:54,110 --> 00:01:58,149 今天得到了实惠,是因为上周商家 32 00:01:58,149 --> 00:01:59,109 通过邮件发给你的优惠劵。 33 00:01:59,109 --> 00:02:02,149 因为打折, 34 00:02:02,149 --> 00:02:07,310 你会买一些平常不会买的东西。下星期, 35 00:02:07,310 --> 00:02:08,690 商家还会发给你更多的优惠券。 36 00:02:08,690 --> 00:02:13,160 而你优惠去购物,去买更多的东西。你知道吗? 37 00:02:13,160 --> 00:02:16,150 商家在做试验。 超市想知道如果价格稍微降一些, 38 00:02:16,150 --> 00:02:17,989 你会多买多少东西。 39 00:02:17,989 --> 00:02:22,250 那些优惠劵只是一种个性化定价的手段。 40 00:02:22,250 --> 00:02:25,540 超市掌握了众多像你一样的顾客的数据, 41 00:02:25,540 --> 00:02:29,940 就可以知道不同促销策略的 42 00:02:29,940 --> 00:02:30,519 实际效果。 43 00:02:30,519 --> 00:02:34,970 双方都会受益: 你得到了实惠, 商家卖出了更多的货物。 44 00:02:34,970 --> 00:02:38,139 我个人认为这是一件好事。再给大家举一个例子。 45 00:02:38,139 --> 00:02:41,810 假设你和你的伴侣想要一个孩子,但却怀不上。 46 00:02:41,810 --> 00:02:45,480 尽管尝试的过程美好,但结果却令人沮丧, 47 00:02:45,480 --> 00:02:49,510 最后变得非常沮丧,甚至悲剧。 48 00:02:49,510 --> 00:02:52,590 人工授精 49 00:02:52,590 --> 00:02:58,100 可以从女性的卵巢中提取卵子,然后使卵子与伴侣或捐精者的精子结合。 50 00:02:58,100 --> 00:03:03,669 之后选择合适的受精卵, 51 00:03:03,669 --> 00:03:06,680 重新植入子宫。 52 00:03:06,680 --> 00:03:10,090 你希望选择那些成活率高的受精卵, 53 00:03:10,090 --> 00:03:13,310 却不希望同时生出太多的婴儿。 54 00:03:13,310 --> 00:03:18,260 胚胎学家们掌握着各种受精卵的数据。 55 00:03:18,260 --> 00:03:22,150 在我看来,针对每个受精卵,他们都要记录50到100条数据。 56 00:03:22,150 --> 00:03:26,430 而且他们还存储了 57 00:03:26,430 --> 00:03:27,190 成活受精卵的 58 00:03:27,190 --> 00:03:31,120 历史数据。 59 00:03:31,120 --> 00:03:35,079 这就是一个典型的数据挖掘的实例。 60 00:03:35,079 --> 00:03:36,290 在历史数据 61 00:03:36,290 --> 00:03:40,209 和现实数据的基础上选择 62 00:03:40,209 --> 00:03:44,540 成活率最高的受精卵, 63 00:03:44,540 --> 00:03:45,419 让不孕不育的夫妇 64 00:03:45,419 --> 00:03:49,310 得到梦寐以求的孩子。 65 00:03:49,310 --> 00:03:55,859 我提到了数据挖掘和机器学习两个概念。数据挖掘 66 00:03:55,859 --> 00:03:56,989 侧重应用。 67 00:03:56,989 --> 00:04:00,970 而机器学习偏重算法。我们要使用 68 00:04:00,970 --> 00:04:02,690 机器学习中的算法 69 00:04:02,690 --> 00:04:06,430 来实现数据挖掘的目的。 70 00:04:06,430 --> 00:04:09,579 这就是Weka和数据挖掘。那么,下一个问题是什么是Weka? 71 00:04:09,579 --> 00:04:13,130 Weka是一种小鸟, 72 00:04:13,130 --> 00:04:18,030 一种不会飞的小鸟,长得多少像它那有名的Kiwi鸟亲戚。 73 00:04:18,030 --> 00:04:21,470 Weka是新西兰特有的物种, 74 00:04:21,470 --> 00:04:27,090 鸟名取自它的叫声, 75 00:04:27,090 --> 00:04:30,180 来自新西兰的叫声。 76 00:04:30,180 --> 00:04:34,780 在我们这门课中,Weka是数据挖掘的工具包, 77 00:04:34,780 --> 00:04:35,610 是 78 00:04:35,610 --> 00:04:40,150 Waikato Environment for Knowledge Analysis的首字母缩略词。 79 00:04:40,150 --> 00:04:43,719 Weka包含了针对数据分类、 80 00:04:43,719 --> 00:04:47,590 数据预处理、特性选择、 81 00:04:47,590 --> 00:04:48,689 聚类分析、 82 00:04:48,689 --> 00:04:51,969 相关性分析等的大量经典算法,是一个非常全面的工具包。 83 00:04:51,969 --> 00:04:55,800 而且Weka是免费、开源软件, 84 00:04:55,800 --> 00:04:59,110 下一次可我们会学习如何下载Weka. 85 00:04:59,110 --> 00:05:02,289 Weka可以在任何计算机上运行。 86 00:05:02,289 --> 00:05:06,819 Weka的程序设计语言是Java,可以在Linux,Windows,Mac系统中运行。 87 00:05:06,819 --> 00:05:10,110 你可以下载Weka,在你的工作站运行,并在我们的课程中使用。 88 00:05:10,110 --> 00:05:15,650 在这门课中,你会学到数据导入, 89 00:05:15,650 --> 00:05:19,419 预处理(利用筛选器来过滤数据), 90 00:05:19,419 --> 00:05:24,069 可视化分析,分类算法应, 91 00:05:24,069 --> 00:05:27,620 解释结果以及评估方法。 92 00:05:27,620 --> 00:05:32,300 在这个领域,评估是非常重要的,可以了解不同模型的代表性, 93 00:05:32,300 --> 00:05:33,879 和机器学习常见算法的准确度, 94 00:05:33,879 --> 00:05:37,810 以及避免数据挖掘的常见错误。 95 00:05:37,810 --> 00:05:42,550 课程的最终目的是使你能够应用Weka分析自己的数据, 96 00:05:42,550 --> 00:05:46,610 最重要的是,理解你所做的事。 97 00:05:46,610 --> 00:05:51,210 这是第一次课。在这次课中, 98 00:05:51,210 --> 00:05:54,860 我们要开始接触Weka。你要学习安装Weka, 99 00:05:54,860 --> 00:05:58,400 熟悉Weka的界面 100 00:05:58,400 --> 00:06:02,449 和数据集,创建分类器, 101 00:06:02,449 --> 00:06:05,669 分析分类器的数据, 使用筛选器 102 00:06:05,669 --> 00:06:08,729 和数据可视化功能。 在这门课中,我们要学习很多东西。 103 00:06:08,729 --> 00:06:11,879 这是课程的大纲, 104 00:06:11,879 --> 00:06:16,090 共包括五大部分, 105 00:06:16,090 --> 00:06:20,360 每部分由六次课组成。 106 00:06:20,360 --> 00:06:24,340 第一部分帮助我们了解Weka。第二部分侧重Weka的 107 00:06:24,340 --> 00:06:26,159 评估。 108 00:06:26,159 --> 00:06:30,249 第三部分讲解简单的分类器。第四部分阐述更多的分类器 109 00:06:30,249 --> 00:06:30,840 第五部分 110 00:06:30,840 --> 00:06:34,370 总结整个课程。第一部分 111 00:06:34,370 --> 00:06:39,189 有六节课。每节课都是一段5到10分钟的视频, 112 00:06:39,189 --> 00:06:42,879 就像这个视频。视频结束后有一个练习, 113 00:06:42,879 --> 00:06:46,300 每个练习都引导你自己动手。 114 00:06:46,300 --> 00:06:49,800 要学习,只听讲是不够的,还得动手去做。 115 00:06:49,800 --> 00:06:51,680 于是,我们设计了很多 116 00:06:51,680 --> 00:06:55,800 使用Weka工具包的练习。课程包含一个期中测试 117 00:06:55,800 --> 00:06:57,680 和期末测试。 118 00:06:57,680 --> 00:07:02,150 如果你能打到70%以上的综合成绩, 119 00:07:02,150 --> 00:07:05,830 就可以拿到怀卡托大学颁发的 120 00:07:05,830 --> 00:07:07,199 毕业证书, 121 00:07:07,199 --> 00:07:10,309 证明你学完了这门课程。 122 00:07:10,309 --> 00:07:13,330 练习是课程的重要组成部分,但不是 123 00:07:13,330 --> 00:07:14,159 考试内容。 124 00:07:14,159 --> 00:07:17,409 做练习是十分必要的,只是这回你不需要为了考试而 125 00:07:17,409 --> 00:07:18,800 强制做题。 126 00:07:18,800 --> 00:07:22,809 这主要取决于你自己。这门课的教材是一本名为 127 00:07:22,809 --> 00:07:26,759 “数据挖掘”的书。这本书详细介绍了 128 00:07:26,759 --> 00:07:30,620 数据挖掘和Weka工具包。这是一本很不错的书, 129 00:07:30,620 --> 00:07:31,400 是我和 130 00:07:31,400 --> 00:07:35,460 几个朋友一起编辑的。书的出版商非常慷慨地 131 00:07:35,460 --> 00:07:37,330 允许在线阅读大部分章节, 132 00:07:37,330 --> 00:07:41,080 因此你可以通过这本书来了解一些背景知识。 133 00:07:41,080 --> 00:07:45,069 只是了解,你不需要把整本书都读完。 134 00:07:45,069 --> 00:07:48,860 除非你打算钻研其中的一些观点和 135 00:07:48,860 --> 00:07:49,559 算法。 136 00:07:49,559 --> 00:07:52,610 这就是这本书的价值所在。 137 00:07:52,610 --> 00:07:55,659 你只需要看视频、做练习 138 00:07:55,659 --> 00:07:59,939 和参加考试。 突然想起我应该告诉大家我在哪里。 139 00:07:59,939 --> 00:08:03,629 我在新西兰,Weka的故乡。 140 00:08:03,629 --> 00:08:07,699 这是我坐的地方。 这是从新西兰人眼中看到的世界。 141 00:08:07,699 --> 00:08:10,729 我们在上方,你呢?也许在下方某处。 142 00:08:10,729 --> 00:08:14,749 我们在正上方。这个箭头指向新西兰北岛, 143 00:08:14,749 --> 00:08:18,529 怀卡托大学所在的地方。 144 00:08:18,529 --> 00:08:22,139 就到这里吧。这次课有一个练习, 145 00:08:22,139 --> 00:08:26,710 建议大家去做。当然,这节课我们只做了一个简单的介绍, 146 00:08:26,710 --> 00:08:28,589 因此练习也不是很重要。 147 00:08:28,589 --> 00:08:31,599 别担心,做这个练习也不需要大量的 148 00:08:31,599 --> 00:08:32,539 阅读。 149 00:08:32,539 --> 00:08:35,669 练习主要是为了自我检验。 150 00:08:35,669 --> 00:08:40,099 期待下次课 151 00:08:40,099 --> 00:08:44,460 再见。