1 00:00:18,470 --> 00:00:25,470 大家好!欢迎回到Weka与数据挖掘。我是Ian,这里是新西兰。 2 00:00:25,720 --> 00:00:32,259 这是讲座1.2。我们这门课共分五部分, 3 00:00:32,259 --> 00:00:37,409 每部分又包括六次课。这是第一部分的第二次课。 在这次课中, 4 00:00:37,409 --> 00:00:43,100 我们要学习Weka的用户界面。首先,我们要下载Weka系统。 5 00:00:43,100 --> 00:00:46,820 这是必须的步骤。 6 00:00:46,820 --> 00:00:53,820 我们需要从这个网址下载。让我们直接打开网页, 7 00:00:57,900 --> 00:01:03,530 www. cs.waikato.ac.nz/ml/weka. 你可以在线阅读Weka的相关内容。 8 00:01:03,530 --> 00:01:11,330 我们来直接点击下载,下载并安装Weka到我的电脑。我使用的是Windows系统, 9 00:01:11,360 --> 00:01:16,030 但是在网页下部我们可以看到Mac OS X, 10 00:01:16,030 --> 00:01:23,030 Linux等系统的下载版. 我们需要下载适合的版本。 11 00:01:23,030 --> 00:01:33,760 下载Weka 3.6.10,最新的版本。我要下载的是 "a self-extracting 12 00:01:33,760 --> 00:01:38,040 executable without the Java Virtual Machine"。我的电脑上已经安装了Java虚拟机。 13 00:01:38,040 --> 00:01:43,909 我要点击这里,但是你要选择适合你电脑的 14 00:01:43,909 --> 00:01:46,320 版本。 15 00:01:46,320 --> 00:01:55,380 趁着下载,我们来谈谈Weka这个词的发音。 16 00:01:55,380 --> 00:02:02,380 请读Weh-kuh。我们不希望把它叫做'weaker'(较弱的)系统,不是'weaker',是 17 00:02:02,520 --> 00:02:07,310 ‘Weka’,读作'Mecca'。这才是Weka鸟和这个软件的名称。 18 00:02:07,310 --> 00:02:21,230 我想下载已经完成了。我们来打开它。这是一个标准的安装向导。 19 00:02:21,230 --> 00:02:28,180 我们来安装Weka 3.6.10。点击next。 20 00:02:28,180 --> 00:02:35,180 同意GNU公共许可协议。下载整个文件包。 21 00:02:36,930 --> 00:02:40,870 安装到默认文件夹。一定要记住默认地址的名称。 22 00:02:40,870 --> 00:02:46,550 过一会我们需要访问那里。我们要安装整个系统。 23 00:02:46,550 --> 00:02:53,550 需要等一两分钟。 我去取杯咖啡,马上回来。 24 00:02:56,270 --> 00:02:56,780 25 00:02:56,780 --> 00:03:02,560 已经安装好了,让我们继续。点击完成就会启动Weka。 26 00:03:02,560 --> 00:03:06,160 在这之前还需要做一两件准备工作,我暂不打开Weka,不选取启动,然后点击完成。 27 00:03:06,160 --> 00:03:13,160 我们先找到已下载的Weka文件。 在我的电脑 28 00:03:16,200 --> 00:03:28,670 程序文件夹中。应该就在这里—Weka3.6。因为课程中会经常用到Weka, 29 00:03:28,670 --> 00:03:34,960 我们来建立一个快捷方式,并把它放在桌面上。 30 00:03:38,260 --> 00:03:44,330 还需要做一件事,打开这个文件夹, 31 00:03:44,330 --> 00:03:52,190 找到名为Data的文件夹。这个文件夹包含了很多我们要用到的数据集。 32 00:03:52,190 --> 00:03:59,190 我们来复制,粘贴这个文件夹到便捷的地方, 33 00:04:00,360 --> 00:04:15,160 到我的文档。重新命名为Weka datasets。 34 00:04:21,029 --> 00:04:33,229 准备就绪,安装了Weka,建立了快捷方式。 35 00:04:33,850 --> 00:04:41,340 我将快捷方式连到了错误的地方,它应该指向这里,需要创建一个新的快捷方式。 36 00:04:41,340 --> 00:04:54,330 在桌面上创建快捷方式。这就对了。现在,如果我点击这里, 37 00:04:54,330 --> 00:05:01,330 就会打开Weka。让我们回到幻灯片。Weka有四个界面。Explorer 38 00:05:01,900 --> 00:05:05,470 是我们这门课要用到的界面,我们只用Explorer。 39 00:05:05,470 --> 00:05:12,470 Experimenter界面是针对基于不同数据集的不同机器学习方法的 40 00:05:12,810 --> 00:05:18,240 大规模性能比较。KnowldgeFlow界面 41 00:05:18,240 --> 00:05:24,110 是Weka的图形界面。还有命令行界面。 42 00:05:24,110 --> 00:05:30,960 但我们只讲解Explorer界面。点击Explorer。 43 00:05:30,960 --> 00:05:37,960 正上方有五个不同的面板: 预处理面板, 44 00:05:42,090 --> 00:05:54,139 分类面板,你可以对数据进行分类,聚类面板,尽管我们不讲解聚类, 45 00:05:54,139 --> 00:05:59,639 这也是Weka所长之处,关联规则,属性选择和 46 00:05:59,639 --> 00:06:04,990 可视化面板。这门课中,我们只学习使用预处理面板打开文件, 47 00:06:04,990 --> 00:06:09,759 用分类面板做数据分类,用可视化面板 48 00:06:09,759 --> 00:06:16,509 来可视化数据。我要打开一个数据集。我现在打开的是 49 00:06:16,509 --> 00:06:22,210 天气数据,我们这门课常会用到小数据集。 50 00:06:22,210 --> 00:06:29,210 数据集包含14个样本,14天的天气,每天又包括 51 00:06:29,600 --> 00:06:34,580 五个属性。其中四个与天气相关:阴晴属性、温度属性、湿度属性和刮风属性。 52 00:06:34,580 --> 00:06:41,580 第五个属性,玩,是指此天气是否适宜某种游戏。 53 00:06:43,020 --> 00:06:47,940 我们需要做的是通过其他属性来预测玩游戏的可能性。 54 00:06:47,940 --> 00:06:51,729 先不必担心这点。我们来用Weka打开这个数据集。 55 00:06:51,729 --> 00:06:58,729 找到我的文档,Weka数据集,即我备份的数据。 56 00:07:00,910 --> 00:07:07,910 打开文件weather.nominal.arff。所有的Weka数据文件都是ARFF文件。 57 00:07:09,560 --> 00:07:17,460 我们之后会进一步说明。这就是天气数据。先不看这些彩色的柱状图。 58 00:07:19,990 --> 00:07:26,990 在幻灯片中,有14个样本,也就是我们在数据集中看到的14天的天气。 59 00:07:27,350 --> 00:07:33,630 每一天都对应五个属性:阴晴属性、温度属性、湿度属性、刮风属性和是否能玩游戏的属性。 60 00:07:33,630 --> 00:07:39,600 选择一个属性,如阴晴,就可以看到相应数值。 61 00:07:39,600 --> 00:07:45,970 阴晴属性的数值为晴朗、多云和有雨。 62 00:07:45,970 --> 00:07:51,470 每个数值在数据集中出现的次数为:晴天5天,多云4天,雨天3天,共14天,14个样本。 63 00:07:51,470 --> 00:07:58,470 我们来看温度属性,炎热、温和、凉爽是 64 00:07:59,479 --> 00:08:04,300 常见的数值。我们也可以看到他们在数据集中出现的次数。 65 00:08:04,300 --> 00:08:11,300 再来看是否能玩游戏的属性,只有两个数值,yes与no。 66 00:08:12,349 --> 00:08:19,349 好,我们现在来看这两个柱状图。蓝色柱状图代表yes,红色代表no。 67 00:08:21,419 --> 00:08:28,410 如果我们点击其他的属性,如阴晴属性,就可以看到 68 00:08:28,410 --> 00:08:35,410 当数值是晴朗时,3天不适宜玩游戏,2天适合玩游戏。 69 00:08:37,680 --> 00:08:43,949 当数值为多云时,4天适合玩游戏,没有不适合的情况。 70 00:08:43,949 --> 00:08:49,940 这就是属性值的柱状图,我们可以根据属性值做预测。 71 00:08:49,940 --> 00:08:56,940 数据可视化是非常有用的。我们已经在Weka中打开了 72 00:08:57,829 --> 00:09:04,829 天气数据weather.nominal.arff,看到了不同属性和它们的值。 73 00:09:08,970 --> 00:09:13,069 在结束前,还有最后一点需要说明。点击 74 00:09:13,069 --> 00:09:19,610 编辑面板,就会看到之前我们在幻灯片中看到的数据表, 75 00:09:19,610 --> 00:09:26,269 14天的样本,5个属性。这是另一种读取数据的方式。 76 00:09:26,269 --> 00:09:33,269 实际上,我可以在这里更改数值。点这里, 77 00:09:34,239 --> 00:09:41,239 可以把no变成yes。点这里,可以把雨天变成晴天。 78 00:09:46,089 --> 00:09:51,839 真希望现实生活中雨变晴也这么容易。点击 79 00:09:51,839 --> 00:09:57,980 OK,我们就得到一份更改过的数据。我们可以保存,但我没有保存。 80 00:09:57,980 --> 00:10:01,739 硬盘中的数据集还和以前一样。我不打算保存, 81 00:10:01,739 --> 00:10:05,389 你也不要保存,因为我们今后还会多次用到这组数据。 82 00:10:05,389 --> 00:10:12,389 这就是今天的所有内容。我们安装了Weka, 83 00:10:13,769 --> 00:10:20,769 找到了数据集,打开了Explorer界面, 在Weka中读取了数据weather.nominal.arff。 84 00:10:21,720 --> 00:10:26,739 我们看了数值属性和数值,编辑了数值, 85 00:10:26,739 --> 00:10:32,850 但没有保存。你可以从阅读材料中了解更多相关内容。1.2主要讲解了 86 00:10:32,850 --> 00:10:39,850 天气数据,第10章是关于Weka的更多介绍。现在你可以 87 00:10:40,569 --> 00:10:45,239 做这节课的课后练习了。祝你成功! 88 00:10:45,239 --> 00:10:52,239 下次课见!