1 00:00:16,160 --> 00:00:19,950 大家好!欢迎来到数据挖掘与Weka第5.3节! 2 00:00:19,950 --> 00:00:23,369 在我们开始前,我想给大家看一下我住的地方。 3 00:00:23,369 --> 00:00:28,669 我告诉过你,我许多年前搬到了新西兰。 4 00:00:28,669 --> 00:00:29,939 我住在一个叫做哈密尔顿的城市。 5 00:00:29,939 --> 00:00:35,220 让我们放大地图,看是否能看到新西兰北岛 6 00:00:35,220 --> 00:00:37,670 中心的的哈密尔顿。 7 00:00:37,670 --> 00:00:44,030 这就是坏卡托大学。 8 00:00:44,030 --> 00:00:47,660 这是大学,这是我的家。 9 00:00:47,660 --> 00:00:52,160 这是上班的路线:我每天早上骑车穿过乡野。 10 00:00:52,160 --> 00:00:53,930 就像你看到的那样,这真是美好啊。 11 00:00:53,930 --> 00:00:55,390 我住在市郊这里。 12 00:00:55,390 --> 00:01:02,390 我是一个牧羊人!我有四只羊,三只在小围场里,一只在冰箱里。 13 00:01:02,500 --> 00:01:05,780 我骑车(花半个小时)到大学。 14 00:01:05,780 --> 00:01:11,970 我周周都不见到交通信号灯, 15 00:01:11,970 --> 00:01:16,090 因为我住在和大学一个方向的城镇的边缘。 16 00:01:16,090 --> 00:01:21,500 当我到达坏卡托大学校园,那真是一个非常美丽的校园。 17 00:01:21,500 --> 00:01:23,060 我们有三个湖。 18 00:01:23,060 --> 00:01:27,349 那里有两个湖,另一个湖在这儿。 19 00:01:27,349 --> 00:01:32,330 这真是一个工作的好地方!所以,我在这儿很开心。 20 00:01:32,330 --> 00:01:39,330 让我们回到主题:数据发掘中的道德规范。 21 00:01:39,530 --> 00:01:46,530 在欧洲,有很多关于保护隐私权的严格的法律。 22 00:01:47,000 --> 00:01:51,450 例如,如果你收集任何有关于某人的个人信息, 23 00:01:51,450 --> 00:01:52,860 必须声明你的目的。 24 00:01:52,860 --> 00:01:57,750 不经过同意,信息不应该对别人公开。 25 00:01:57,750 --> 00:02:01,390 个人信息的记录必须准确和即时。 26 00:02:01,390 --> 00:02:03,920 人们应该可以评审关于他们的数据。 27 00:02:03,920 --> 00:02:08,110 当不再需要时,数据应该被删除。 28 00:02:08,110 --> 00:02:12,690 个人信息不允许被传送到其他地方。 29 00:02:12,690 --> 00:02:17,390 有的数据因太敏感而不能收集,除非是特殊情况。 30 00:02:17,390 --> 00:02:20,489 这是欧洲的现状,特别是斯堪的纳维亚(半岛)。 31 00:02:20,489 --> 00:02:24,230 当然,在美国不是这样的。 32 00:02:24,230 --> 00:02:29,750 数据挖掘是收集和使用记录的信息, 33 00:02:29,750 --> 00:02:32,600 知道这些道德问题是很有必要的。 34 00:02:32,600 --> 00:02:39,000 人们通常匿名化数据,以便安全地分发给其他人使用, 35 00:02:39,000 --> 00:02:42,790 但是,匿名化比你认为的更难。 36 00:02:42,790 --> 00:02:44,760 可以给你讲一个小故事。 37 00:02:44,760 --> 00:02:49,500 90年代中期,当马萨诸塞州发布公务员的医疗记录总结时, 38 00:02:49,500 --> 00:02:54,780 州长向公众保证它是匿名的,已移除了所有的识别信息 39 00:02:54,780 --> 00:02:59,950 (名字,地址和社会安全号码)。 40 00:02:59,950 --> 00:03:06,040 之后不久,他惊讶地收到的自己的健康记录(包括很多私人信息) 41 00:03:06,040 --> 00:03:11,040 的邮件!人们还可以从剩余的信息中 42 00:03:11,040 --> 00:03:13,490 再次被识别出。 43 00:03:13,490 --> 00:03:18,220 有相当多的关于再识别技术的研究。 44 00:03:18,220 --> 00:03:24,370 例如,利用在互联网上的公开记录,50%的美国人 45 00:03:24,370 --> 00:03:28,010 可以从他们的城市,出生日期,性别识别出来。 46 00:03:28,010 --> 00:03:34,470 如果你还有他们的邮政编码,85%的人可以被识别出来。 47 00:03:34,470 --> 00:03:40,140 有人用电影数据库做了一些有趣的研究。 48 00:03:40,140 --> 00:03:47,140 Netflix发布了有一亿个电影评级记录的数据库。 49 00:03:47,290 --> 00:03:51,810 他们让每个人把电影分级(1到5级),有一大堆人 50 00:03:51,810 --> 00:03:56,100 来做这件事情——总共一亿个电影评级记录。 51 00:03:56,100 --> 00:04:02,060 结果是,你可以识别出数据库中99%的人,如果你知道他们 52 00:04:02,060 --> 00:04:06,420 对6部电影的评级结果和他们看电影的大致时间。 53 00:04:06,420 --> 00:04:11,650 即使你仅仅知道他们对2部电影的评级结果,你也可以识别出70%的人。 54 00:04:11,650 --> 00:04:16,349 这就是说,你可以利用数据库找出这些人看过的其他电影。 55 00:04:16,349 --> 00:04:19,300 他们也许不想让你知道。 56 00:04:19,300 --> 00:04:25,500 再识别是非常强大的,在不破坏整个数据集的 57 00:04:25,500 --> 00:04:30,660 数据挖掘的价值的前提下,进行匿名化是 58 00:04:30,660 --> 00:04:33,310 很困难的。 59 00:04:33,310 --> 00:04:37,540 当然,数据挖掘的目的是辨别:这就是我们努力做的! 60 00:04:37,540 --> 00:04:42,070 我们想知道能把一类数据从另一类辨别出来的规则(谁 61 00:04:42,070 --> 00:04:48,000 获得贷款)?谁得到一个特价?但是,当然,有一些辨别 62 00:04:48,000 --> 00:04:50,720 是不道德的,甚至是违法的。 63 00:04:50,720 --> 00:04:56,570 例如,种族,性别,信仰识别肯定是不道德的, 64 00:04:56,570 --> 00:04:59,550 在许多地方是违法的。 65 00:04:59,550 --> 00:05:01,910 但是,这取决于辨别的内容。 66 00:05:01,910 --> 00:05:06,500 性别辨别经常是违法的......除了对医生以外。 67 00:05:06,500 --> 00:05:11,350 医生在诊断时,会考虑(患者的)性别。 68 00:05:11,350 --> 00:05:16,400 比如,他们不想告诉一个男人,他怀孕了。 69 00:05:16,400 --> 00:05:20,010 同样,看上去无害的信息,可能并不是那样。 70 00:05:20,010 --> 00:05:26,880 例如,地区代码(美国的邮政编码)和种族有很强关联; 71 00:05:26,880 --> 00:05:29,100 某些组织的会籍和性别相关。 72 00:05:29,100 --> 00:05:34,260 所以你也许已经从你的数据库删除了明确的种族和性别信息, 73 00:05:34,260 --> 00:05:37,880 还是可以从其他的信息推断出来种族和性别。 74 00:05:37,880 --> 00:05:48,550 数据处理是非常困难的:它用意想不到的方式揭示自己的秘密。 75 00:05:48,550 --> 00:05:55,550 一个和数据挖掘有关的道德问题是相关性并不意味着因果关系。 76 00:05:56,610 --> 00:06:02,169 这是一个经典的例子:冰淇淋的销售与溺水率同时增长。 77 00:06:02,169 --> 00:06:06,970 是否可以说,冰淇淋的消费导致溺水?应该不能。 78 00:06:06,970 --> 00:06:12,320 它们大概都是由高温引起的,人们去海滩。 79 00:06:12,320 --> 00:06:17,800 数据挖掘显示出的是简单的相关性,不是因果关系。 80 00:06:17,800 --> 00:06:20,010 其实,我们想要因果关系。 81 00:06:20,010 --> 00:06:25,550 我们希望能够预测我们行为的影响,但我们 82 00:06:25,550 --> 00:06:27,919 利用数据挖掘技术得到的只是相关性。 83 00:06:27,919 --> 00:06:34,919 要了解原因,你需要更深层次的模型。 84 00:06:36,340 --> 00:06:40,150 我只是想提醒你一些问题,一些数据挖掘中的道德问题, 85 00:06:40,150 --> 00:06:46,790 在你离开之前,在你把课程中学到的知识应用到自己的数据集之前: 86 00:06:46,790 --> 00:06:51,270 关于个人信息的隐私问题;事实上,匿名是比你想象的困难; 87 00:06:51,270 --> 00:06:57,650 从已匿名的数据重新识别出个体比你想象的容易; 88 00:06:57,650 --> 00:07:03,699 数据挖掘和辨别(这毕竟是关于辨别); 89 00:07:03,699 --> 00:07:08,250 相关性并不意味着因果关系的事实。 90 00:07:08,250 --> 00:07:13,729 课本里有一节,数据挖掘中的道德,你可以从中了解到 91 00:07:13,729 --> 00:07:18,030 更多的背景知识。你现在应该去完成 92 00:07:18,030 --> 00:07:20,190 本课课后的小练习。 93 00:07:20,190 --> 00:07:23,900 下节课将是我们的最后一节课,下次见。 94 00:07:23,900 --> 00:07:26,500 再见!