借印度留学生相关数据,说下数据可靠性问题
借印度留学生相关数据,说下数据可靠性问题。AI让数据真假很难判断了,数据处理难度大增,AI的数据污染真太厉害了
1. 我说印度留学生绝大部分是来中国学医的,2019年2.3万印度留学生,有2.1万人是学医的。有人问我要数据来源,没问题。图一,中文网最早的报导是2019年10月出现的,来源是印度报业托拉斯网。
2. 这个数据,后面文章引用的很多,也符合人们的直觉,确实见过不少印度人在自家学校学医,没见过学其它的。教育部还出台管理规定,批准中国45所医学院校用英语向外国学生教授本科临床医学专业(MBBS)课程,不在名单上的不许。
3. 这个数据多年来没有出问题,印度方面也没必要在这个数据上造假。印度也是承认中国学历的,但是要参加印度的医师资格考试,这也是正常的。一次通过率12.5%,但可以反复考,所以来中国学医是值得的。来中国学费基本是自费,比印度本土一些很贵的医学院还便宜。经济模式也说得通。
4. 后面大模型AI出来了,不会分辩鬼扯数据、自己还编数据。市场上又出现了大量印度“黑流量”的需求,关于印度留学生的数据体系就完蛋了。有人拿了图二的“数据”来反驳我,说现在印度留学生是工科生为主了,医学占比降到35%去了。这正说明现在数据体系的严重问题,人们已经被彻底搞昏头了。有些人不去认真查数据,而是拿AI总结下,或者看到营销号数据符合自己需求的就拿过来,就这么扔出来。这是严重的数据污染。
5. 例如在中国的印度留学生数量,图三是教育部网站2019年公布的2018年数据,印度留学生是23198人,这和印度报业托拉斯网的数据能对得上。但这就是最后一份公开数据了,后来舆论攻击教育部大招留学生给奖学金,留学生数据不再系统公布。我是找不到印度留学生有多少的数据。
6. 但是舆论又需要这个数据,不公布,编一个不就行了?让AI编更容易。2023年印度留学生28996人的数据,我查不到,图二说是《2023中国教育公报》来源。《2023中国教育公报》应该是指《2023年全国教育事业发展统计公报》,网上有全文,根本就没谈留学生数量这事!
7. 所以我强烈怀疑,AI有时连数据来源都是瞎编的,列的参考文献像模像样的,一查却发现是假的。至于印度留学生学医比例降至35%,工科生首超医学生,所谓“印度驻华使馆报告”,我是找不到。印度驻华大使馆,开了微博账号,根本没谈这个事。
8. 以前我打击假数据,一般难度不大,给出真数据就好了。现在完蛋了,网上到处是AI相信的“数据来源”,原始的来源却很不好找。真数据要么没有,要么藏在不成比例的假数据之中。