2021版新高考数学一轮复习第十章统计与统计案例10.2用样本估计总体课件新人教B版202011231174
展开必备知识·自主学习核心考点·精准研析核心素养测评
【教材·知识梳理】1.作频率分布直方图的步骤(1)求极差(即一组数据中_______与_______的差);(2)决定_____与_____,组距=_______;(3)将数据_____;(4)列___________;(5)画_______________.
2.频率分布折线图和总体密度曲线(1)频率分布折线图:连接频率分布直方图中各小长方形上端的_____,就得到频率分布折线图.(2)总体密度曲线:随着样本容量的增加,作图时___________增加,_____减小,相应的频率折线图会越来越接近于一条光滑曲线,统计中称这条光滑曲线为总体密度曲线.
3.茎叶图(1)统计中一种被用来表示数据的图叫做茎叶图,茎是指_____的一列数,叶是从___的旁边生长出来的数.(2)茎叶图的优点是不但可以保留_________,而且可以_________,这对数据的记录和表示都能带来方便.
(3)茎叶图的画法:第一步:将每个数据分为茎(高位)和叶(低位)两部分;第二步:将最小茎与最大茎之间的数按_____次序排成一列,写在左(右)侧;第三步:将各个数据的叶依次写在其茎的右(左)侧.
4.样本的数字特征(1)众数、中位数、平均数
(2)标准差、方差①标准差:样本数据到平均数的一种平均距离,一般用s表示,s= .②方差:标准差的平方s2:s2= [(x1- )2+(x2- )2+…+(xn- )2].其中xi(i=1,2,3,…,n)是样本数据,n是样本容量, 是样本平均数.
【常用结论】1.必记结论(在频率分布直方图中)(1)众数的估计值是最高矩形底边中点的横坐标.(2)平均数的估计值等于频率分布直方图中每个小矩形的面积乘以小矩形底边中点的横坐标之和.(3)中位数的估计值的左边和右边小矩形的面积和是相等的.
2.常用公式(1)若数据x1,x2,…,xn的平均数是 ,则mx1+a,mx2+a,…,mxn+a的平均数是m +a.(2)若数据x1,x2,…,xn的方差为s2,则ax1+b,ax2+b,…,axn+b的方差为a2s2,标准差为as.
【知识点辨析】(正确的打“√”,错误的打“×”)(1)平均数、众数与中位数从不同的角度描述了一组数据的集中趋势.( )(2)一组数据的方差越大,说明这组数据越集中.( )(3)频率分布直方图中,小矩形的面积越大,表示样本数据落在该区间的频率越大.( )(4)茎叶图一般左侧的叶按从大到小的顺序写,右侧的叶按从小到大的顺序写,相同的数据可以只记一次.( )
提示:(1)√.平均数、众数与中位数都在一定程度上反映了数据的集中趋势. (2)×.方差越大,这组数据越离散. (3)√.小矩形的面积=组距× =频率. (4)×.茎相同的数据,叶可不用按从小到大的顺序写,相同的数据叶要重复记录.
【教材·基础自测】1.(必修3P62例改编)若某校高一年级8个班参加合唱比赛的得分茎叶图如图所示,则这组数据的中位数和平均数分别是( ) A.91.5和91.5B.91.5和92C.91和91.5D.92和92
【解析】选A.这组数据由小到大排列为87,89,90,91,92,93,94,96,所以中位数是 =91.5,平均数 = =91.5.
2.(必修3P65例1改编)为评估一种农作物的种植效果,选了n块地作试验田.这n块地的亩产量(单位:kg)分别为x1,x2,…,xn,下面给出的指标中可以用来评估这种农作物亩产量稳定程度的是( )A.x1,x2,…,xn的平均数B.x1,x2,…,xn的标准差C.x1,x2,…,xn的最大值D.x1,x2,…,xn的中位数【解析】选B.评估这种农作物亩产量稳定程度的指标是标准差.
3.(必修3P63练习AT1改编)如图所示是一样本的频率分布直方图.若样本容量为100,则样本数据在[15,20]内的频数是________. 【解析】因为[15,20]对应的小矩形的面积为1-0.04×5-0.1×5=0.3,所以样本落在[15,20]内的频数为0.3×100=30.答案:30
4.(必修3P70习题2-2AT1改编)已知一组数据4.7,4.8,5.1,5.4,5.5,则该组数据的方差是________. 【解析】5个数的平均数 = =5.1,所以它们的方差s2= [(4.7-5.1)2+(4.8-5.1)2+(5.1-5.1)2+(5.4-5.1)2+(5.5-5.1)2]=0.1.答案:0.1
考点一 茎叶图 【题组练透】 1.(2017·山东高考)如图所示的茎叶图记录了甲、乙两组各5名工人某日的产量数据(单位:件).若这两组数据的中位数相等,且平均值也相等,则x和y的值分别为( ) A.3,5B.5,5C.3,7D.5,7
2.(2020·济南模拟)山东电视台“国学小名士”的播出引发了学校的国学热,某小学语文老师在班里开展了一次诗词默写比赛,班里40名学生得分数据的茎叶图如图所示.若规定得分不小于85分的学生得到“国学达人”的称号,小于85分且不小于70分的学生得到“国学能手”的称号,其他学生得到“国学爱好者”的称号,根据该次比赛的成绩按照称号的不同进行分层抽样,抽选10名学生,则抽选的学生中获得“国学达人”称号的人数为( )
A.2B.4C.5D.6
3.重庆市2019年各月的平均气温(℃)数据的茎叶图如图,则这组数据的中位数是________.
4.空气质量指数(简称AQI)是定量描述空气质量状况的指数,空气质量按照AQI大小分为六级,0~50为优;51~100为良;101~150为轻度污染;151~200为中度污染;201~300为重度污染;大于300为严重污染.从某地一环保人士某年的AQI记录数据中,随机抽取10个,用茎叶图记录如图.根据该统计数据,估计此地该年AQI大于100的天数约为________(该年为365天).
【解析】1.选A.由题意,甲组数据为56,62,65,70+x,74,乙组数据为59,61,67,60+y,78,要使两组数据的中位数相等,有65=60+y,所以y=5,又平均数相同,则 ,解得x=3.
2.选A.由茎叶图可得,获“国学达人”称号的有8人,据该次比赛的成绩按照称号的不同进行分层抽样,抽选10名学生,则抽选的学生中获得“国学达人”称号的人数为8× =2.
3.由茎叶图可知这组数据由小到大依次为8,9,12,15,18,20,20,23,23,28,31,32,所以中位数为 =20.答案:20
4.该样本中AQI大于100的频数是4,频率为 ,由此估计此地该年AQI大于100的频率为 ,估计此地该年AQI大于100的天数约为365× =146.答案:146
【思维多变】题3中茎叶图不变,那么这组数据的众数是______,平均数是______.(保留整数)
【解析】所给数据中20,23都出现了两次,是出现次数最多的数,所以众数是20,23;平均数是 = ≈20.答案:20,23 20
【规律方法】1.茎叶图的三个关注点(1)“叶”的位置只有一个数字,而“茎”的位置的数字位数一般不需要统一.(2)重复出现的数据要重复记录,不能遗漏.(3)给定两组数据的茎叶图,估计数字特征,茎上的数字由小到大排列,一般“重心”下移者平均数较大,数据集中者方差较小.
2.利用茎叶图解题的关键是抓住“叶”的分布特征,准确从中提炼信息. 在使用茎叶图时,一定要注意看清楚所有的样本数据,弄清楚这个图中的数字特点,不要漏掉了数据,也不要混淆茎叶图中茎与叶的含义.
考点二 频率分布直方图 【典例】(2017·北京高考)某大学艺术专业400名学生参加某次测评,根据男女学生人数比例,使用分层抽样的方法从中随机抽取了100名学生,记录他们的分数,将数据分成7组:[20,30),[30,40),…,[80,90],并整理得到如图频率分布直方图:
(1)从总体的400名学生中随机抽取一人,估计其分数小于70的概率.(2)已知样本中分数小于40的学生有5人,试估计总体中分数在区间[40,50)内的人数.(3)已知样本中有一半男生的分数不小于70,且样本中分数不小于70的男女生人数相等.试估计总体中男生和女生人数的比例.
【解析】(1)根据频率分布直方图可知,样本中分数不小于70的频率为(0.02+0.04)×10=0.6,所以样本中分数小于70的频率为1-0.6=0.4.所以从总体的400名学生中随机抽取一人,其分数小于70的概率估计为0.4.
(2)根据题意,样本中分数不小于50的频率为(0.01+0.02+0.04+0.02)×10=0.9,分数在区间[40,50)内的人数为100-100×0.9-5=5.所以总体中分数在区间[40,50)内的人数估计为400× =20.
(3)由题意可知,样本中分数不小于70的学生人数为(0.02+0.04)×10×100=60,所以样本中分数不小于70的男生人数为60× =30.所以样本中的男生人数为30×2=60,女生人数为100-60=40,男生和女生人数的比例为60∶40=3∶2.所以根据分层抽样原理,总体中男生和女生人数的比例估计为3∶2.
【规律方法】1.频率、频数、样本容量的计算方法(1) ×组距=频率.(2) =频率, =样本容量,样本容量×频率=频数.2.频率分布直方图中各小长方形的面积之和为1,这是解题的关键,通过频率分布直方图可以估计总体分布.
【易错警示】频率分布直方图的纵坐标是 ,而不是频率,切莫与条形图混淆.
【变式训练】(2019·全国卷Ⅲ)为了解甲、乙两种离子在小鼠体内的残留程度,进行如下试验:将200只小鼠随机分成A,B两组,每组100只,其中A组小鼠给服甲离子溶液,B组小鼠给服乙离子溶液,每组小鼠给服的溶液体积相同、摩尔浓度相同.经过一段时间后用某种科学方法测算出残留在小鼠体内离子的百分比.根据试验数据分别得到如图直方图:
记C为事件:“乙离子残留在体内的百分比不低于5.5”,根据直方图得到P(C)的估计值为0.70.(1)求乙离子残留百分比直方图中a,b的值.(2)分别估计甲、乙离子残留百分比的平均值(同一组中的数据用该组区间的中点值为代表).
【解析】(1)由已知得0.70=a+0.20+0.15,故a=(2)甲离子残留百分比的平均值的估计值为2×0.15+3×0.20+4×0.30+5×0.20+6×0.10+7×0.05=4.05.乙离子残留百分比的平均值的估计值为3×0.05+4×0.10+5×0.15+6×0.35+7×0.20+8×0.15=6.00.
考点三 平均数、方差、标准差
命题角度1 样本的数字特征与频率分布直方图【典例】 (2020·武昌模拟)我国是世界上严重缺水的国家之一,城市缺水问题较为突出.某市政府为了鼓励居民节约用水,计划在本市试行居民生活用水定额管理,即确定一个合理的居民月用水量标准x(吨),用水量不超过x的部分按平价收费,超出x的部分按议价收费,为了了解全市居民用水量的分布情况,通过抽样,获得了100位居民某年的月均用水量(单位:吨),将数据按照[0,0.5),[0.5,1),…,[4,4.5]分成9组,制成了如图所示的频率分布直方图.
(1)求频率分布直方图中a的值.(2)若该市政府希望使85%的居民每月的用水量不超过标准x(吨),估计x的值,并说明理由.(3)已知平价收费标准为4元/吨,议价收费标准为8元/吨.当x=3时,估计该市居民的月平均水费.(同一组中的数据用该组区间的中点值代替)
【解析】(1)由频率分布直方图,可得(0.08+0.16+a+0.40+0.52+a+0.12+0.08+0.04)×0.5=1,解得a=0.30.(2)因为前6组的频率之和为(0.08+0.16+0.30+0.40+0.52+0.30)×0.5=0.88>0.85,而前5组的频率之和为(0.08+0.16+0.30+0.40+0.52)×0.5=0.73<0.85,所以2.5≤x<3.
由0.3×(x-2.5)=0.85-0.73,解得x=2.9.因此,估计月用水量标准为2.9吨时,85%的居民每月的用水量不超过标准.(3)设居民月用水量为t吨,相应的水费为y元,则y= 即y=
由题设条件及月均用水量的频率分布直方图,得居民每月的水费数据分组与频率分布如表:
根据题意,该市居民的月平均水费估计为1×0.04+3×0.08+5×0.15+7×0.20+9×0.26+11×0.15+14×0.06+18×0.04+22×0.02=8.42(元).
【解后反思】频率分布直方图与众数、中位数、平均数有什么关系?提示:(1)最高的小长方形底边中点的横坐标为众数.(2)中位数左边和右边的小长方形的面积和相等.(3)平均数是频率分布直方图的“重心”,等于频率分布直方图中每个小长方形的面积乘以小长方形底边中点的横坐标之和.
命题角度2样本的数字特征与茎叶图【典例】将某选手的9个得分去掉1个最高分,去掉1个最低分,7个剩余分数的平均分为91.现场作的9个分数的茎叶图后来有1个数据模糊,无法辨认,在图中以x表示,则7个剩余分数的中位数是________,方差是________.
【解析】由题图可知去掉的两个数是87,99,所以87+90×2+91×2+94+90+x=91×7,解得x=4,即7个数据是87,90,90,91,91,94,94,故中位数是91,方差s2= [(87-91)2+(90-91)2×2+(91-91)2×2+(94-91)2×2]= .答案:91
【解后反思】茎叶图怎样反映众数、中位数、平均数、方差、标准差等数字特征?提示:茎叶图既可以表示两组数据,也可以表示一组数据,用它表示的数据是完整的数据,因此可以从茎叶图中看出数据的众数(数据中出现次数最多的数)、中位数(中间位置的一个数,或中间两个数的平均数),方差、标准差则需要通过数据计算得到.
命题角度3 样本的数字特征与优化决策【典例】甲、乙、丙、丁四人参加某运动会射击项目选拔赛,四人的平均成绩和方差如表所示:
从这四个人中选择一人参加该运动会射击项目比赛,最佳人选是( )A.甲B.乙C.丙D.丁
【解析】选C.由表格中数据可知,乙、丙平均环数最高,但丙方差最小,说明丙的成绩好,且技术稳定.
【解后反思】样本的数字特征如何反映优化决策问题?提示:(1)平均数反映了数据取值的平均水平;标准差、方差描述了一组数据围绕平均数波动的大小.标准差、方差越大,数据的离散程度越大,越不稳定;标准差、方差越小,数据的离散程度越小,越稳定.(2)用样本估计总体就是利用样本的数字特征来描述总体的数字特征.
【题组通关】【变式巩固·练】1.在如图所示一组数据的茎叶图中,有一个数字被污染后模糊不清,但曾计算得该组数据的极差与中位数之和为61,则被污染的数字为( )
A.1B.2C.3D.4
【解析】选B.由题图可知该组数据的极差为48-20=28,则该组数据的中位数为61-28=33,易得被污染的数字为2.
2.一组样本数据的频率分布直方图如图所示,试估计此样本数据的中位数为________.
【解析】由频率分布直方图可得第一组的频率是0.08,第二组的频率是0.32,第三组的频率是0.36,则中位数在第三组内,估计样本数据的中位数为10+ ×4= .答案:
3.如图所示的茎叶图是甲、乙两位同学在期末考试中的六科成绩,已知甲同学的平均成绩为85,乙同学的六科成绩的众数为84,则x+y=________.
【解析】 得x=6.又因为乙同学的成绩众数为84,所以y=4,所以x+y=10.答案:10
【综合创新·练】1.(2020·汕头模拟)在某次高中学科竞赛中,4 000名考生的参赛成绩统计如图所示,60分以下视为不及格,若同一组中数据用该组区间中点作代表,则下列说法中有误的是( )
A.成绩在[70,80)分的考生人数最多B.不及格的考生人数为1 000人C.考生竞赛成绩的平均分约为70.5分D.考生竞赛成绩的中位数为75分
【解析】选D.由频率分布直方图可得,成绩在[70,80)分的频率最高,因此考生人数最多,故A正确;由频率分布直方图可得,成绩在[40,60)分的频率为0.25,因此,不及格的人数为4 000×0.25=1 000,故B正确;由频率分布直方图可得:平均分等于45×0.1+55×0.15+65×0.2+75×0.3+85×0.15+95×0.1=70.5,故C正确;因为成绩在[40,70)分的频率为0.45,又[70,80)分的频率为0.3,所以中位数为70+10× ≈71.67,故D错误.
2.(2020·北京模拟)某班男女生各10名同学最近一周平均每天的锻炼时间(单位:分钟)用茎叶图记录如图:
假设每名同学最近一周平均每天的锻炼时间是互相独立的.①男生每天的锻炼时间差别小,女生每天的锻炼时间差别大;②从平均值分析,男生每天的锻炼时间比女生多;③男生平均每天锻炼时间的标准差大于女生平均每天锻炼时间的标准差;④从10个男生中任选一人,平均每天的锻炼时间超过65分钟的概率比同样条件下女生锻炼时间超过65分钟的概率大.其中符合茎叶图所给数据的结论是( )A.①②③B.②③④C.①②④D.①③④
【解析】选C.由茎叶图知,男生每天的锻炼时间差别小,女生差别大,①正确.男生平均每天的锻炼时间超过65分钟的概率P1= = ,女生平均每天的锻炼时间超过65分钟的概率P2= = ,P1>P2,因此④正确.设男生、女生两组数据的平均数分别为 , ,标准差分别为s甲,s乙.易求 =65.2, =61.8,知 > ,②正确.又根据茎叶图,男生锻炼时间较集中,女生锻炼时间较分散,所以s甲
①甲地该月14时的平均气温低于乙地该月14时的平均气温;②甲地该月14时的平均气温高于乙地该月14时的平均气温;③甲地该月14时的气温的标准差小于乙地该月14时的气温的标准差;④甲地该月14时的气温的标准差大于乙地该月14时的气温的标准差.其中根据茎叶图能得到的统计结论的序号为________.
【解析】甲地5天的气温为:26,28,29,31,31,其平均数为 =29;方差为 = [(26-29)2+(28-29)2+(29-29)2+(31-29)2+(31-29)2]=3.6;标准差为s甲= .乙地5天的气温为:28,29,30,31,32,其平均数为 =30;
广西专用高考数学一轮复习第十章算法初步统计与统计案例4变量间的相关关系统计案例课件新人教A版理: 这是一份广西专用高考数学一轮复习第十章算法初步统计与统计案例4变量间的相关关系统计案例课件新人教A版理,共45页。PPT课件主要包含了-2-,知识梳理,双基自测,非确定性关系,正相关,负相关,一条直线附近,-3-,一条曲线,没有显示任何关系等内容,欢迎下载使用。
广西专用高考数学一轮复习第十章算法初步统计与统计案例3用样本估计总体课件新人教A版理: 这是一份广西专用高考数学一轮复习第十章算法初步统计与统计案例3用样本估计总体课件新人教A版理,共32页。PPT课件主要包含了-2-,知识梳理,双基自测,频率fi,求极差,将数据分组,-3-,-4-,-5-,-6-等内容,欢迎下载使用。
2022届高考数学理一轮复习新人教版课件:第十章统计统计案例第二节用样本估计总体: 这是一份2022届高考数学理一轮复习新人教版课件:第十章统计统计案例第二节用样本估计总体,共60页。PPT课件主要包含了大小顺序,最中间,答案B,答案D,答案A等内容,欢迎下载使用。