计算样本量是研究设计环节中的关键内容之一。在很多流行病学的教科书中可较容易的查到不同类型研究设计的样本量计算公式;在Google中搜索,也可以找到一些基于Web的样本量计算模块。但是,通过这些途径只可以计算有限设计类型的样本量。本课程将重点介绍PASS软件的使用方法。该软件可以用于230余种统计检验和可信区间估计的样本量计算及功效分析。
流行病学研究中的数据可以通过问卷调查、体格检查、生物样本的实验室检测、环境调查与检测、既往记录或档案查阅等方式获取。现阶段,通过这些过程直接获取的仍然以纸介质数据为主,需要利用一些数据录入软件转录为可分析的数据库。本课程将重点介绍EpiData软件的使用方法。该软件的优势在于软件小巧和免费,可满足数据录入的基本功能要求。
通过纸质问卷收集调查对象的信息,然后再录入到电脑中,在这个过程中,尽管我们可以通过培训调查员、在问卷上突出注明必要的跳转或合法值要求、调查员自查和互查问卷、在录入数据库中设置必要的核查语句等质量控制措施保证数据质量,但仍然常见数据缺失、逻辑错误等问题。平行双录入耗时耗力,发现问题后可能还需要回访、修正数据。整个过程耗人心力。本课程将简要介绍基于移动设备和网络技术的无纸调查方式,帮助理解如何将数据质量控制的关口前移到调查当时。
流行病学研究有多种不同的设计类型,每种设计又对应着一些特有的分析指标。常用的统计软件包可以获得这些指标,但是由于软件是按统计分析方法组织模块,需要使用者熟悉哪个指标对应的是哪种统计方法得来。STATA作为常用的统计软件包之一,专门设计有一个流行病学相关的分析模块,按研究设计组织菜单。因此,本课程以STATA软件包为基础,介绍常用流行病学指标的计算。
抽样调查是最常开展的流行病学研究类型之一。在较大范围的抽样调查中,很少单独使用单纯随机抽样,更多的是使用整群抽样或整合单纯、系统、分层、整群抽样的多阶段抽样。这样抽样设计得来的数据通常被称为复杂抽样调查数据(complex survey data)。常见的流行病学教科书中通常只介绍单纯随机抽样时的样本量计算方法,然后给出“整群抽样时再增加一定数量”的简单原则。而通常统计教学中介绍的统计方法更适用于针对单纯随机抽样获得的数据。本课程通过介绍CSurvey软件包的使用,帮助学生更好地理解复杂抽样调查时样本量计算的通用原则;通过介绍STATA中专门针对复杂调查数据的分析模块,使学生能够了解针对此类数据合理的分析方法。
《软件包在流行病学研究中的应用》是北京大学医学部流行病与卫生统计学学科研究生的专业必修课。本课程也在同期面向北京大学医学部正常选课的研究生开课,采用翻转课堂的教学模式,选课学生在观看MOOC视频、自学相关资源和完成练习后,还需参与教室内的答疑互动。