最早接触数据处理应该是做小学应用题。

10只羊,被狼叼走了3只,还剩几只?

当然这种数字没什么后面隐藏的东西,它很简单。

后来学会了比较大小,计算百分率,比例的比较。

再后来做实验,重复实验之后那么些数据如何进行比较,就是统计学的范畴了。但是学了很久统计学,在处理实际问题时候有些东西让我始终保持怀疑。比如这样一个四格表:

好      坏

A    20      80

B     80      20

我想这样简单的东西其实不用统计计算也可以用眼比出来B组好些。当然我们为了让结果更科学,做下卡方检验。chi2=72 p<0.0001。

卡方检验检验出两组差异,可以说A、B组差异有统计学意义,认为2组不等。可是问题出现了,我们直接看出来的“  B组要比A组好  ”这个结果是如何在统计学上证明的?

 

诸如此类的事情很多,但是论文写进去了,也没有被质疑。比如我一直认为论文里做t检验取双侧检验结果然后却在论文中表述为某组比另一组大这种事情是很不妥当的,但是一样的都发表了。

p1=5.0001 和 p2=4.9999到底有什么可不可接受的区别,实在是说不清楚。

在医学研究中,使用统计学作为估算预测工具,大多数时候,完全不能说p1就是无差异的,亦不能说明p2就是有差异的。
这个时候但是可以去看p值,发现p1>p2,从这里面可以发现2组的差异水平应该是高于1组的。

所以说统计计算出的p值大于或者小于α这个结果不能把它当作开关一样,其中并不是只有阳性和阴性,这是个连续性的变化过程。

 

到这里就得去思考每个人是怎么看待统计学的。

统计学不仅限于这些统计检验方法,其实它是一种数据处理方法学。简单的加减、频率、基础的统计检验方法、复杂的统计模型,都是统计学。这么说其实和比较公认的统计学定义已经很相似:数据收集、整理、分析、表达和解释的普遍原理和方法。

在早期的统计学主要在于数据收集、整理上,后来有了很多分析方法,就是统计检验。
目前统计学有多么需要新的检验方法,我不这么认为。
统计分析之后的表达和解释才是统计学的产出范畴,否则统计学是个没有意义的学科。所以目前统计学的发展也是围绕着更好的去表达和解释结果,这一点,在国内似乎太不够重视了。

所有的教材都会把统计结果的表述写的一致,甚至会被强调一定要这么说:P=0.04<0.05,拒绝H0,接受H1,差异有统计学意义,可以认为两组有差异。

这句话其实是有2部分的。第一部分是结果的表达:P=0.04<0.05,拒绝H0,接受H1,差异有统计学意义。而很重要的一部分,不能被要求如何说:可以认为两组XXXX。这里是解释的部分,出统计结果时候,必须要联系实际用途,再进行解释,否则就是很不负责任的解释。

 

 

以前媒体想要宣传什么东西健康或者不健康,都是用中医啊,经验啊。
现在科学了,流行用诸如某某名牌大学研究室有在知名杂志XX的研究论文指出,XXX如何如何。

因为形容一个物质对健康的影响,除了基础研究,另一方面就是流行病调查,而基础研究很难搞清状况,流行病调查只要投入一定的精力就能做成。所以从此入手的文章比较多。

论文这个东西的本质,是研究者之间相互交流的一种方式。毕竟一个研究并不是简单的1+1,而且在之前的年代也没有网络这个东西,大家的交流基本限于杂志。这和电视新闻是一个道理。实际上也可以是现在网络的论坛,只是论坛里什么都有,不好管理,所以有些审稿的,最后弄成本杂志,便于把很烂的东西剔除出去。

然后这个习惯就至今保留下来。但是一些知名科学杂志也在试图提供更直接的可以在网络上交流的环境,不过目前看来都不算很成功。

因为其本质是个交流的平台,所以内容的正确与否,是需要分析的。

一篇研究软性饮料和牙齿关系的论文。设计了各种饮料,取了可以认为无其他因素影响的牙,设立了对照组,分别做了浸泡实验。甚至还加上了有唾液稀释的和无唾液稀释的对比。然后得到不同饮料对牙齿的腐蚀性的结果。

像这样的研究,产生偏倚的因素只在牙齿,而随机取多个牙,使这个偏倚尽量消除。这样的实验是非常可信的。
嗯,结论是碳酸饮料的腐蚀性非常大,即使之后用水或唾液冲洗,依然表现出不小的腐蚀作用。果汁类也有腐蚀性,而牛奶、水则没有这种作用。
这个实验不是一个流病调查,其中设计是否严谨比较容易看出来。

另一篇是有关cola和心脏病的文章,调查了4W人。说每天喝可乐的人患心脏病的几率高于完全不喝的人。
看到这个结论,第一反应是这个一定要看看论文是怎么写的。为什么要看论文呢?因为只看结果,暂时只能认为:每天喝可乐的人与心脏病有相关性。相关性,和因果关系,是两回事。

论文并没有很全面的提到怎么排除这4W人里面的各种混杂因素。

其实一个很简单的道理。经常喝可乐的人和完全不喝的人。这两类人完全是两种人,他们的生活习性可能根本就完全不同。而心脏病这东西,显然与其更有因果关系的是基因和生活习性。

同样的研究软性饮料与肥胖,与骨质疏松。研究的对照都是按照:不经常喝/不喝<>经常喝,这样设置。完全没有考虑不喝组里面患肥胖或骨质疏松的人和喝的组患肥胖或骨质疏松的人之间有什么其他联系。

从营养的角度,暂可认为,肥胖就是能量摄入过多,骨质疏松就是钙磷代谢失衡,或者说缺钙。
此处产生2类人:1、喝了饮料依旧能吃很多;2、喝了饮料吃不进东西。
这样一想,1类型的人容易肥胖,2类型的人容易骨质疏松。目前没有发现文章从这样的角度研究。

这样的研究很难把各种其他因素排除,最后结果也就不好说明什么问题了……

听答辩,思考一些问题,自己研究时候应该注意。

献血alt标准
alt一直作为一个诊断指标,似乎对其本身不良作用的所知不多。可查到叙述有乏力,恶心,头晕等。
论文目的是想倡导提高alt的标准值,但是却不能否定alt升高带来的危害。因为alt升高的原因过于复杂。国外有取消此标准的,却不能指出较适合在中国取消比指标的理由。
回答经常所答非所问。

——————–分割线———————

过敏性紫癫对心脏的影响
实验设计像是临床研究,不像是流行病研究。只简单的用了像发病率患病率等几个基本指标,并没有对病因,影响因素和趋势等做研究。
过多的叙述治疗方法和预后,却没有对不同治疗方法产生的后果做比较。
研究过于分散,有关该疾病的多个环节都有研究,但感觉上研究没有核心思想,看了半天看不出所以然。
论文整体看起来像是没有做研究而是把多篇文章拼凑的。
论文题目是有关疾病对心脏的影响,却没有明确的描述为什么要选择该疾病对心脏影响的研究。开题立意不清,目的不那么明确。

评委提问与建议。立意。论文结论不是经该论文研究得出的结论。统计方法有问题,样本量小。研究没有紧贴流行病概念。

———————分割线———————

气象因素与呼吸道传染病
研究基本听不很懂。
没说所谓“气象因素”是如何转化成数据的。气象因素是个复杂的指标,仅简单转化成平均风速有些过于简化了。
整体上有个问题就是论文为了研究气象因素的影响,结果研究了半天发现影响并不是很大。但是结论又想说应重视气象因素的影响。这很纠结很挣扎啊。
研究有一部分是对发病率做预测,结果用的并不是气象因素,而是综合因素。也没有分别用气象因素和综合因素做对比。研究内容和目的不相应。

评委提问与建议。
流行病三个环节,缺一不可,但研究只研究了传播途径。且没有排除其他因素的干扰。

———————–分割线————————

生活习惯病与干预之间关系
一个好题。
研究设计中有对照组和干预组,比较资料时候只比较了干预前后的差异没有两组间的比较,这个在选择研究方法时候需要考虑。

———————–分割线————————

最后这个讲了几句我就困死了,各种看微博什么的,清醒过来仔细一想,原来她在念幻灯片。
一定要避免这种行为。
不讲ppt上的内容可以,点重点讲也好。关键是不要照着念呀姐。听完了耳朵都疼了,研究再好也没用呢。
研究社区性肺炎什么的。
基本不想找什么问题。
和前一人的差别在于前者整体思路是清晰的,大问题也不多。后者完全不知道研究的啥,所以评委只好拿着论文去提问。论文内容我是看不到的……

———————-上午结束———————-

主要问题是1.要紧贴流行病概念;2.研究对象和方法一定要明确,不能各种混乱瞎研究一堆出个结论,该分析趋势的分析趋势该对比的对比,不能省不能差。3.回答提问要先理解问题问的是什么,为什么会如此问。

写论文也有个旁观者清的状况。写论文的可能有些内容不能很好的表达出来,需要与他人交流去发现他人不解的地方以便在文中有描述。

———————–下午————————
下午是全日制研究生答辩,大问题不像上午那么明显。

北京朝阳男男性行为与性传播疾病关系
评委提问与建议
好研究方向,但研究难度大,队列研究好,不容易做。
用召集志愿者的方式。此处获得数据有偏倚。
cox回归和logical回归分析的区别。

主要围绕在为什么做,用什么方法做,做得的结论是什么,分析方法存在什么问题。

——————–分割线————————

乙肝病毒感染与基因多样性的一些研究
讲起来太专业了点。

问题是研究分了3部分,但是在表述时候没有分开层次,结构混乱,不知道论文的逻辑是如何的。
基因与感染hbv的关系,基因与肝癌患病的关系。
内容插入了过多吸烟饮酒的东西。
hbv感染与吸烟饮酒并不是直接关系。吸烟饮酒降低病毒清除能力,应是与肝癌相关性较大,与感染相关和基因水平的原因不是一回事。

题设立意好不好和写出来好不好是两回事。
设计饮酒,吸烟强度的量化数据

——————–分割线————————

去泛素化酶一些分子水平研究
选择了一个位点用不同组对比。但是个体基因序列各不相同,只用一个位点分析差异不能表明该位点确为影响因素。
研究是分子生物学研究不像是流行病的分子水平研究

———————-博士论文——————-

污水与肿瘤
研究石家庄地区。条理清晰,实验设计紧密围绕着目的。使用多种实验方法。
和前面比较起来真心是博士论文。尽管研究内容还是有点简单了。

评委彭伟 段相林 袁聚祥