2020欧洲杯彩票玩法

拉法伊里扎里,罗杰彭和杰夫李克的统计博客

简化-整理数据即服务

Tldr:我们成立了一家名为Streamline Data Science的公司https://streamlinedatascience.io/ 它提供整洁的数据作为服务。我们正在寻找客户,合作伙伴和员工,因为我们的规模扩大后,结束我们的融资轮!在我职业生涯的大部分时间里,我都从事数据清理工作。在基因组学的世界里,我的很多研究都集中在批量效应上,将大的基因组数据合成成可用的格式,并且通常使数据更易于使用。

数据科学家的四项工作

2019年,我写了一篇关于数据科学的文章,试图提炼出数据科学家的关键技能。我在帖子中写道:当我问自己“什么是数据科学?”这个问题时,我倾向于思考以下五个组成部分。数据科学是(1)设计思维在数据问题上的应用(2) 创建和管理用于转换和处理数据的工作流(3) 为数据分析产品确定背景、分配资源和确定受众特征而进行的人际关系谈判(4) 运用统计方法量化证据;将数据分析信息转化为连贯的叙述和故事。

帕兰蒂尔展示了自己的牌

把这篇文章放在长期跟踪下,但就在大约四年前,我写了一篇关于帕兰蒂尔的文章,帕兰蒂尔以前是一家秘密的公司,但现在很快就要成为一家公开的数据科学公司,它的估值是如何对数据科学的价值进行更广泛的评论的。就在最近,帕兰蒂尔申请上市,因此提交了一份注册声明(S-1),描述了它的业务。如果你喜欢这类东西的话,这是一本引人入胜的书。

再现性的渐近性

每隔一段时间,我就会看到一条tweet或帖子,询问人们是否应该使用toolx或软件Y来“使他们的数据分析具有可复制性”。我认为这是一个合理的问题,因为,在某种程度上,有这么多好的工具在那里!不可否认,这是一件好事,与10年前的选择相对较少形成鲜明对比。不过,工具集的问题不太值得关注,因为这是一个错误的问题。

增强我对COVID-19的信任

像很多人一样,我一直在各种媒体渠道上努力了解COVID-19的最新进展。我也像很多人一样,对错误信息、大量的预印本和同行评议材料感到沮丧。这些信息中有些极其重要,有些则难以信任。作为一名公共卫生学院的生物统计学家,我也接触过许多媒体,但我一直不愿接受任何采访或谈论COVID-19。法国国家男子足球队

人工智能正在彻底改变环境健康吗?

注:这篇文章是由密歇根州立大学Kevin Elliott撰写的;国立卫生研究院;帕特里克·麦克马伦,科学创新;Gary Miller,哥伦比亚大学;Bhramar Mukherjee,密歇根大学;罗杰·D。彭,约翰霍普金斯大学;Melissa Perry,乔治华盛顿大学;国家科学院、工程院和医学院。这篇文章所依据的研讨会的完整摘要可以在这里获得。

你可以用R复制几乎所有的图

尽管R对于快速地将数据转换成曲线图很有用,但它并没有广泛地用于制作可供出版的数字。但是,只要做了足够的修补,你几乎可以在R。例如查看flowingdata博客或数据可视化基础书籍。这里我展示了我在数据科学课程中使用的五张来自非专业出版社的图表。在过去,我会显示原始的,但我决定在R中复制它们,以便只使用R代码生成类注释(涉及到很多google)。

所以你想开始播客

在过去的10年里,播客变得相当容易,部分原因是硬件和软件的改进。大约两年前,我写了关于如何编辑和录制播客的文章,虽然从那时起没有太大的变化,但我认为如果我能以更好的方式组织信息,对刚开始制作新播客的人可能会有所帮助。

数据泛滥意味着没有合理的隐私预期-现在怎么办?德国匈牙利预测

今天,一些不同的事情让我想起了一些我想很多人都在谈论的事情,但也一直在我的脑海里。我们的想法是,我们社会的许多社会规范都是基于对隐私的合理期望。但是,对隐私的合理期望越来越成为过去。我一直在思考的三类数据是:明显的识别数据:手机GPS跟踪和公共社交媒体帖子等数据显然是可识别的信息,减少了隐私。德国匈牙利预测

教学数据科学的更多数据集:扩展的dslabs包

简介我们已经扩展了dslabs包,我们之前介绍过这个包,它包含真实、有趣和可接近的数据集,可以在数据科学入门课程中使用。这个版本增加了7个关于气候变化、天文学、预期寿命和乳腺癌诊断的新数据集。它们被用于HarvardX数据科学专业证书课程中的改进问题集和新项目中,该课程为没有编码背景的学生讲授初级R编程、数据可视化、数据争论、统计学和机器学习。