一次夏令营小记

¶Day 1

workshop, 邀请一些学术界和工业界的一些知名人士来讲座，每人一个topic，但也和自己所从事的研究或者工作经历颇有联系。对healthcare这块不熟悉，医疗疾病和各种简称没几个认识的。

其中一些topic很有趣，比如来场时来自MIT的Dr. Leo Celi跟我们讲述在医疗领域发表的论文实验结果建立在一些假设前提缺乏实证的基础上，Dr. Wei-Hung Weng在探讨AI时给出的一些观点是共享，开源，合作以及review，让AI更好地服务于医疗领域。Panel Session还讨论了基于规则驱动的传统自然语言处理和基于数据驱动的机器学习之间的对弈，部分人对这个机器学习这个black box表示怀疑，在权威面前比较难想象将AI看做主宰还是助理；一个老教授用一句很有名的诗句展示了一花一世界的研究，利用SANDs的方法使得基因图谱的展示更加清晰。最后用司马迁写史记的例子告诉我们科研的意义，只是各种术语让我听的各种恐慌；

到了下午开始慢慢进入主题，一共有12只队伍，每对最多8人，每一个队伍的lead都是经验丰富的医疗行业专家，医生、研究院、分析师、教授各种背景的都有，仓促记录了每个队伍想要解决的问题。

dizziness
sepsis mortality
early cancer detection (recurrence)
mathew adults vulnerable () address how to prevent 1. falls (standarlize
predict how patients come to hospitals
joint injury what decide to send them home or 1. staying longer (predict the time) then classify 1. them into different appointments
inapproppriate diagnotics, why doctors make 1. mistakes,
blood pressure, response whether fluid ; intensive
reach ICU, 200+ patients kedney problem sepsis
improve patients die in hostipal ;
cardiac ; function rest; CPR ; uncertainty how 1. long stay in ICU;
intensive care; irds: prove the hypothesis

第一次参加workshop，说白了其实就是可以去蹭饭（可是傻傻的我吃完了不好意思再去拿，去了7-11多吃了个三明治），到了下午果然饿扁了，tea time又没去，到了晚饭因为要组队的缘故也没吃多少就开始小组讨论去了。。。

¶Day 2

在team briefing以后，开始进入实验环境，这次的数据主要有三种，分别是开源的MIMIC、EICU以及首次开放的NUH，在一番探索以后我们team leader选择了格式比较完整的MIMIC数据。

关于MIMIC的数据可以参考这个如果基于研究为目的也是可以申请的，前提是去注册完成一门关于数据安全的课程，填写申请单后一般一周会给出结果开放相关权限。

整个上午则在tutorial和查表中度过，去了解这个db里面各种表格的schema，下午开始确定输入的参数指标和预期输出变量，寻找到各种相关指标的代号以后开始从各个表里面提取数据。因为服务器是在远程又操作不当各种死机，慢慢学乖了掌握在web jupyter界面用python或者console模式访问db，或者直接通过本机ssh进行查询建表操作。

到了晚上每个人的大致分工则是负责每个表相应字段的提取，这期间犯了一个错误导致出现了5 million的冗余数据，百思不得其解如何进行去重转换，没啥头绪十点大楼要关闭准备回家，大叔开始赶工，从各种指标入手进行dump库提取，从深夜的对话终于把大部分表格重新理解了一遍，而对大叔做的那些因为没能看到code从概念上去讲完全不够理解他们交流的术语。

¶Day 3

学妹夜里把前期数据merge以后，早晨匆匆赶到lab继续测试我的那部分数据，这次每个patient的数量正常，却还是没有合并同一个人在最初的一次icu进行的各种lab test，捣鼓了一个上午终于找到优化方案从subject_id和itemid进行分组排序，修改格式导表完成，距离提交slide还有一个小时，而紧接着大叔加入了这些新增指标后也把ml的模型写好了，在模型的画图上折腾了一番终于整时在15:00提交slide。

这才有机会下楼吃点东西，紧接着每个小组的lead进行展示，给我感触较深的就是问答环节的research question很细致，如果你忽略了一些细节只能勉强回答maybe，hypnosis怎样以及future work可以增加这些之类的，而不能给出strong evidence来证明这样做的意义不一定有效。还有一个关于presentation的用时，每个队伍规定只有5分钟发言时间，否则评委们会用掌声将你打断，惊奇发现要是厚着脸皮拖个30秒～1分钟也是可行的，只要你的话题足够吸引他们。

看了其他组的研究展示以后发现我们在Cohort selection没有考虑年龄性别的抽取,这对结果产生了一定的影响，而亮点或许在于learning model的实现上，只有一些小组用了相似的模型，如果对各种算法进行测试并且修正的话，结果的可信度才会进一步增加。

当然外行的我只是看热闹，不得不佩服有些group只有两三个人(两个Dr)，却完全可以打败一些大组，而人多的大组，如果在programming和healthcare其中之一很熟练的话，也是完全可以发挥整个团队的作用，所以冠军🏆队伍有一个同院的印度小哥着实让我惊为天人。还有一点就是第二名的team lead选择让一位熟悉整个流程的女生来表达，让我看到的差距是起点和终点之间的一个全程马拉松和一个越野百公里。

¶后记

跑过很多马拉松，却第一次参加有趣的datathon，有些纯粹酱油性质，一点点地刷新着认知，希望能多一些跨领域的交流和学习，大大基础准备好下一次的hackthon。

reference:

datathon