2018课程
本课程注重编程训练、数学建模、可计算思维。本课程致力于介绍python编程和数据科学基础知识。
- 时间:周三 第5-6节 逸夫楼C-405 1-17周
- 教师:王成军
王成军,南京大学新闻传播学院副教授,奥美数据科学实验室主任,南京大学计算传播学实验中心副主任。
| 序号 | 日期 | 时间 | 内容 | 课时数量 |
|---|---|---|---|---|
| 1 | 9月5日 | 14:00-16:00 | 引言:数据科学简介/课程简介 | 2学时 |
| 2 | 9月12日 | 14:00-16:00 | Python基础: Introduction、How to Run Python Code、Basic Python Syntax | 2学时 |
| 3 | 9月19日 | 14:00-16:00 | Python基础: Variables & Operators | 2学时 |
| 4 | 9月26日 | 14:00-16:00 | Python基础: Built-In Scalar Types & Data Structures | 2学时 |
| 5 | 10月3日 | 14:00-16:00 | 0学时 | |
| 6 | 10月10日 | 14:00-16:00 | Python基础: Control Flow Statements、Defining Functions、Errors and Exceptions | 2学时 |
| 7 | 10月17日 | 14:00-16:00 | Python基础: Iterators & List Comprehensions | 2学时 |
| 8 | 10月24日 | 14:00-16:00 | Python基础: Generators and Generator Expressions、Modules and Packages、Strings and Regular Expressions | 2学时 |
| 9 | 10月31日 | 14:00-16:00 | 统计基础:描述数据、概率 | 2学时 |
| 10 | 11月7日 | 14:00-16:00 | 统计基础:假设检验、梯度递减 | 0学时 |
| 11 | 11月14日 | 14:00-16:00 | 统计基础:回归分析 | 2学时 |
| 12 | 11月21日 | 14:00-16:00 | 数据科学: Introduction to NumPy | 2学时 |
| 13 | 11月28日 | 14:00-16:00 | 数据科学:Data Manipulation with Pandas | 2学时 |
| 14 | 12月5日 | 14:00-16:00 | 数据科学: Visualization with Matplotlib | 2学时 |
| 15 | 12月12日 | 14:00-16:00 | 数据科学:Machine Learning | 2学时 |
| 16 | 12月19日 | 14:00-16:00 | 数据科学:Machine Learning | 2学时 |
| 17 | 12月26日 | 14:00-16:00 | 数据科学:Machine Learning | 2学时 |
Mybinder.org turns a GitHub repo into a collection of interactive notebooks. Have a repository full of Jupyter notebooks? With Binder, open those notebooks in an executable environment, making your code immediately reproducible by anyone, anywhere.
本课程鼓励采用公开的竞赛数据作为研究项目。现有数据竞赛平台很多,包括Kaggle、DataFoundation、阿里云天池大赛、DC竞赛、BienData等。
- 分析《权力的游戏》中的核心人物及其演变
A Network analysis of Game of Thrones: Analyze the network of characters in Game of Thrones and how it changes over the course of the books. https://www.datacamp.com/projects/76
Get the Data
- Winter is Coming. Let's load the dataset ASAP
- Time for some Network of Thrones
- Populate the network with the DataFrame
- Finding the most important character in Game of Thrones
- Evolution of importance of characters over the books
- What's up with Stannis Baratheon?
- What does the Google PageRank algorithm tell us about Game of Thrones?
- Correlation between different measures
- Conclusion
- Kaggle比赛数据分析 《众包模式下的数据科学编程比赛》
- https://www.kaggle.com/kaggle/meta-kaggle/data
- https://www.kaggle.com/canggih/voted-kaggle-dataset
- IMDB电影数据 《让电影成功的元素:基于IMDB数据的分析》
- https://www.kaggle.com/tmdb/tmdb-movie-metadata
- https://www.kaggle.com/PromptCloudHQ/imdb-data/data
- Wikileaks Afghanistan Data Analysis and Visualization https://github.com/chengjun/WikileaksAfghanistanDataAnalysis
- Olympic Data Analysis https://github.com/data-journalism/olympic
- Whirlwind Tour Of Python https://jakevdp.github.io/WhirlwindTourOfPython/
- Python Data Science Handbook https://jakevdp.github.io/PythonDataScienceHandbook/
- Data Science from Scratch https://github.com/joelgrus/data-science-from-scratch
- Python for Data Analysis by Wes McKinney, published by O'Reilly Media https://github.com/data-science-lab/pydata-book
- Easley, David and Jon Kleinberg. 2011.Networks, Crowds, and Markets: Reasoning About a Highly Connected World. New York: Cambridge University. 大卫・伊斯利, & 乔恩・克莱因伯格. (2011). 网络、群体与市场:揭示高度互联世界的行为原理与效应机制. 清华大学出版社.
- Jure Leskovec, Anand Rajaraman, Jeffrey David Ullman.2011. Mining massive datasets (2nd)http://www.mmds.org/
- 朝乐门 (2017)数据科学理论与实践.清华大学出版社
- 朝乐门 (2016)数据科学.清华大学出版社
- 复旦大学新媒体硕士项目《计算新闻传播学》课程 https://github.com/computational-class/cjc
- 南京大学《数据新闻》2017课程 https://github.com/data-journalism/dj2017
- 用Python玩转数据_南京大学_中国大学MOOC(慕课) http://www.icourse163.org/course/nju-1001571005