大数据分析软件 2022-09-05
本科, 中国传媒大学2021级网络与新媒体、2021数据科学与大数据技术, 2022
A list of all the posts and pages found on the site. For you robots out there is an XML version available for digesting as well.
本科, 中国传媒大学2021级网络与新媒体、2021数据科学与大数据技术, 2022
本科一年级下, 数据科学与大数据技术、计算广告专业, 2022
传媒大数据专业,大三上, 掌握基本的新闻文本数据分析方法, 2021
传媒大数据专业,大三上, 掌握基本的贝叶斯建模和分析方法, 2022
传媒大数据专业,大二上, 掌握基本的社会媒体挖掘技术和分析方法, 2022
R语言入门者, 了解基本的数理统计方法, 2021
传媒大数据专业,大四上, 掌握基本的计算广告的技术和分析方法, 2022
本科生课程, 智能媒体、计算广告等相关专业, 2025
About me
本讲围绕数据科学的发展脉络与研究问题展开,梳理统计学、数据挖掘、机器学习、大数据到数据科学的演进,说明数据科学如何围绕现实需求完成数据收集、清洗、建模、解释与决策支持。
本讲围绕支持向量机、朴素贝叶斯与推荐算法展开,介绍最大间隔分类器、软间隔、核函数、支持向量回归、贝叶斯分类器、条件独立假设,以及协同过滤、关联规则、内容推荐和深度学习推荐等方法。
本讲整理文本挖掘与社交网络分析两部分内容,介绍文本数据获取、分词、词袋模型、TF-IDF、特征选择、文本分类、文本聚类、LDA主题模型,以及网络基本概念、中心性、凝聚性、随机图模型、块模型和关联网络推断。
本讲介绍数据科学的基本方法体系,围绕监督学习、无监督学习、半监督学习、强化学习、统计学习与机器学习的关系展开,并说明 R 与 Python 在数据分析实践中的作用。
本讲围绕统计学习的基本框架与模型评估展开,介绍模型、策略、算法三要素,训练误差与测试误差、过拟合、正则化、交叉验证、泛化能力,以及生成模型与判别模型的区别。
本讲围绕数据处理与清洗展开,介绍结构化与非结构化数据、数据类型、缺失值处理、噪声与异常值识别、数据变换和标准化等内容,说明高质量数据是后续分析建模的基础。
本讲围绕数据可视化展开,介绍图形在探索、发现、验证和表达中的作用,讲解基础作图参数、常见图形类型、图形选择原则,以及 ggplot2 的基本思想和应用提醒。
本讲围绕回归分析展开,介绍一元与多元线性回归的建模思想、总体回归函数、最小二乘估计、模型假设、拟合优度、显著性检验、预测方法,以及 R 中的回归实现。
本讲围绕分类方法展开,介绍二元分类问题、线性概率模型、Probit 与 Logistic 模型、判别分析、朴素贝叶斯、LDA、QDA,以及混淆矩阵、精确率、召回率、ROC 和 AUC 等评价指标。
本讲围绕决策树与集成学习展开,介绍决策树的基本思想、分类树和回归树,以及 Bagging、随机森林、Boosting、GBDT、XGBoost 等组合学习方法。
本讲围绕数据分析报告写作展开,介绍优秀数据分析报告的问题意识、数据依据、方法选择、结果解释、结论建议、图表规范与课堂作业写作要求。
国赛答辩通常不是简单复述报告,而是对研究设计、数据质量、分析逻辑和现场表达的一次综合检验。评委更关注团队是否真正理解自己的研究对象,是否能够解释关键方法,是否能把结论落到可执行建议上。
现场答辩是市调大赛中最能体现团队综合能力的环节。报告写得好只是基础,真正到了现场,还需要把研究逻辑讲清楚,把关键证据讲准确,把评委问题接得住。
国赛答辩中,建模部分经常是评委重点追问的对象。很多报告的问题不在于没有模型,而在于模型和研究问题之间的关系不够清楚,导致答辩时很难解释。
结论和建议是市调报告最容易被忽视、也最容易拉开差距的部分。很多团队前面做了大量数据分析,最后却用几句泛泛建议收尾,导致报告的应用价值没有充分呈现。
现场答辩经常决定一份市调报告能否被充分理解。很多团队报告内容并不差,但现场表达没有突出重点,导致评委很难在有限时间内抓住研究价值。
朋友圈是一种典型的熟人社交场景,既包含信息传播,也包含关系维系。对朋友圈数据进行分析,可以帮助我们理解用户如何展示自我、如何互动,以及哪些内容更容易获得反馈。
市调报告落选往往不是因为某一个环节完全失败,而是多个小问题叠加后削弱了整体说服力。常见问题集中在选题、抽样、问卷、分析和建议五个方面。
团队围绕样本融合问题开展研究,并在《统计研究》发表论文,主题为基于 BP 神经网络的伪设计样本融合研究。该研究关注的是在复杂数据环境下,如何更好地整合不同来源样本,提高统计推断和数据分析的质量。
分析 2024 年市调大赛获奖作品,可以看到选题更加贴近现实场景,方法使用也更加多样。优秀作品通常不是简单完成一份问卷,而是围绕真实问题构建了完整的调查和分析链条。
回看 2023 年市调大赛获奖作品,可以发现许多团队已经开始把传统调查方法与数据分析工具结合起来。相比只做描述统计的报告,优秀作品更强调问题导向和证据链条。
2022 年市调大赛获奖作品为后续参赛团队提供了很多参考。它们的共同特点是选题具体、数据来源清楚、分析过程完整,并且能够从调查结果中提出较有针对性的建议。
市调大赛中的数据处理不是技术附属环节,而是报告可信度的基础。数据处理做得是否规范,直接影响描述统计、模型分析和最终结论。
AI 助手可以显著提升市调大赛的准备效率,但它不能替代团队对研究问题和数据质量的判断。更合适的方式,是把 AI 当作启发、校对和辅助分析工具。
一份好的市场调查报告,应当让读者清楚看到研究问题、调查过程、数据分析和行动建议之间的关系。写报告不是把所有分析结果堆在一起,而是围绕主线组织证据。
很多市调报告的问题出现在最后一公里:数据分析做了不少,但结论和建议没有写对。评委看完之后,可能不知道团队到底发现了什么,也不知道这些发现能带来什么行动。
国赛答辩现场最容易暴露的问题,是团队只熟悉自己的 PPT,却没有真正掌握报告背后的研究逻辑。答辩准备应当从报告本身出发,而不是只练习背稿。
Short description of portfolio item number 1
Short description of portfolio item number 2
[1] R语言实战(第2版),王小宁,刘撷芯,黄俊文,人民邮电出版社,2016.05
[1] Jiang Y, Hu S, Wang X, et al. VDSAgents: A PCS‐Guided Multi‐Agent System for Veridical Data Science Automation[J]. Stat, 2026, 15(1): e70126.
[1] 传媒数据学,柴剑平,王妍,倪业鹏,王小宁,高等教育出版社,2021.07
R语言入门者, 了解基本的数理统计方法, 2021
本书是与图灵教育合作的一个书籍,预计2023年9月份出版,具体更新内容详见链接:https://xiangyunhuang.github.io/data-analysis-in-action/
传媒大数据专业,大三上, 掌握基本的新闻文本数据分析方法, 2021
课前推荐材料:
本科一年级下, 数据科学与大数据技术、计算广告专业, 2022
传媒大数据专业,大三上, 掌握基本的贝叶斯建模和分析方法, 2022
课前阅读材料:贝叶斯的博弈 数学、思维与人工智能,人民邮电出版社,2021
传媒大数据专业,大二上, 掌握基本的社会媒体挖掘技术和分析方法, 2022
课前推荐阅读材料:
本科, 中国传媒大学2021级网络与新媒体、2021数据科学与大数据技术, 2022
本课程致力于学习Python软件的数据分析方法,从海量的网络信息中获取与自己学习领域相关的信息,并且利用大数据、自然语言处理相关技术加工处理所获取的信息,从而用于自己的专业学习领域。该课程可以锻炼学生的动手能力,培养基本的网络大数据获取与处理方面的技术。通过该课程的学习,可以学习并掌握开的爬虫软件,从网络上获取并处理自己需要的信息;学习并掌握开源分词、TF-IDF、N-gram和word2Vec等文本分析模型(或软件系统),分析并处理所获取的信息。
传媒大数据专业,大四上, 掌握基本的计算广告的技术和分析方法, 2022
课前推荐阅读材料:
本科生课程, 智能媒体、计算广告等相关专业, 2025
TraeAI是一门前沿的人工智能课程,专注于大语言模型、生成式AI和智能系统的原理与应用。本课程旨在培养学生掌握AI技术的核心概念、最新进展和实践技能,能够将AI技术应用于传媒、广告、数据分析等领域。
本讲围绕数据科学的发展脉络与研究问题展开,梳理统计学、数据挖掘、机器学习、大数据到数据科学的演进,说明数据科学如何围绕现实需求完成数据收集、清洗、建模、解释与决策支持。
本讲介绍数据科学的基本方法体系,围绕监督学习、无监督学习、半监督学习、强化学习、统计学习与机器学习的关系展开,并说明 R 与 Python 在数据分析实践中的作用。
本讲围绕统计学习的基本框架与模型评估展开,介绍模型、策略、算法三要素,训练误差与测试误差、过拟合、正则化、交叉验证、泛化能力,以及生成模型与判别模型的区别。
本讲围绕数据处理与清洗展开,介绍结构化与非结构化数据、数据类型、缺失值处理、噪声与异常值识别、数据变换和标准化等内容,说明高质量数据是后续分析建模的基础。
本讲围绕数据可视化展开,介绍图形在探索、发现、验证和表达中的作用,讲解基础作图参数、常见图形类型、图形选择原则,以及 ggplot2 的基本思想和应用提醒。
本讲围绕回归分析展开,介绍一元与多元线性回归的建模思想、总体回归函数、最小二乘估计、模型假设、拟合优度、显著性检验、预测方法,以及 R 中的回归实现。
本讲围绕分类方法展开,介绍二元分类问题、线性概率模型、Probit 与 Logistic 模型、判别分析、朴素贝叶斯、LDA、QDA,以及混淆矩阵、精确率、召回率、ROC 和 AUC 等评价指标。
本讲围绕决策树与集成学习展开,介绍决策树的基本思想、分类树和回归树,以及 Bagging、随机森林、Boosting、GBDT、XGBoost 等组合学习方法。
本讲围绕数据分析报告写作展开,介绍优秀数据分析报告的问题意识、数据依据、方法选择、结果解释、结论建议、图表规范与课堂作业写作要求。
本讲围绕支持向量机、朴素贝叶斯与推荐算法展开,介绍最大间隔分类器、软间隔、核函数、支持向量回归、贝叶斯分类器、条件独立假设,以及协同过滤、关联规则、内容推荐和深度学习推荐等方法。
本讲整理文本挖掘与社交网络分析两部分内容,介绍文本数据获取、分词、词袋模型、TF-IDF、特征选择、文本分类、文本聚类、LDA主题模型,以及网络基本概念、中心性、凝聚性、随机图模型、块模型和关联网络推断。