抓取的TripAdvisor评论分析

2021年12月14日

介绍

好的评论对今天的任何生意都很重要,尤其是对城市景点和餐饮. 潜在客户依赖于先前访问者提供的信息.  尽管旅游业已经有了一种通过收入或门票销售来衡量生意的方法, 一种潜在的尚未开发的方法可以衡量一个景点的价值和提高销售可能在于评论家的话. 文字可以对未来的游客产生巨大的影响——无论是在数量上还是整体情绪上. 因此, 对城市顶级景点评论的分析可以揭示人们喜欢什么和他们想要什么. 基于这种洞察力,业主可以响应大众的需求,增加收入.

方法

使数据集易于管理, 12月12日,400篇评论被删除, 从4个主要城市的5大景点中选出2020年的最佳景点:波士顿, 芝加哥, 洛杉矶, 和纽约市. 景点名称, 城市, 评论发布日期, 吸引访问日期, 用户评论的数量, 用户有用投票的数量, 审查有益投票的数量, 评级, 评论, 评论标题, 用户名, 用户位置是用Scrapy和硒的组合来抓取的. 仅靠Scrapy是不够的,因为在抓取的时候,它无法恰当地扩展TripAdvisor的文本框. 总共有38,294行和12列. 图1中显示了一个包含12个特性的示例行.

图1: 原12列的示例

在纽约刮景点的时候有一个小问题, 哪一个最有可能是由于当时的计算机内存容量. 9/11纪念和中央公园的评论被再次分别删除,并使用熊猫添加到DataFrame中.

之前的分析, 访问日期的空值被填充为发布日期, 功能的数量增加到16个,包括用户位置的所有可能字段. 如果用户的位置包含一个州,则使用缩写作为替换. 在具体分析波士顿市的景点之前, 因为没有足够的1星评价,所以1星到3星的评级被归为更广泛的“差”评级, 2, 或者3颗星来做分析.

分析

分析主要使用基本自然语言处理(NLP)和情感分析. 单个单词计数, 一对单词(双音节), 为波士顿搜集的所有评论都用了一个三词组合(trigram). 单个单词通常包含与吸引力相关的名字或单词, 但bigrams显示了一种视觉上有趣的趋势(图1),在评分较低的评论中,一些特定的词语组合出现的频率更高.

这种模式在单词配对中最为明显:“gift”和“shop”.除了一篇评分不高的评论外,所有包含“礼物”和“商店”配对词的评论都是针对波士顿倾茶派对船只的 & 博物馆(BTPSM)如图2所示.

图1: 按等级计数

图2: 字数配对的“礼物”和“商店”在差的评论

波士顿倾茶事件船只 & 博物馆礼品店分析

考虑到词语组合在评论中经常被提到,给了很差的评分, 预期可能是礼品店需要很大的改进. 然而, 仔细检查实际的评论表明,礼品店实际上并不是问题所在,而是BTPSM所能提供的最好的礼品店. 下面的图2显示了一个示例.

图2: DavvaW对BTPSM不良评论的评论

尽管图3显示对BTPSM的负面评论并没有那么消极, 图2中的评论表明,吸引点本身并不好,礼品店是吸引点中唯一值得用户使用的部分. 事实上, 如果仔细阅读那些对BTPSM评价不佳的评论,就会发现人们对该景点的总体看法倾向于负面. 情感分析无法区分主要吸引力的负面观点和礼品店的正面观点, 这强化了评级的重要性,并鼓励玩家梳理评论. 在芬威公园(Fenway Park)的一篇评价很差的评论中,包含了配对的“礼物”和“商店”,这位评论者购买了升级版的旅行,允许他们在实地考察, 但现场的活动似乎有限(图3).

图3: 对BTPSM的负面评价

图3: 以“礼品”和“购物”组合进行评论,给予芬威球场较差的评价

芬威公园旅游分析

仔细观察芬威球场的评论似乎表明,对比赛的评论往往比对巡回赛的评论要好. 当深入研究那些对景点评价很差,并提到配对词“旅游”和“导游”的评论时,这一点就更明显了(图4)。.  大多数评论提到了导游的一些问题,包括导游缺乏意识或培训. 其他评论则提到,游客在游览期间缺乏对公园的实质性体验(比如去休息区或参观记者席). 有时,会有人抱怨缺乏计划和行程安排(图4).

图4: 包含“导览”和“导览”的评论的极性

图4: 与“游览”和“导游”配对进行评论,给予芬威球场较差的评分

值得注意的一个有趣观察是“浪费”、“金钱”和“时间”的三字母组合.这个特殊的三字组合只出现在芬威公园和BTPSM的三篇评论中, 尽管这可能反映出这两个吸引人的地方可能需要改变.

景点可能的改善

BTPSM可能的改进, 尽管它是一个赚钱的吸引力, 会改善时间限制和日程安排吗. 评论中的一些抱怨提到了无法看到博物馆里所有的文物. 对于那些带孩子和没带孩子的游客来说,时间是令人震惊的,但这需要演员对茶党历史有足够的了解,以便让成年人了解景点背后的历史.

在芬威, 让游客看到球场和公园隐藏的一面,有助于改善游客对公园的看法,因为旅游似乎比真正的棒球比赛更少的体验. 增加游览的一部分,允许游客参观休息区, 更衣室, 或过去的名人堂成员和奖杯将是一个很好的补充. 在旅行中融入球赛体验的其他可能的方式,可以是购买旅行票后购买红袜队(Red Sox)比赛的折扣票. 让球员在巡演期间进行练习或热身,甚至让管理层的人为旅行团做演讲,都可以帮助提高体验. 对导游进行适当的培训或为导游提供笔记会对导游的体验有更大的帮助.

进一步分析的可能途径

在未来, 分析评论如何随时间变化的模式,并寻找重复的模式或新的模式可以帮助吸引增加收益. 也, 分析这些年来对评论的可能回应,可以表明这些景点是否采取了适当的措施来增加收入. 即使吸引力不关注评论, 如果再加上基于评论和评级的有针对性的修复,注意趋势会更有帮助.

关于作者

西奥多。

西奥多是个多面手,也是多虑的专家. 他曾在医疗保健、医疗保健管理和金融领域工作. 志愿参加过国外的医疗任务, 管理在家里建造一个新的初级保健诊所, 导航...
View all posts by 西奥多。 >

相关文章

留下你的评论

没有发现评论.

按类别查看帖子


我们最近的热门文章


按标签查看帖子

# python # trainwithnycdsa 2019 airbnb 亚历克斯Baransky 校友 校友面试 校友的评论 校友关注 校友的故事 校友 API 应用程序 艺术家 aws 美丽的汤 最好的沙巴体育安卓版下载营 2019年最佳数据科学 最佳数据科学沙巴体育安卓版下载营 2020年最佳数据科学沙巴体育安卓版下载营 最好的排名 大数据 书推出 沙巴体育安卓版下载营 沙巴体育安卓版下载营的校友 沙巴体育安卓版下载营准备 加州 癌症研究 顶石 职业生涯 职业生涯的一天 citibike 聚类 编码 课程演示 课程报告 D3.js data 数据分析师 数据科学 沙巴体育正规网址 数据科学沙巴体育安卓版下载营 数据科学工作 数据科学评论 数据科学家 数据科学家的工作 数据可视化 深度学习 演示日 折扣 dplyr 雇主网络 工程特性 金融 财务数据的科学 “绿带运动” 获得工作 ggplot2 googleVis Hadoop 希格斯玻色子 招聘 招聘合作伙伴活动 招聘合作伙伴 行业专家 老师的博客 教师面试 工作 就业安置 工作 Jon Krohn 摩根大通(JP Morgan Chase) Kaggle Kickstarter 套索回归 导致数据Scienctist 导致数据科学家 传单 线性回归 逻辑回归 机器学习 地图 matplotlib 医学研究 满足团队 meetup 网络 神经网络 神经网络 新课程 nlp 纽约 纽约数据科学 沙巴体育安卓版下载 纽约市公开的数据 纽约DSA 纽约DSA校友 在线 在线沙巴体育安卓版下载营 在线培训 开放数据 画家 熊猫 兼职 投资发展 预测 Prework 编程 普华永道 python Python数据分析 python机器学习 python scrapy python web抓取 python webscraping Python车间 R R数据分析 R语言 R编程 R闪亮的 r工作室 R可视化 R车间 R-bloggers 随机森林 排名 建议 推荐系统 回归 远程 远程数据科学沙巴体育安卓版下载营 Scrapy scrapy可视化 seaborn 情绪分析 闪亮的 闪亮的仪表板 火花 特殊的 特别的夏天 体育 统计数据 流媒体 学生面试 学生展示 支持向量机 Switchup 团队 TensorFlow 证明 tf-idf 顶级数据科学沙巴体育安卓版下载营 推特 可视化 网页抓取 周末的课程 会发生什么 词云 word2vec XGBoost yelp