丝芙兰数据集:成分分析

2020年2月22日发布
我在这里展示的技能可以通过服用 数据科学与机器学习沙巴体育安卓版下载营 沙巴体育安卓版下载.

2017年,参议员 Chuck Schumer (纽约州)开始争取食品和药物管理局(FDA)将其移除 1,4-dioxane 从消费品, 理由是对长岛供水中已知致癌物含量的担忧. 1,4-二氧六环从未被列为产品的成分, 相反,它通常是其它物质的乙基化合成的副产物, desired, substances. 

虽然这种努力令人钦佩, 值得注意的是,实际上美国允许在化妆品和消费品中使用很多化学物质,而其他许多国家要么限制使用,要么完全禁止使用. 这不仅影响到化妆品, 但其他消费品,从家用清洁剂到记号笔. 使用“香味”作为一种成分可以让公司在我们的产品中隐藏各种各样的化学物质, 没有列出任何成分, 打着知识产权的幌子.

随着消费者意识的增强, 人们对“清洁美容”产品的需求也是如此:不含一些更常见的“有害”化学物质,如十二烷基硫酸钠的产品, 月桂醚硫酸钠, phthalates, parabens, and fragrance. However, 这些产品如何真正经得起欧盟(EU)禁止成分清单的考验?? 这些产品如何符合普遍的“清洁”美容标准? 花更多的钱真的能买到“更干净”的产品吗? 食材少就意味着“更好”吗? 我搜了丝芙兰(Sephora)来寻找答案.

Methodology

 

抓取:丝芙兰的网站被抓取使用 硒WebDriver 通过一些优化 Scrapy. 完整的代码和细节可以找到 here. 上面显示了一个示例产品页面屏幕截图. 每种产品, the name, price, size (in oz, mL, or both), average rating, “爱”的次数, 还有一些评论被删掉了. In addition, 分类也从左上角刮掉:是不是香味, makeup, skincare, men's, or bath & 主体及其任何子分类.

在上面的例子中,分类是“头发”,然后是“发型” & “护理”然后是“发油”. Also, 在选项卡产品信息部分, 我刮掉了“详细信息”选项卡, 还有“配料”标签. 配料标签偶尔会列出某些“高亮”的配料, 哪些会列在主要成分上面. 在上面的屏幕截图中, 发油含有双氨基丙基二甘醇二马来酸酯, 葡萄籽油, 发酵绿茶油.

可以在这里找到欧盟禁止使用的化妆品成分清单 here.*我尽力把它解析成实体名称, 包括替代名称, 拿一份成分表和丝芙兰的产品比较. However, 有些物质被列为化合物类别(例如,它会列出一种成分“及其盐类”), 而且配料通常有许多不同的名称, 所以我绝对没有列出一份全面的违禁物质清单.

被禁止的成分

另一个需要考虑的警告是,许多成分是被禁止的,因为它们来自哪里:石油和煤炭副产品经常被苯和1等致癌物污染,3-butadiene, 所以石油中的烷烃是被禁止的, 但椰子烷是好的.

“常见”有害成分清单来自丝芙兰自己的“清洁丝芙兰”产品成分清单上的声明.*

成分分析

从丝芙兰召回的6008件产品中,有5427件含有成分表. 在有成分表的产品中,有4474种(85.3%)含有至少一种成分在其中一个列表中,3973 (75.8%)含有至少一种可含有1,4-二恶烷的乙基化成分. 上图是欧盟禁止成分清单(左)和产品中常见的“有害”成分清单(右)中最常见的十大成分**的计数。.

(这里,H3CC代表 羟基异己基3-环己烯甲醛.)在5427个产品中,有1123个(21.(4%),其中含有欧盟名单上的一些成分 coumarin 具有最高的患病率. 香豆素被用作香料成分,因为它闻起来像香草, 对肾脏和肝脏也有毒. H3CC也是一种芳香化合物和刺激物. 石蜡、凡士林、矿物油、丁烷和异丁烷都是石油的副产品. Styrene, acrylonitrile, and acrylamide 都是致癌物吗.

从右边的图中,我们看到4456 (84.9%)的产品含有“清洁丝芙兰”清单上的一些成分. 最常见的是 phenoxyethanol, 哪个国家对其健康影响的数据有限,报告相互矛盾, 但通常被认为是一种刺激物和神经系统毒物.

EU restricts

欧盟将其使用限制在1%以下. 第二常见的是香味, 上面提到的不是一种真正的成分而是一堆成分, 可能含有致癌芳香族化合物或邻苯二甲酸盐等内分泌干扰物. 第三种最常见的是聚乙二醇,它被1,4-二恶烷污染.  There's BHT, 一些其他的丙烯酸化合物, and acrylamide, 哪些都是致癌物或潜在致癌物. 滑石粉经常被石棉污染,对羟基苯甲酸酯是内分泌干扰物.

如果你避免所有明显有香味的物品,比如香水和古龙水,会怎么样? 香味会比其他的少吗? 下面是这些非香味产品的数量. 我们看到香豆素的含量减半了, 虽然香味的比率明显较低, 这一比例仍为40%.

我的一个问题是是否要在一个产品上花更多的钱, 或者更具体地说, 选择一般更贵的品牌, 会增加你买到“干净”产品的可能性吗. 丝芙兰拥有355个品牌, 所以我把这部分的分析限制在至少有10种产品的品牌上,并列出了成分、价格和尺寸.

Price/oz

因此,可以直接比较每个品牌每盎司的中位数价格, 以及该品牌产品中含有“不良”成分的百分比. 我还把数据分成了不同的类别:头发、化妆品和护肤品. However, as seen below, 价格与获得“清洁”产品的可能性之间没有相关性. 然而,“可食用美人”可能真的是可食用的!

Product Trends

在检查配料表时, 重要的是不要忘记在页面顶部列出的“高亮”成分. 其中很多都是商标成分或特定品牌, 但以下是最受欢迎的十大榜单:

有趣的是,透明质酸和维生素E都被认为是抗衰老的成分, 它们是最常见的两种主要成分. 这让我想知道这些产品是如何营销的, 所以我决定对产品的“细节”标签进行N-grams分析. 下面是丝芙兰详细信息选项卡中最常见的三个词块的结果. 

1956年的护肤产品, 目前最常见的是“细纹和皱纹”。, 有一半的产品, 其次是“暗沉、质地不均匀”. 这清楚地描绘了渴望拥有更年轻、更明亮的皮肤. 在那之后,有皮肤类型的描述,并强调成分的质量. 这很有趣,因为85%的产品似乎有一些可疑的成分质量.

下面是男士护肤品的三联图. 只有68种产品. 虽然“细纹和皱纹”确实会出现,但只有大约25%的产品会出现. 更受欢迎的是强调成分的质量和皮肤类型.

Conclusions

我们可以看到,美国存在一些成分问题, 我们产品中的致癌物比我个人所能接受的还要多. 重要的是要意识到这些成分中的大多数都是不可生物降解的, 因此,当它们被冲进下水道时,它们不会简单地消失. 即使你没有皮肤过敏,常见的刺激物也会影响那些有皮肤过敏的人.

我们也看到了社会压力对人们保持年轻容颜的影响,尤其是对女性. 这已经是一个有据可查的现象, 但我们也可以看到这种压力导致人们暴露在不完全安全的化学物质中.

*化学列表:

欧盟的清单相当全面, 包括许多我们可能永远不会考虑在化妆品中发现的成分, like narcotics. 它包括常见的过敏原、刺激物、致癌物、诱变物、致畸物等放射性物质、内分泌干扰物和任何种类的人体细胞. 它还包括可能被致癌物污染的物质,如石油副产品.

每种物质, 上面列出了“化学名称”,通常包含化合物的类别, 比如“铬(IV)化合物”,不幸的是,这个词可能很模糊. 还有“已知成分”的列表,以帮助找到这些产品的一些名称. 我将这两列解析为一个长列表. (铬化合物在丝芙兰的绿色颜料中很常见, 但它们恰好是铬(III)化合物, 因此不被欧盟禁止.)

Ingredients

“清洁丝芙兰”清单中包括邻苯二甲酸盐, parabens, formaldehyde, formaldehyde-producing-substances, mineral oil, 视黄醇棕榈酸酯, oxybenzone, coal tar, hydroquinone, triclosan, triclocarbon, 甲基丙烯酸乙酯, 甲基丙烯酸丁酯, 甲基丙烯酸羟丙酯, tetrahydrofurfuryl trimethacrylate, aluminum salt, 麝香(来自动物), benzophenone, butoxyethanol, carbon black, lead, lead acetate, 甲基纤维素溶剂, methoxyethanol, methylchloroisothiazolinone,

methylisothiazolinone, mercury, thimerisol, resorcinol, talc, toluene, 叔丁基羟基茴香醚, BHA, 丁羟甲苯, BHT, ethanolamine, 乙醇胺DEA, 乙醇胺茶, 乙醇胺是, 乙醇胺埃塔, petrolatum, paraffin, phenoxyethanol, 聚丙烯酰胺, acrylamide, bromostyrene, deastyrene, acrylates, 二乙烯基苯共聚物, 钠苯乙烯, styrene oxide, and styrene. 在这个列表中我还添加了聚乙二醇(peg), 因为它们合成的常见副产物是1,4-dioxane.

**在丝芙兰产品中发现的其他被欧盟禁止的成分是 phytonadione, 二甘醇, phosphorus, hydrocarbons, 粘酸, sodium borate, 无花果提取物; 柑桔皮提取物; 万寿菊花提取物; 柑桔叶油; 柑橘皮油, 偏二氯乙烯, DEA-oleth-3磷酸, avobenzone, phenol, and formic acid. 

在丝芙兰产品中发现的其他成分是 oxybenzone, 视黄醇棕榈酸酯, 凡士林油、丁基羟基茴香醚 styrene, mineral oil, benzophenone, 聚丙烯酰胺, phthalate, methylisothiazolinonem, resorcinol, methylchloroisothiazolinone, ethanolamine, triclosan, carbon black, hydroquinone, musk, toluene, formaldehyde, 钠苯乙烯, 甲基丙烯酸羟丙酯,和 甲基丙烯酸丁酯.

About Author

詹妮弗知更鸟

我是物理化学家出身,我的博士.D. 包括使用Python分析100+ Tb的数据集. 我爱上了数据的世界,并选择通过获得纽约市沙巴体育正规网址的认证来追求数据科学,...
View all posts by 詹妮弗知更鸟 >

请留下评论

meritking May 27, 2023
丝芙兰数据集:成分分析 http://www.infotecheurope.com/live-from-legalweek-nyc-russian-bots-blockchain-and-those-data-privacy-blues/

按类别查看帖子


我们最近的热门帖子


按标签查看文章

#python # trainwithnycdsa 2019 2020 Revenue 3-points agriculture air quality airbnb airline alcohol Alex Baransky algorithm alumni 校友面试 Alumni Reviews 校友关注 alumni story Alumnus ames dataset 艾姆斯住房数据集 apartment rent API Application artist aws bank loans beautiful soup Best Bootcamp 2019年最佳数据科学 最佳数据科学沙巴体育安卓版下载营 2020年最佳数据科学沙巴体育安卓版下载营 Best Ranked Big Data Book Launch Book-Signing bootcamp 沙巴体育安卓版下载营的校友 Bootcamp Prep boston safety Bundles cake recipe California 癌症研究 capstone car price Career Career Day citibike classic cars classpass clustering Coding Course Demo Course Report covid 19 credit credit card 犯罪的频率 crops D3.js data data analysis Data Analyst data analytics tripadvisor评论的数据 data science 沙巴体育正规网址 数据科学沙巴体育安卓版下载营 数据科学工作 数据科学评论 Data Scientist 数据科学家的工作 数据可视化 database Deep Learning Demo Day Discount disney dplyr drug data e-commerce economy employee 员工倦怠 雇主网络 environment 工程特性 Finance 金融数据科学 fitness studio Flask flight delay gbm Get Hired ggplot2 googleVis H20 Hadoop 贺曼假日电影 happiness 医疗欺诈行为 higgs boson Hiring 招聘合作伙伴活动 招聘合作伙伴 hotels housing housing data 住房的预测 housing price hy-vee Income 行业专家 Injuries 老师的博客 教师面试 insurance italki Job Job Placement Jobs Jon Krohn 摩根大通 Kaggle Kickstarter 拉斯维加斯机场 套索回归 首席数据科学家 首席数据科学家 leaflet league 线性回归 逻辑回归 机器学习 Maps market matplotlib 医学研究 Meet the team meetup methal health miami beach movie music Napoli NBA netflix Networking neural network 神经网络 New Courses NHL nlp NYC 纽约数据科学 沙巴体育安卓版下载 NYC Open Data nyc property NYCDSA NYCDSA Alumni Online 在线沙巴体育安卓版下载营 在线培训 Open Data painter pandas Part-time performance phoenix pollutants 投资发展 精密测量 prediction Prework Programming public safety PwC python Python数据分析 Python机器学习 python scrapy Python网页抓取 python webscraping Python车间 R R数据分析 R language R Programming R Shiny r studio R可视化 R Workshop R-bloggers random forest Ranking recommendation 推荐系统 regression Remote 远程数据科学沙巴体育安卓版下载营 Scrapy scrapy可视化 seaborn seafood type Selenium 情绪分析 情绪的分类 Shiny 闪亮的仪表板 Spark Special Special Summer Sports statistics streaming 学生面试 学生展示 SVM Switchup Tableau teachers team 团队绩效 TensorFlow Testimonial tf-idf 顶级数据科学沙巴体育安卓版下载营 顶级制造公司 Transfers tweets twitter videos visualization wallstreet wallstreetbets web scraping Weekend Course What to expect whiskey whiskeyadvocate wildfire word cloud word2vec XGBoost yelp youtube热门 ZORI
友情链接: 1 2 3 4 5 6 7 8 9 10