博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
复合数据类型,英文词频统计
阅读量:6272 次
发布时间:2019-06-22

本文共 1287 字,大约阅读时间需要 4 分钟。

此次作业的要求来自于:。

1.列表,元组,字典,集合分别如何增删改查及遍历。

(1)列表

(2)元组

(3)字典

 

(4)集合

2.总结列表,元组,字典,集合的联系与区别(参考以下几个方面)

(1)括号

列表[];  元组(); 字典{};集合{};

(2)有序无序

列表和元组有序,字典和集合无序

(3)可变不可变

列表,字典可变,元组不可变,集合可变也可不变

(4)重复不重复

列表,元组,字典可重复,集合不可重复

3.词频统计

(1)下载一长篇小说,存成utf-8编码的文本文件file;

 (2)通过文件读取字符串str;

 (3)对文本进行预处理; 

 (4)分解提取单词list; 

 (5)单词计数字典set,dict;

 (6)按词频排序list.sort(key=lambda),turple;

 (7)排除语法型词汇,代词、冠词、连词等无语义词;

 (8)输出TOP(20);

 (9)可视化:词云。

#!/usr/bin/env python# _*_ coding:utf-8 _*# 定义数组str = {
'a', 'of', 'in', 'an', 'was', 'are', 'on', 'in', 'to', 'this', 'that', 'for', 'by', 'from', 'but', 'with', 'and', 'the', 'his', 'their', 'they', 'had', 'as', 'were', 'could', 'not', 'The', 'at', 'be', 'after'}# 打开小说所在的文件fo = open("xiaoshuo.txt", 'r')text = fo.read()fo.close()text.lower()text = text.replace('\n', '')text = text.replace(',', '')text = text.replace('。', '')list1 = text.split(" ")list2 = set(list1)list3 = set(list1)for s in list3: if s in str: list2.remove(s)dict = {}for word in list2: dict[word] = list1.count(word)word = list(dict.items())word.sort(key=lambda x: x[1], reverse=(True))print("单词计数字典按词频排序", word)# 对结果输出到text.csv中import pandas as pdpd.DataFrame(data=word).to_csv("F:\\xiaoshuo.csv",encoding='utf-8')

运行结果:

CSV统计结果:

词云如图:

 

转载于:https://www.cnblogs.com/lxcbk/p/10532051.html

你可能感兴趣的文章
《Arduino家居安全系统构建实战》——1.5 介绍用于机器学习的F
查看>>
jquery中hover()的用法。简单粗暴
查看>>
线程管理(六)等待线程的终结
查看>>
spring boot集成mongodb最简单版
查看>>
DELL EqualLogic PS存储数据恢复全过程整理
查看>>
《Node.js入门经典》一2.3 安装模块
查看>>
《Java 开发从入门到精通》—— 2.5 技术解惑
查看>>
Linux 性能诊断 perf使用指南
查看>>
实操分享:看看小白我如何第一次搭建阿里云windows服务器(Tomcat+Mysql)
查看>>
Sphinx 配置文件说明
查看>>
数据结构实践——顺序表应用
查看>>
python2.7 之centos7 安装 pip, Scrapy
查看>>
机智云开源框架初始化顺序
查看>>
Spark修炼之道(进阶篇)——Spark入门到精通:第五节 Spark编程模型(二)
查看>>
一线架构师实践指南:云时代下双活零切换的七大关键点
查看>>
ART世界探险(19) - 优化编译器的编译流程
查看>>
玩转Edas应用部署
查看>>
music-音符与常用记号
查看>>
sql操作命令
查看>>
zip 数据压缩
查看>>