Skip to content

Instantly share code, notes, and snippets.

@hiroto-takatoshi
Created February 7, 2017 08:21
Show Gist options
  • Save hiroto-takatoshi/c593aba20e3c0bb44bfd43182390fac3 to your computer and use it in GitHub Desktop.
Save hiroto-takatoshi/c593aba20e3c0bb44bfd43182390fac3 to your computer and use it in GitHub Desktop.
Display the source blob
Display the rendered blob
Raw
{
"cells": [
{
"cell_type": "code",
"execution_count": 1,
"metadata": {
"collapsed": true
},
"outputs": [],
"source": [
"import numpy as np\n",
"from sklearn.feature_extraction.text import TfidfVectorizer\n",
"from sklearn.cluster import KMeans\n",
"import jieba"
]
},
{
"cell_type": "code",
"execution_count": 2,
"metadata": {
"collapsed": true
},
"outputs": [],
"source": [
"np.set_printoptions(precision=2)"
]
},
{
"cell_type": "code",
"execution_count": 5,
"metadata": {
"collapsed": true
},
"outputs": [],
"source": [
"import nltk\n",
"import codecs"
]
},
{
"cell_type": "code",
"execution_count": 13,
"metadata": {
"collapsed": false
},
"outputs": [],
"source": [
"with codecs.open('text.txt','r','utf-8') as f:\n",
" docs = f.readlines()"
]
},
{
"cell_type": "code",
"execution_count": 16,
"metadata": {
"collapsed": false
},
"outputs": [],
"source": [
"doc = []\n",
"for x in docs:\n",
" doc.append(x.rstrip())"
]
},
{
"cell_type": "code",
"execution_count": 53,
"metadata": {
"collapsed": false
},
"outputs": [],
"source": [
"docs = []\n",
"for x in doc:\n",
" y = jieba.cut(x)\n",
" yy = []\n",
" for z in y:\n",
" if re.findall(r\"[\\w']+\", z):\n",
" yy.append(z)\n",
" docs.append(yy)"
]
},
{
"cell_type": "code",
"execution_count": 54,
"metadata": {
"collapsed": false
},
"outputs": [
{
"data": {
"text/plain": [
"[['新世纪',\n",
" '以来',\n",
" '指导',\n",
" '三农',\n",
" '工作',\n",
" '的',\n",
" '第',\n",
" '14',\n",
" '份',\n",
" '中央',\n",
" '一号',\n",
" '文件',\n",
" '5',\n",
" '日',\n",
" '由',\n",
" '新华社',\n",
" '受权',\n",
" '发布'],\n",
" ['这份',\n",
" '文件',\n",
" '题为',\n",
" '中共中央',\n",
" '国务院',\n",
" '关于',\n",
" '深入',\n",
" '推进',\n",
" '农业',\n",
" '供给',\n",
" '侧',\n",
" '结构性',\n",
" '改革',\n",
" '加快',\n",
" '培育',\n",
" '农业',\n",
" '农村',\n",
" '发展',\n",
" '新',\n",
" '动能',\n",
" '的',\n",
" '若干意见',\n",
" '全文',\n",
" '约',\n",
" '13000',\n",
" '字',\n",
" '共分',\n",
" '6',\n",
" '个',\n",
" '部分',\n",
" '33',\n",
" '条',\n",
" '包括',\n",
" '优化',\n",
" '产品',\n",
" '产业结构',\n",
" '着力',\n",
" '推进',\n",
" '农业',\n",
" '提质',\n",
" '增效',\n",
" '推行',\n",
" '绿色',\n",
" '生产方式',\n",
" '增强',\n",
" '农业',\n",
" '可',\n",
" '持续',\n",
" '发展',\n",
" '能力',\n",
" '壮大',\n",
" '新',\n",
" '产业',\n",
" '新',\n",
" '业态',\n",
" '拓展',\n",
" '农业',\n",
" '产业链',\n",
" '价值链',\n",
" '强化',\n",
" '科技',\n",
" '创新',\n",
" '驱动',\n",
" '引领',\n",
" '现代农业',\n",
" '加快',\n",
" '发展',\n",
" '补齐',\n",
" '农业',\n",
" '农村',\n",
" '短板',\n",
" '夯实',\n",
" '农村',\n",
" '共享',\n",
" '发展',\n",
" '基础',\n",
" '加大',\n",
" '农村',\n",
" '改革',\n",
" '力度',\n",
" '激活',\n",
" '农业',\n",
" '农村',\n",
" '内生',\n",
" '发展',\n",
" '动力'],\n",
" ['文件',\n",
" '指出',\n",
" '推进',\n",
" '农业',\n",
" '供给',\n",
" '侧',\n",
" '结构性',\n",
" '改革',\n",
" '要',\n",
" '在',\n",
" '确保',\n",
" '国家',\n",
" '粮食安全',\n",
" '的',\n",
" '基础',\n",
" '上',\n",
" '紧紧围绕',\n",
" '市场需求',\n",
" '变化',\n",
" '以',\n",
" '增加',\n",
" '农民收入',\n",
" '保障',\n",
" '有效',\n",
" '供给',\n",
" '为',\n",
" '主要',\n",
" '目标',\n",
" '以',\n",
" '提高',\n",
" '农业',\n",
" '供给',\n",
" '质量',\n",
" '为主',\n",
" '攻',\n",
" '方向',\n",
" '以',\n",
" '体制改革',\n",
" '和',\n",
" '机制',\n",
" '创新',\n",
" '为',\n",
" '根本途径',\n",
" '优化',\n",
" '农业产业',\n",
" '体系',\n",
" '生产',\n",
" '体系',\n",
" '经营',\n",
" '体系',\n",
" '提高',\n",
" '土地',\n",
" '产出率',\n",
" '资源',\n",
" '利用率',\n",
" '劳动生产率',\n",
" '促进',\n",
" '农业',\n",
" '农村',\n",
" '发展',\n",
" '由',\n",
" '过度',\n",
" '依赖',\n",
" '资源',\n",
" '消耗',\n",
" '主要',\n",
" '满足',\n",
" '量',\n",
" '的',\n",
" '需求',\n",
" '向',\n",
" '追求',\n",
" '绿色生态',\n",
" '可',\n",
" '持续',\n",
" '更加',\n",
" '注重',\n",
" '满足',\n",
" '质',\n",
" '的',\n",
" '需求',\n",
" '转变'],\n",
" ['文件',\n",
" '强调',\n",
" '推进',\n",
" '农业',\n",
" '供给',\n",
" '侧',\n",
" '结构性',\n",
" '改革',\n",
" '是',\n",
" '一个',\n",
" '长期',\n",
" '过程',\n",
" '处理',\n",
" '好',\n",
" '政府',\n",
" '和',\n",
" '市场',\n",
" '关系',\n",
" '协调',\n",
" '好',\n",
" '各',\n",
" '方面',\n",
" '利益',\n",
" '面临',\n",
" '许多',\n",
" '重大',\n",
" '考验',\n",
" '必须',\n",
" '直面',\n",
" '困难',\n",
" '和',\n",
" '挑战',\n",
" '坚定不移',\n",
" '推进改革',\n",
" '勇于',\n",
" '承受',\n",
" '改革',\n",
" '阵痛',\n",
" '尽力',\n",
" '降低',\n",
" '改革',\n",
" '成本',\n",
" '积极',\n",
" '防范',\n",
" '改革',\n",
" '风险',\n",
" '确保',\n",
" '粮食',\n",
" '生产能力',\n",
" '不',\n",
" '降低',\n",
" '农民',\n",
" '增收',\n",
" '势头',\n",
" '不',\n",
" '逆转',\n",
" '农村',\n",
" '稳定',\n",
" '不',\n",
" '出',\n",
" '问题'],\n",
" ['近几年',\n",
" '我国',\n",
" '在',\n",
" '农业',\n",
" '转',\n",
" '方式',\n",
" '调',\n",
" '结构',\n",
" '促',\n",
" '改革',\n",
" '等',\n",
" '方面',\n",
" '进行',\n",
" '了',\n",
" '积极探索',\n",
" '农业',\n",
" '供给',\n",
" '侧',\n",
" '结构性',\n",
" '改革',\n",
" '虽然',\n",
" '开',\n",
" '了',\n",
" '头',\n",
" '有',\n",
" '进展',\n",
" '但',\n",
" '需要',\n",
" '在',\n",
" '发展',\n",
" '目标',\n",
" '上',\n",
" '再',\n",
" '聚焦',\n",
" '在',\n",
" '工作',\n",
" '路数',\n",
" '上',\n",
" '再',\n",
" '理清',\n",
" '在',\n",
" '政策',\n",
" '举措',\n",
" '上',\n",
" '再',\n",
" '加力',\n",
" '中央',\n",
" '农村',\n",
" '工作',\n",
" '领导小组',\n",
" '副组长',\n",
" '中央',\n",
" '农办',\n",
" '主任',\n",
" '唐仁健',\n",
" '说',\n",
" '只有',\n",
" '牢牢',\n",
" '把握住',\n",
" '推进',\n",
" '农业',\n",
" '供给',\n",
" '侧',\n",
" '结构性',\n",
" '改革',\n",
" '这',\n",
" '条',\n",
" '主线',\n",
" '为',\n",
" '整个',\n",
" '供给',\n",
" '侧',\n",
" '结构性',\n",
" '改革',\n",
" '当好',\n",
" '先锋',\n",
" '提供',\n",
" '支撑',\n",
" '才能',\n",
" '开辟',\n",
" '出',\n",
" '农业',\n",
" '农村',\n",
" '发展',\n",
" '的',\n",
" '新',\n",
" '境界']]"
]
},
"execution_count": 54,
"metadata": {},
"output_type": "execute_result"
}
],
"source": [
"docs"
]
},
{
"cell_type": "code",
"execution_count": 50,
"metadata": {
"collapsed": false
},
"outputs": [],
"source": [
"import re\n",
"stopwords = codecs.open('stopwords.txt', 'r', 'utf-8').read()\n",
"stopwords = re.findall(r\"[\\w']+\", stopwords)"
]
},
{
"cell_type": "code",
"execution_count": 55,
"metadata": {
"collapsed": false
},
"outputs": [],
"source": [
"for x in stopwords:\n",
" for y in docs:\n",
" while x in y:\n",
" y.remove(x)"
]
},
{
"cell_type": "code",
"execution_count": 56,
"metadata": {
"collapsed": false
},
"outputs": [
{
"data": {
"text/plain": [
"[['新世纪',\n",
" '指导',\n",
" '三农',\n",
" '工作',\n",
" '14',\n",
" '份',\n",
" '中央',\n",
" '一号',\n",
" '文件',\n",
" '5',\n",
" '日',\n",
" '新华社',\n",
" '受权',\n",
" '发布'],\n",
" ['这份',\n",
" '文件',\n",
" '题为',\n",
" '中共中央',\n",
" '国务院',\n",
" '关于',\n",
" '深入',\n",
" '推进',\n",
" '农业',\n",
" '供给',\n",
" '侧',\n",
" '结构性',\n",
" '改革',\n",
" '加快',\n",
" '培育',\n",
" '农业',\n",
" '农村',\n",
" '发展',\n",
" '新',\n",
" '动能',\n",
" '若干意见',\n",
" '全文',\n",
" '约',\n",
" '13000',\n",
" '字',\n",
" '共分',\n",
" '6',\n",
" '部分',\n",
" '33',\n",
" '条',\n",
" '包括',\n",
" '优化',\n",
" '产品',\n",
" '产业结构',\n",
" '着力',\n",
" '推进',\n",
" '农业',\n",
" '提质',\n",
" '增效',\n",
" '推行',\n",
" '绿色',\n",
" '生产方式',\n",
" '增强',\n",
" '农业',\n",
" '持续',\n",
" '发展',\n",
" '能力',\n",
" '壮大',\n",
" '新',\n",
" '产业',\n",
" '新',\n",
" '业态',\n",
" '拓展',\n",
" '农业',\n",
" '产业链',\n",
" '价值链',\n",
" '强化',\n",
" '科技',\n",
" '创新',\n",
" '驱动',\n",
" '引领',\n",
" '现代农业',\n",
" '加快',\n",
" '发展',\n",
" '补齐',\n",
" '农业',\n",
" '农村',\n",
" '短板',\n",
" '夯实',\n",
" '农村',\n",
" '共享',\n",
" '发展',\n",
" '基础',\n",
" '加大',\n",
" '农村',\n",
" '改革',\n",
" '力度',\n",
" '激活',\n",
" '农业',\n",
" '农村',\n",
" '内生',\n",
" '发展',\n",
" '动力'],\n",
" ['文件',\n",
" '指出',\n",
" '推进',\n",
" '农业',\n",
" '供给',\n",
" '侧',\n",
" '结构性',\n",
" '改革',\n",
" '确保',\n",
" '国家',\n",
" '粮食安全',\n",
" '基础',\n",
" '紧紧围绕',\n",
" '市场需求',\n",
" '变化',\n",
" '增加',\n",
" '农民收入',\n",
" '保障',\n",
" '有效',\n",
" '供给',\n",
" '主要',\n",
" '目标',\n",
" '提高',\n",
" '农业',\n",
" '供给',\n",
" '质量',\n",
" '为主',\n",
" '攻',\n",
" '方向',\n",
" '体制改革',\n",
" '机制',\n",
" '创新',\n",
" '根本途径',\n",
" '优化',\n",
" '农业产业',\n",
" '体系',\n",
" '生产',\n",
" '体系',\n",
" '经营',\n",
" '体系',\n",
" '提高',\n",
" '土地',\n",
" '产出率',\n",
" '资源',\n",
" '利用率',\n",
" '劳动生产率',\n",
" '促进',\n",
" '农业',\n",
" '农村',\n",
" '发展',\n",
" '过度',\n",
" '依赖',\n",
" '资源',\n",
" '消耗',\n",
" '主要',\n",
" '满足',\n",
" '量',\n",
" '需求',\n",
" '追求',\n",
" '绿色生态',\n",
" '持续',\n",
" '更加',\n",
" '注重',\n",
" '满足',\n",
" '质',\n",
" '需求',\n",
" '转变'],\n",
" ['文件',\n",
" '强调',\n",
" '推进',\n",
" '农业',\n",
" '供给',\n",
" '侧',\n",
" '结构性',\n",
" '改革',\n",
" '一个',\n",
" '长期',\n",
" '过程',\n",
" '处理',\n",
" '政府',\n",
" '市场',\n",
" '关系',\n",
" '协调',\n",
" '方面',\n",
" '利益',\n",
" '面临',\n",
" '重大',\n",
" '考验',\n",
" '必须',\n",
" '直面',\n",
" '困难',\n",
" '挑战',\n",
" '坚定不移',\n",
" '推进改革',\n",
" '勇于',\n",
" '承受',\n",
" '改革',\n",
" '阵痛',\n",
" '尽力',\n",
" '降低',\n",
" '改革',\n",
" '成本',\n",
" '积极',\n",
" '防范',\n",
" '改革',\n",
" '风险',\n",
" '确保',\n",
" '粮食',\n",
" '生产能力',\n",
" '降低',\n",
" '农民',\n",
" '增收',\n",
" '势头',\n",
" '逆转',\n",
" '农村',\n",
" '稳定',\n",
" '出',\n",
" '问题'],\n",
" ['近几年',\n",
" '我国',\n",
" '农业',\n",
" '转',\n",
" '方式',\n",
" '调',\n",
" '结构',\n",
" '促',\n",
" '改革',\n",
" '方面',\n",
" '进行',\n",
" '积极探索',\n",
" '农业',\n",
" '供给',\n",
" '侧',\n",
" '结构性',\n",
" '改革',\n",
" '开',\n",
" '头',\n",
" '进展',\n",
" '需要',\n",
" '发展',\n",
" '目标',\n",
" '聚焦',\n",
" '工作',\n",
" '路数',\n",
" '理清',\n",
" '政策',\n",
" '举措',\n",
" '加力',\n",
" '中央',\n",
" '农村',\n",
" '工作',\n",
" '领导小组',\n",
" '副组长',\n",
" '中央',\n",
" '农办',\n",
" '主任',\n",
" '唐仁健',\n",
" '说',\n",
" '牢牢',\n",
" '把握住',\n",
" '推进',\n",
" '农业',\n",
" '供给',\n",
" '侧',\n",
" '结构性',\n",
" '改革',\n",
" '条',\n",
" '主线',\n",
" '整个',\n",
" '供给',\n",
" '侧',\n",
" '结构性',\n",
" '改革',\n",
" '当好',\n",
" '先锋',\n",
" '提供',\n",
" '支撑',\n",
" '开辟',\n",
" '出',\n",
" '农业',\n",
" '农村',\n",
" '发展',\n",
" '新',\n",
" '境界']]"
]
},
"execution_count": 56,
"metadata": {},
"output_type": "execute_result"
}
],
"source": [
"docs"
]
},
{
"cell_type": "code",
"execution_count": 57,
"metadata": {
"collapsed": true
},
"outputs": [],
"source": [
"doc1 = np.array(docs)"
]
},
{
"cell_type": "code",
"execution_count": 58,
"metadata": {
"collapsed": false,
"scrolled": true
},
"outputs": [
{
"data": {
"text/plain": [
"array([ ['新世纪', '指导', '三农', '工作', '14', '份', '中央', '一号', '文件', '5', '日', '新华社', '受权', '发布'],\n",
" ['这份', '文件', '题为', '中共中央', '国务院', '关于', '深入', '推进', '农业', '供给', '侧', '结构性', '改革', '加快', '培育', '农业', '农村', '发展', '新', '动能', '若干意见', '全文', '约', '13000', '字', '共分', '6', '部分', '33', '条', '包括', '优化', '产品', '产业结构', '着力', '推进', '农业', '提质', '增效', '推行', '绿色', '生产方式', '增强', '农业', '持续', '发展', '能力', '壮大', '新', '产业', '新', '业态', '拓展', '农业', '产业链', '价值链', '强化', '科技', '创新', '驱动', '引领', '现代农业', '加快', '发展', '补齐', '农业', '农村', '短板', '夯实', '农村', '共享', '发展', '基础', '加大', '农村', '改革', '力度', '激活', '农业', '农村', '内生', '发展', '动力'],\n",
" ['文件', '指出', '推进', '农业', '供给', '侧', '结构性', '改革', '确保', '国家', '粮食安全', '基础', '紧紧围绕', '市场需求', '变化', '增加', '农民收入', '保障', '有效', '供给', '主要', '目标', '提高', '农业', '供给', '质量', '为主', '攻', '方向', '体制改革', '机制', '创新', '根本途径', '优化', '农业产业', '体系', '生产', '体系', '经营', '体系', '提高', '土地', '产出率', '资源', '利用率', '劳动生产率', '促进', '农业', '农村', '发展', '过度', '依赖', '资源', '消耗', '主要', '满足', '量', '需求', '追求', '绿色生态', '持续', '更加', '注重', '满足', '质', '需求', '转变'],\n",
" ['文件', '强调', '推进', '农业', '供给', '侧', '结构性', '改革', '一个', '长期', '过程', '处理', '政府', '市场', '关系', '协调', '方面', '利益', '面临', '重大', '考验', '必须', '直面', '困难', '挑战', '坚定不移', '推进改革', '勇于', '承受', '改革', '阵痛', '尽力', '降低', '改革', '成本', '积极', '防范', '改革', '风险', '确保', '粮食', '生产能力', '降低', '农民', '增收', '势头', '逆转', '农村', '稳定', '出', '问题'],\n",
" ['近几年', '我国', '农业', '转', '方式', '调', '结构', '促', '改革', '方面', '进行', '积极探索', '农业', '供给', '侧', '结构性', '改革', '开', '头', '进展', '需要', '发展', '目标', '聚焦', '工作', '路数', '理清', '政策', '举措', '加力', '中央', '农村', '工作', '领导小组', '副组长', '中央', '农办', '主任', '唐仁健', '说', '牢牢', '把握住', '推进', '农业', '供给', '侧', '结构性', '改革', '条', '主线', '整个', '供给', '侧', '结构性', '改革', '当好', '先锋', '提供', '支撑', '开辟', '出', '农业', '农村', '发展', '新', '境界']], dtype=object)"
]
},
"execution_count": 58,
"metadata": {},
"output_type": "execute_result"
}
],
"source": [
"doc1"
]
},
{
"cell_type": "code",
"execution_count": 64,
"metadata": {
"collapsed": false
},
"outputs": [
{
"data": {
"text/plain": [
"['新世纪 指导 三农 工作 14 份 中央 一号 文件 5 日 新华社 受权 发布',\n",
" '这份 文件 题为 中共中央 国务院 关于 深入 推进 农业 供给 侧 结构性 改革 加快 培育 农业 农村 发展 新 动能 若干意见 全文 约 13000 字 共分 6 部分 33 条 包括 优化 产品 产业结构 着力 推进 农业 提质 增效 推行 绿色 生产方式 增强 农业 持续 发展 能力 壮大 新 产业 新 业态 拓展 农业 产业链 价值链 强化 科技 创新 驱动 引领 现代农业 加快 发展 补齐 农业 农村 短板 夯实 农村 共享 发展 基础 加大 农村 改革 力度 激活 农业 农村 内生 发展 动力',\n",
" '文件 指出 推进 农业 供给 侧 结构性 改革 确保 国家 粮食安全 基础 紧紧围绕 市场需求 变化 增加 农民收入 保障 有效 供给 主要 目标 提高 农业 供给 质量 为主 攻 方向 体制改革 机制 创新 根本途径 优化 农业产业 体系 生产 体系 经营 体系 提高 土地 产出率 资源 利用率 劳动生产率 促进 农业 农村 发展 过度 依赖 资源 消耗 主要 满足 量 需求 追求 绿色生态 持续 更加 注重 满足 质 需求 转变',\n",
" '文件 强调 推进 农业 供给 侧 结构性 改革 一个 长期 过程 处理 政府 市场 关系 协调 方面 利益 面临 重大 考验 必须 直面 困难 挑战 坚定不移 推进改革 勇于 承受 改革 阵痛 尽力 降低 改革 成本 积极 防范 改革 风险 确保 粮食 生产能力 降低 农民 增收 势头 逆转 农村 稳定 出 问题',\n",
" '近几年 我国 农业 转 方式 调 结构 促 改革 方面 进行 积极探索 农业 供给 侧 结构性 改革 开 头 进展 需要 发展 目标 聚焦 工作 路数 理清 政策 举措 加力 中央 农村 工作 领导小组 副组长 中央 农办 主任 唐仁健 说 牢牢 把握住 推进 农业 供给 侧 结构性 改革 条 主线 整个 供给 侧 结构性 改革 当好 先锋 提供 支撑 开辟 出 农业 农村 发展 新 境界']"
]
},
"execution_count": 64,
"metadata": {},
"output_type": "execute_result"
}
],
"source": [
"doc2 = []\n",
"for x in doc1:\n",
" doc2.append(' '.join(x))\n",
"doc2"
]
},
{
"cell_type": "code",
"execution_count": 65,
"metadata": {
"collapsed": true
},
"outputs": [],
"source": [
"vectorizer = TfidfVectorizer(use_idf=True, token_pattern=u'(?u)\\\\b\\\\w+\\\\b')\n",
"vecs = vectorizer.fit_transform(doc2)"
]
},
{
"cell_type": "code",
"execution_count": 67,
"metadata": {
"collapsed": false
},
"outputs": [
{
"name": "stdout",
"output_type": "stream",
"text": [
"[[ 0. 0.28 0. 0.28 0. 0. 0.28 0.28 0. 0. 0.23 0. 0.\n",
" 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.28 0. 0. 0.\n",
" 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.\n",
" 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.\n",
" 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.28 0.28\n",
" 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.\n",
" 0. 0. 0. 0. 0. 0. 0. 0.23 0. 0. 0. 0. 0.\n",
" 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.28\n",
" 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.\n",
" 0.16 0. 0.28 0.28 0. 0. 0. 0.28 0. 0. 0. 0. 0.\n",
" 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.\n",
" 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.\n",
" 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.\n",
" 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.\n",
" 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. ]\n",
" [ 0.1 0. 0.1 0. 0.1 0. 0. 0. 0.1 0.1 0. 0. 0.\n",
" 0. 0. 0. 0.1 0.1 0.1 0. 0.1 0.1 0. 0.08 0. 0.\n",
" 0.06 0. 0.06 0. 0. 0. 0. 0.1 0.1 0.1 0.1 0.\n",
" 0.1 0.4 0. 0. 0.28 0. 0. 0. 0.08 0. 0. 0.\n",
" 0.1 0. 0.1 0.2 0.1 0.1 0. 0. 0. 0.1 0. 0.34\n",
" 0. 0. 0. 0. 0. 0.1 0. 0. 0. 0.1 0.08 0. 0.\n",
" 0.1 0. 0.1 0.1 0. 0.1 0. 0.1 0. 0. 0. 0. 0.\n",
" 0. 0.1 0.1 0. 0. 0. 0. 0. 0. 0. 0.1 0.08\n",
" 0. 0. 0. 0.1 0.11 0. 0. 0.1 0. 0. 0.11 0. 0.\n",
" 0. 0. 0.06 0.24 0. 0. 0. 0. 0. 0. 0. 0. 0.\n",
" 0.08 0. 0. 0. 0.1 0. 0.1 0. 0.1 0. 0. 0.1\n",
" 0. 0. 0. 0.1 0.1 0. 0.1 0. 0. 0. 0. 0. 0.\n",
" 0.1 0. 0. 0.06 0.1 0. 0. 0. 0.1 0.1 0.1 0. 0.\n",
" 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.1 0. 0. 0.\n",
" 0. 0.1 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.\n",
" 0.1 0. 0.1 ]\n",
" [ 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.11\n",
" 0. 0. 0.23 0. 0. 0. 0. 0.11 0. 0. 0. 0.09\n",
" 0.11 0.34 0.19 0.11 0.06 0. 0.11 0.11 0. 0. 0. 0. 0.\n",
" 0. 0. 0.19 0.11 0. 0.06 0. 0.11 0. 0.09 0.11 0. 0.\n",
" 0. 0. 0. 0. 0. 0. 0.11 0. 0. 0. 0. 0.08\n",
" 0. 0. 0.11 0. 0. 0. 0.11 0.11 0. 0. 0.09 0.\n",
" 0.11 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.\n",
" 0.11 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.\n",
" 0.09 0.11 0. 0. 0. 0.06 0. 0. 0. 0.23 0. 0.06\n",
" 0.11 0. 0. 0. 0.06 0. 0. 0. 0.11 0. 0. 0.\n",
" 0.11 0.11 0.11 0. 0.11 0.11 0.11 0. 0.23 0. 0. 0. 0.\n",
" 0.11 0. 0. 0.09 0. 0. 0. 0.09 0. 0. 0. 0. 0.\n",
" 0.11 0.11 0. 0.11 0. 0.06 0. 0.11 0. 0. 0. 0. 0.\n",
" 0. 0. 0.11 0.11 0.23 0. 0. 0.11 0.11 0. 0. 0. 0.\n",
" 0. 0.11 0. 0. 0. 0.11 0. 0. 0. 0. 0. 0.23\n",
" 0. 0. 0. 0. 0. 0. ]\n",
" [ 0. 0. 0. 0. 0. 0.14 0. 0. 0. 0. 0. 0. 0.\n",
" 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.\n",
" 0.08 0. 0.08 0. 0. 0. 0. 0. 0. 0. 0. 0.14\n",
" 0. 0.08 0. 0. 0.08 0.14 0. 0.12 0. 0. 0.14 0. 0.\n",
" 0. 0. 0. 0. 0. 0. 0.14 0.14 0. 0.14 0. 0. 0.\n",
" 0. 0. 0.14 0. 0. 0. 0.14 0. 0. 0. 0. 0.\n",
" 0.14 0. 0. 0.14 0. 0. 0. 0.14 0. 0.14 0. 0. 0.\n",
" 0. 0. 0.14 0. 0.14 0.14 0. 0.14 0. 0. 0. 0. 0.\n",
" 0.14 0. 0.08 0.14 0. 0. 0. 0. 0.32 0. 0.14 0. 0.\n",
" 0.08 0. 0. 0. 0. 0. 0.12 0. 0. 0. 0. 0. 0.\n",
" 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.14 0.\n",
" 0.14 0. 0. 0.12 0. 0.14 0. 0.14 0.14 0. 0. 0. 0.\n",
" 0. 0.08 0. 0. 0.14 0. 0. 0. 0. 0. 0. 0. 0.\n",
" 0. 0. 0. 0. 0. 0.14 0. 0. 0. 0. 0. 0.14\n",
" 0. 0.14 0. 0.14 0.14 0.14 0.14 0.29 0. 0. 0.14 0. 0.\n",
" 0.14 0. ]\n",
" [ 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.2 0.\n",
" 0.12 0.12 0. 0.12 0. 0. 0. 0. 0. 0. 0. 0. 0.\n",
" 0. 0.21 0. 0.21 0.12 0. 0. 0.12 0. 0. 0. 0. 0.\n",
" 0. 0.28 0. 0.12 0.14 0. 0. 0.1 0. 0. 0. 0.12\n",
" 0. 0.12 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.17\n",
" 0. 0. 0. 0.12 0. 0. 0. 0. 0. 0. 0. 0.12\n",
" 0. 0. 0. 0. 0. 0. 0. 0.12 0. 0. 0.2 0. 0.\n",
" 0.12 0.12 0. 0. 0. 0.12 0. 0. 0.12 0. 0.12 0. 0.\n",
" 0. 0. 0. 0. 0.07 0. 0.12 0. 0. 0.12 0.28 0. 0.\n",
" 0.12 0.12 0. 0.1 0. 0. 0. 0.12 0.1 0. 0. 0. 0.\n",
" 0.1 0. 0. 0. 0. 0. 0. 0.12 0. 0.12 0. 0. 0.\n",
" 0.1 0. 0. 0. 0. 0. 0. 0.12 0. 0. 0. 0. 0.\n",
" 0. 0.12 0.21 0. 0. 0. 0.12 0. 0. 0. 0.12 0.12\n",
" 0. 0. 0. 0.12 0.12 0. 0. 0. 0.12 0. 0.12 0.12\n",
" 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.12\n",
" 0. 0.12 0. 0. 0. ]]\n"
]
}
],
"source": [
"print (vecs.toarray())"
]
},
{
"cell_type": "code",
"execution_count": 70,
"metadata": {
"collapsed": false
},
"outputs": [
{
"name": "stdout",
"output_type": "stream",
"text": [
"0 ['新世纪', '指导', '三农', '工作', '14', '份', '中央', '一号', '文件', '5', '日', '新华社', '受权', '发布']\n",
"1 ['这份', '文件', '题为', '中共中央', '国务院', '关于', '深入', '推进', '农业', '供给', '侧', '结构性', '改革', '加快', '培育', '农业', '农村', '发展', '新', '动能', '若干意见', '全文', '约', '13000', '字', '共分', '6', '部分', '33', '条', '包括', '优化', '产品', '产业结构', '着力', '推进', '农业', '提质', '增效', '推行', '绿色', '生产方式', '增强', '农业', '持续', '发展', '能力', '壮大', '新', '产业', '新', '业态', '拓展', '农业', '产业链', '价值链', '强化', '科技', '创新', '驱动', '引领', '现代农业', '加快', '发展', '补齐', '农业', '农村', '短板', '夯实', '农村', '共享', '发展', '基础', '加大', '农村', '改革', '力度', '激活', '农业', '农村', '内生', '发展', '动力']\n",
"1 ['文件', '指出', '推进', '农业', '供给', '侧', '结构性', '改革', '确保', '国家', '粮食安全', '基础', '紧紧围绕', '市场需求', '变化', '增加', '农民收入', '保障', '有效', '供给', '主要', '目标', '提高', '农业', '供给', '质量', '为主', '攻', '方向', '体制改革', '机制', '创新', '根本途径', '优化', '农业产业', '体系', '生产', '体系', '经营', '体系', '提高', '土地', '产出率', '资源', '利用率', '劳动生产率', '促进', '农业', '农村', '发展', '过度', '依赖', '资源', '消耗', '主要', '满足', '量', '需求', '追求', '绿色生态', '持续', '更加', '注重', '满足', '质', '需求', '转变']\n",
"2 ['文件', '强调', '推进', '农业', '供给', '侧', '结构性', '改革', '一个', '长期', '过程', '处理', '政府', '市场', '关系', '协调', '方面', '利益', '面临', '重大', '考验', '必须', '直面', '困难', '挑战', '坚定不移', '推进改革', '勇于', '承受', '改革', '阵痛', '尽力', '降低', '改革', '成本', '积极', '防范', '改革', '风险', '确保', '粮食', '生产能力', '降低', '农民', '增收', '势头', '逆转', '农村', '稳定', '出', '问题']\n",
"1 ['近几年', '我国', '农业', '转', '方式', '调', '结构', '促', '改革', '方面', '进行', '积极探索', '农业', '供给', '侧', '结构性', '改革', '开', '头', '进展', '需要', '发展', '目标', '聚焦', '工作', '路数', '理清', '政策', '举措', '加力', '中央', '农村', '工作', '领导小组', '副组长', '中央', '农办', '主任', '唐仁健', '说', '牢牢', '把握住', '推进', '农业', '供给', '侧', '结构性', '改革', '条', '主线', '整个', '供给', '侧', '结构性', '改革', '当好', '先锋', '提供', '支撑', '开辟', '出', '农业', '农村', '发展', '新', '境界']\n"
]
}
],
"source": [
"clusters = KMeans(n_clusters=3, random_state=0).fit_predict(vecs)\n",
"for doc, cls in zip(docs, clusters):\n",
" print (cls, doc)"
]
},
{
"cell_type": "code",
"execution_count": null,
"metadata": {
"collapsed": true
},
"outputs": [],
"source": []
}
],
"metadata": {
"anaconda-cloud": {},
"kernelspec": {
"display_name": "Python [conda root]",
"language": "python",
"name": "conda-root-py"
},
"language_info": {
"codemirror_mode": {
"name": "ipython",
"version": 3
},
"file_extension": ".py",
"mimetype": "text/x-python",
"name": "python",
"nbconvert_exporter": "python",
"pygments_lexer": "ipython3",
"version": "3.5.2"
}
},
"nbformat": 4,
"nbformat_minor": 1
}
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment