konoha81/mkprob.pl

## mkprob.pl
#!/usr/bin/env/ perl

use strict;
use utf8;
use Encode;

print("読み込みたいテキストの名前を入力してください\n");
my $text = <STDIN>;
chomp($text);

open(IN, "$text\.txt");

# 頻度表を表すハッシュ
my %freq = ();

# 総単語数
my $total = 0;

# タグの個数をカウント
while(<IN>){
    # テキストはコンマ区切りなので配列に分割
    my @taglist = split(/,/);
    for(my $i=0;$i<$#taglist;$i++){
	if(defined($freq{$taglist[$i]})){
	    $freq{$taglist[$i]}++;
	}else{
	    $freq{$taglist[$i]} = 1;
	}
    }
    $total++;
}

close(IN);

print($total,"\n");

open(OUT,"> $text\.prob");

foreach my $tags (keys %freq){
    my $prob = $freq{$tags}/$total; #タグの出現確率
    print OUT "$tags\t$prob\n";
}

close(OUT);
	#!/usr/bin/env/ perl

	use strict;
	use utf8;
	use Encode;

	print("読み込みたいテキストの名前を入力してください\n");
	my $text = <STDIN>;
	chomp($text);

	open(IN, "$text\.txt");

	# 頻度表を表すハッシュ
	my %freq = ();

	# 総単語数
	my $total = 0;

	# タグの個数をカウント
	while(<IN>){
	# テキストはコンマ区切りなので配列に分割
	my @taglist = split(/,/);
	for(my $i=0;$i<$#taglist;$i++){
	if(defined($freq{$taglist[$i]})){
	$freq{$taglist[$i]}++;
	}else{
	$freq{$taglist[$i]} = 1;
	}
	}
	$total++;
	}

	close(IN);

	print($total,"\n");

	open(OUT,"> $text\.prob");

	foreach my $tags (keys %freq){
	my $prob = $freq{$tags}/$total; #タグの出現確率
	print OUT "$tags\t$prob\n";
	}

	close(OUT);