dimchansky/Sorted-Word-Frequencies.hs

## Sorted-Word-Frequencies.hs
{-# LANGUAGE OverloadedStrings #-}
{-# LANGUAGE TupleSections     #-}
module Main where

import qualified Data.ByteString.Lazy         as S
import qualified Data.ByteString.Lazy.Builder as SB
import qualified Data.ByteString.Lazy.Char8   as C
import           Data.Foldable                (foldMap)
import qualified Data.HashMap.Strict          as HM
import           Data.List                    (sortBy)
import           Data.Monoid                  ((<>))
import           Data.Word8                   (isAlpha, toLower)

main :: IO ()
main =
  S.writeFile "out.txt"
    . SB.toLazyByteString
    . foldMap outLineBuilder
    . sortBy sndThenFst
    . countFrequencies
    . splitWords =<< S.readFile "inp.txt"
  where outLineBuilder (w,f) = SB.intDec f <> "\t" <> SB.lazyByteString w <> "\n"
        sndThenFst (x1, y1) (x2, y2) = compare y1 y2 <> compare x1 x2
        countFrequencies = HM.toList . HM.fromListWith (+) . map (,1)
        makeLowAlphaOrNL w = if isAlpha w then toLower w else 10
        splitWords = filter (not . S.null) . C.lines . S.map makeLowAlphaOrNL
	{-# LANGUAGE OverloadedStrings #-}
	{-# LANGUAGE TupleSections #-}
	module Main where

	import qualified Data.ByteString.Lazy as S
	import qualified Data.ByteString.Lazy.Builder as SB
	import qualified Data.ByteString.Lazy.Char8 as C
	import Data.Foldable (foldMap)
	import qualified Data.HashMap.Strict as HM
	import Data.List (sortBy)
	import Data.Monoid ((<>))
	import Data.Word8 (isAlpha, toLower)

	main :: IO ()
	main =
	S.writeFile "out.txt"
	. SB.toLazyByteString
	. foldMap outLineBuilder
	. sortBy sndThenFst
	. countFrequencies
	. splitWords =<< S.readFile "inp.txt"
	where outLineBuilder (w,f) = SB.intDec f <> "\t" <> SB.lazyByteString w <> "\n"
	sndThenFst (x1, y1) (x2, y2) = compare y1 y2 <> compare x1 x2
	countFrequencies = HM.toList . HM.fromListWith (+) . map (,1)
	makeLowAlphaOrNL w = if isAlpha w then toLower w else 10
	splitWords = filter (not . S.null) . C.lines . S.map makeLowAlphaOrNL