fmw/core.clj

## core.clj
(ns xmltest.core
  (:require [clojure.data.xml :as xml])
  (:import [java.io FileInputStream]
           [java.util.zip GZIPInputStream]))

(defn parse [filename]
  (xml/parse (FileInputStream. filename)))

(defn parse-gzipped [filename]
  (xml/parse (GZIPInputStream. (FileInputStream. filename))))

(defn get-title-values-from-file
  [tree]
  (map (fn [page]
         (->> (filter #(= (:tag %) :title) (:content page))
              (first)
              (:content)
              (apply str)))
       (:content tree)))

(comment
  (require '[xmltest.core :as c])
  ;; big.xml.gz is a gzipped file containing a billion <page> tags,
  ;; with a compressed size of 234M (original is 3.4GB).
  (->> (c/parse-gzipped "/home/fmw/clj/xmltest/big.xml.gz")
      (c/get-title-values-from-file)
      (take 100000))) ;; remove (take 100000) to get the full sequence
	(ns xmltest.core
	(:require [clojure.data.xml :as xml])
	(:import [java.io FileInputStream]
	[java.util.zip GZIPInputStream]))

	(defn parse [filename]
	(xml/parse (FileInputStream. filename)))

	(defn parse-gzipped [filename]
	(xml/parse (GZIPInputStream. (FileInputStream. filename))))

	(defn get-title-values-from-file
	[tree]
	(map (fn [page]
	(->> (filter #(= (:tag %) :title) (:content page))
	(first)
	(:content)
	(apply str)))
	(:content tree)))

	(comment
	(require '[xmltest.core :as c])
	;; big.xml.gz is a gzipped file containing a billion <page> tags,
	;; with a compressed size of 234M (original is 3.4GB).
	(->> (c/parse-gzipped "/home/fmw/clj/xmltest/big.xml.gz")
	(c/get-title-values-from-file)
	(take 100000))) ;; remove (take 100000) to get the full sequence