clojure的读取文件结构,即打开和 clojure.java.io/reader,是否足够高效,可以频繁访问?



假设我用with-open和clojore .java编写一个函数来解析文本文件中的数据。然后我写了另一个函数来多次调用reader函数来处理数据,例如

(defn grabDataFromFile [file patternString]   
     (let [data (atom [])]
        (with-open [rdr (clojure.java.io/reader file)] 
         (doseq [line (line-seq rdr)] 
           (if  (re-matches  (re-pattern  patternString) line) (swap! data conj line))))
        @data))

(defn myCalculation [file ]
  (let [data1 (grabDataFromFile file "pattern1")
        data2 (grabDataFromFile file "pattern2")
        data3 (grabDataFromFile file "pattern3")]
    ;calculations or processes of data1, data2, data3....))

我的问题是,在这个myCalculation函数中,底层代码是否足够智能,可以用clojure reader打开文件一次,并获得一次所需的所有数据?或者它打开和关闭文件的次数与调用函数grabDataFromFile的次数一样多吗?(本例中为3)

接下来的问题是,如果读者不够聪明,如果我必须有意地将"解析器"代码与"处理"代码分开,我能做些什么来加快速度?

grabDataFromFile将在每次调用reader时打开和关闭reader(在exit时)。底层代码不可能聪明到这样的程度,即如果没有显式提供一些信息,函数就可以检测其调用者的上下文。

使grabDataFromFile接受另一个函数,该函数是在每行上操作的解析器逻辑(或者它可以是您想在每行上执行的任何函数)

(defn grabDataFromFile [file patternString process-fn]   
  (with-open [rdr (clojure.java.io/reader file)] 
    (doseq [line (line-seq rdr)] 
      (process-fn line))))


(defn myCalculation [file]
  (let [patterns [["pattern1" (atom [])]
                  ["pattern2" (atom [])]
                  ["pattern3" (atom [])]]
        pattern-fns (map (fn [[p data]]
                           (fn [line]
                             (if  (re-matches (re-pattern  p) line)                              
                               (swap! data conj line)))) patterns)
        pattern-fn (apply juxt pattern-fns)]
    (grabDataFromFile file pattern-fn)
    ;perform calc on patterns atoms
    ))

最新更新