-
Notifications
You must be signed in to change notification settings - Fork 26
Open
Description
Hi! Thanks for sharing your code! My question is how to create data-sample.txt from the NYT corpus? Below is the directory structure of the corpus I got.
├── data
│ ├── 1987
│ ├── 1988
│ ├── 1989
│ ├── 1990
│ ├── 1991
│ ├── 1992
│ ├── 1993
│ ├── 1994
│ ├── 1995
│ ├── 1996
│ ├── 1997
│ ├── 1998
│ ├── 1999
│ ├── 2000
│ ├── 2001
│ ├── 2002
│ ├── 2003
│ ├── 2004
│ ├── 2005
│ ├── 2006
│ └── 2007
├── docs
│ ├── file.tbl
│ ├── new_york_times_annotated_corpus.pdf
│ ├── nyt_corpus_overview.pdf
│ └── README
├── dtd
│ ├── nitf-3-3.dtd
│ ├── nitf-3-3-ruby-include.dtd
│ └── xhtml-ruby-1.mod
├── index.html
└── tools
├── APACHE-LICENSE-2.0.txt
├── build
│ └── timestools.jar
├── build.xml
├── docs
│ ├── allclasses-frame.html
│ ├── allclasses-noframe.html
│ ├── com
│ │ └── nytlabs
│ │ └── corpus
│ │ ├── NYTCorpusDocument.html
│ │ ├── NYTCorpusDocumentParser.html
│ │ ├── package-frame.html
│ │ ├── package-summary.html
│ │ └── package-tree.html
│ ├── constant-values.html
│ ├── deprecated-list.html
│ ├── help-doc.html
│ ├── index-all.html
│ ├── index.html
│ ├── overview-tree.html
│ ├── package-list
│ ├── resources
│ │ └── inherit.gif
│ └── stylesheet.css
└── src
└── com
└── nytlabs
└── corpus
├── NYTCorpusDocument.java
└── NYTCorpusDocumentParser.java
Reactions are currently unavailable
Metadata
Metadata
Assignees
Labels
No labels