Chapter 11
Document Information and Metadata

cpdf -info [-raw | -utf8] in.pdf

cpdf -page-info in.pdf

cpdf -pages in.pdf

cpdf -set-title <title of document>
     [-also-set-xmp] [-just-set-xmp] [-raw] in.pdf -o out.pdf
(Also -set-author etc. See Section 11.2.)

cpdf -set-page-layout <layout> in.pdf -o out.pdf

cpdf -set-page-mode <mode> in.pdf -o out.pdf

cpdf -hide-toolbar <true | false> in.pdf -o out.pdf
     -hide-menubar
     -hide-window-ui
     -fit-window
     -center-window
     -display-doc-title

cpdf -open-at-page <page number> in.pdf -o out.pdf
cpdf -open-at-page-fit <page number> in.pdf -o out.pdf

cpdf -set-metadata <metadata-file> in.pdf -o out.pdfcpdf -remove-metadata in.pdf -o out.pdf
cpdf -print-metadata in.pdf
cpdf -create-metadata in.pdf -o out.pdf
cpdf -set-metadata-date <date> in.pdf -o out.pdf

cpdf -add-page-labels in.pdf -o out.pdf
     [-label-style <style>] [-label-prefix <string>]
     [-label-startval <integer>] [-labels-progress]

cpdf -remove-page-labels in.pdf -o out.pdf
cpdf -print-page-labels in.pdf

11.1 Reading Document Information

The -info operation prints entries from the document information dictionary, and from any XMP metadata to standard output.

$cpdf -info pdf_reference.pdf
Encryption: 40bit
Linearized: true
Permissions: No edit
Version: 1.6
Pages: 1310
Title: PDF Reference, version 1.7
Author: Adobe Systems Incorporated
Subject: Adobe Portable Document Format (PDF)
Keywords:
Creator: FrameMaker 7.2
Producer: Acrobat Distiller 7.0.5 (Windows)
Created: D:20061017081020Z
Modified: D:20061118211043-0230
XMP pdf:Producer: Adobe PDF library 7.77
XMP xmp:CreateDate: 2006-12-21T18:19:09+01:00
XMP xmp:CreatorTool: Adobe Illustrator CS2
XMP xmp:MetadataDate: 2006-12-21T18:19:09Z
XMP xmp:ModifyDate: 2006-12-21T18:19:09Z
XMP dc:title: AI6

The details of the format for creation and modification dates can be found in Appendix A.

By default, cpdf strips to ASCII, discarding character codes in excess of 127. In order to preserve the original unicode, add the -utf8 option. To disable all postprocessing of the string, add -raw. See Section 1.17 for more information.

The -page-info operation prints the page label, media box and other boxes page-by-page to standard output, for all pages in the current range.

$cpdf -page-info 14psfonts.pdf
Page 1:
Label: i
MediaBox: 0.000000 0.000000 600.000000 450.000000
CropBox: 200.000000 200.000000 500.000000 500.000000
BleedBox:
TrimBox:
ArtBox:
Rotation: 0

Note that the format for boxes is minimum x, minimum y, maximum x, maximum y.

The -pages operation prints the number of pages in the file.

cpdf -pages Archos.pdf
8

11.2 Setting Document Information

The document information dictionary in a PDF file specifies various pieces of information about a PDF. These can be consulted in a PDF viewer (for instance, Acrobat).

Here is a summary of the commands for setting entries in the document information dictionary:

Information        Examplecomm and-lin efragment
Title              cpdf -set-title

(The details of the format for creation and modification dates can be found in Appendix A. Using the date "now" uses the time and date at which the command is executed. Note also that -producer and -creator may be used to set the producer and/or the creator when writing any file, separate from the operations described in this chapter.)

For example, to set the title, the full command line would be

cpdf -set-title "A Night in London" in.pdf -o out.pdf

The text string is considered to be in UTF8 format, unless the -raw option is added—in which case, it is unprocessed, save for the replacement of any octal escape sequence such as \017, which is replaced by a character of its value (here, 15).

To set also any field in the XMP metadata, add -also-set-xmp. The field must exist already. To set only the field (not the document information dictionary), add -just-set-xmp instead.

11.3 XMP Metadata

PDF files can contain a piece of arbitrary metadata, often in XMP format. This is typically stored in an uncompressed stream, so that other applications can read it without having to decode the whole PDF. To set the metadata:

cpdf -set-metadata data.xml in.pdf -o out.pdf

To remove any metadata:

cpdf -remove-metadata in.pdf -o out.pdf

To print the current metadata to standard output:

cpdf -print-metadata in.pdf

To create XMP metadata from scratch, using any information in the Document Information Dictionary (old-style metadata):

cpdf -create-metadata in.pdf -o out.pdf

To set the XMP metadata date field, use:

cpdf -set-metadata-date <date> in.pdf -o out.pdf

The date format is defined in Appendix A.2. Using the date "now" uses the time and date at which the command is executed.

11.4 Upon Opening a Document

11.4.1 Page Layout

The -set-page-layout operation specifies the page layout to be used when a document is opened in, for instance, Acrobat. The possible (case-sensitive) values are:

SinglePage      D isplay onepageatatim e
OneColumn       D isplay thep agesinonecolumn

TwoColumnLeft   Donispthlaeylethf pages in tw o colum ns, odd num bered pages

TwoColumnRight  Donispthlaeylethn pagesintwo columns,evennum beredpages
                (PDF 1.5and above)Displaythepagestwoatatime,odd
TwoPageLeft     num bered pageson the left

TwoPageRight    (PDF 1.5andabove)Displaythepagestw oatatime,even
                num bered pageson the left

For instance:

cpdf -set-page-layout TwoColumnRight in.pdf -o out.pdf

NB: If the file has a valid /OpenAction setting, which tells the PDF reader to open at a certain page or position on a page, this will override the page layout option. To prevent this, use the -remove-dict-entry functionality from Section 18.9:

cpdf -remove-dict-entry /OpenAction in.pdf -o out.pdf

11.4.2 Page Mode

The page mode in a PDF file defines how a viewer should display the document when first opened. The possible (case-sensitive) values are:

UseNone         N either docum entoutlinenor thum bnailim ages visible

UseOutlines     D ocum entoutline (bookmarks)visible
UseThumbs       Thum bnailimagesvisible
                Full-screenm ode(no menubar,windowcontrols,orany-
FullScreen      thing butthe docum entvisible)

UseOC           (PDF 1.5andabove)Optionalcontentgrouppanelvisible
UseAttachments  (PDF 1.5and above)Attachm entspanelvisible

For instance:

cpdf -set-page-mode FullScreen in.pdf -o out.pdf

11.4.3 Display Options

-hide-toolbar
                    H ide the viewer’stoolbar
-hide-menubar       D ocumentoutline (bookmarks)visible
-hide-window-ui     H ide the viewer’sscrollbars

-fit-window         R esizethe docum ent’swindowstofitsize offirstpage
-center-window      P ositionthedocumentwindow in thecenterofthescreen
                    D isplay the docum enttitleinsteadofthefilenameinthe
-display-doc-title  titlebar

For instance:

cpdf -hide-toolbar true in.pdf -o out.pdf

The page a PDF file opens at can be set using -open-at-page:

cpdf -open-at-page 15 in.pdf -o out.pdf

To have that page scaled to fit the window in the viewer, use -open-at-page-fit instead:

cpdf -open-at-page-fit end in.pdf -o out.pdf

(Here, we used end to open at the last page. Any page specification describing a single page is ok here.)

11.5 Page Labels

It is possible to add page labels to a document. These are not the printed on the page, but may be displayed alongside thumbnails or in print dialogue boxes by PDF readers. We use -add-page-labels to do this, by default with decimal arabic numbers (1,2,3…). We can add -label-style to choose what type of labels to add from these kinds:

    DecimalArabic  1,2,3,4,5...
   LowercaseRoman  i,ii,iii,iv,v...
   UppercaseRoman  I,II,III,IV,V...
 LUopwpeerrccaasseeLLeetttteerrss  aA,b,,Bc,,C..,...,.z,,aZa,,AbAb,..B.B...
NoLabelPrefixOnly  N onum ber,butaprefixwillbe used ifdefined.

We can use -label-prefix to add a textual prefix to each label. Consider a file with twenty pages and no current page labels (a PDF reader will assume 1,2,3…if there are none). We will add the following page labels:

i, ii, iii, iv, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, A-0, A-1, A-2, A-3, A-4, A-5

Here are the commands, in order:

cpdf -add-page-labels in.pdf 1-4 -label-style LowercaseRoman
     -o out.pdf

cpdf -add-page-labels out.pdf 5-14 -o out.pdf

cpdf -add-page-labels out.pdf 15-20 -label-prefix "A-"
     -label-startval 0 -o out.pdf

By default the labels begin at page number 1 for each range. To override this, we can use -label-startval (we used 0 in the final command), where we want the numbers to begin at zero rather than one. The option -labels-progress can be added to make sure the start value progresses between sub-ranges when the page range specified is disjoint, e.g 1-9, 30-40 or odd.

Page labels may be removed altogether by using -remove-page-labels command. To print the page labels from an existing file, use -print-page-labels. For example:

$ cpdf -print-page-labels cpdfmanual.pdf
labelstyle: LowercaseRoman
labelprefix: None
startpage: 1
startvalue: 1
labelstyle: DecimalArabic
labelprefix: None
startpage: 9
startvalue: 1

Java Interface

 
/* CHAPTER 11. Document Information and Metadata */ 
 
/** Finds out if a document is linearized as quickly as possible without 
loading it. */ 
public boolean isLinearized(String filename) throws CpdfError; 
 
/** Returns the minor version number of a document. */ 
public native int getVersion(Pdf pdf) throws CpdfError; 
 
/** Returns the major version number of a document. */ 
public native int getMajorVersion(Pdf pdf) throws CpdfError; 
 
/** Returns the title of a document. */ 
public String getTitle(Pdf pdf) throws CpdfError; 
 
/** Returns the author of a document. */ 
public String getAuthor(Pdf pdf) throws CpdfError; 
 
/** Returns the subject of a document. */ 
public String getSubject(Pdf pdf) throws CpdfError; 
 
/** Returns the keywords of a document. */ 
public String getKeywords(Pdf pdf) throws CpdfError; 
 
/** Returns the creator of a document. */ 
public String getCreator(Pdf pdf) throws CpdfError; 
 
/** Returns the producer of a document. */ 
public String getProducer(Pdf pdf) throws CpdfError; 
 
/** Returns the creation date of a document. */ 
public String getCreationDate(Pdf pdf) throws CpdfError; 
 
/** Returns the modification date of a document. */ 
public String getModificationDate(Pdf pdf) throws CpdfError; 
 
/** Returns the XMP title of a document. */ 
public String getTitleXMP(Pdf pdf) throws CpdfError; 
 
/** Returns the XMP author of a document. */ 
public String getAuthorXMP(Pdf pdf) throws CpdfError; 
 
/** Returns the XMP subject of a document. */ 
public String getSubjectXMP(Pdf pdf) throws CpdfError; 
 
/** Returns the XMP keywords of a document. */ 
public String getKeywordsXMP(Pdf pdf) throws CpdfError; 
 
/** Returns the XMP creator of a document. */ 
public String getCreatorXMP(Pdf pdf) throws CpdfError; 
 
/** Returns the XMP producer of a document. */ 
public String getProducerXMP(Pdf pdf) throws CpdfError; 
 
/** Returns the XMP creation date of a document. */ 
public String getCreationDateXMP(Pdf pdf) throws CpdfError; 
 
/** Returns the XMP modification date of a document. */ 
public String getModificationDateXMP(Pdf pdf) throws CpdfError; 
 
/** Sets the title of a document. */ 
public void setTitle(Pdf pdf, String str) throws CpdfError; 
 
/** Sets the author of a document. */ 
public void setAuthor(Pdf pdf, String str) throws CpdfError; 
 
/** Sets the subject of a document. */ 
public void setSubject(Pdf pdf, String str) throws CpdfError; 
 
/** Sets the keywords of a document. */ 
public void setKeywords(Pdf pdf, String str) throws CpdfError; 
 
/** Sets the creator of a document. */ 
public void setCreator(Pdf pdf, String str) throws CpdfError; 
 
/** Sets the producer of a document. */ 
public void setProducer(Pdf pdf, String str) throws CpdfError; 
 
/** Sets the creation date of a document. */ 
public void setCreationDate(Pdf pdf, String str) throws CpdfError; 
 
/** Sets the modification date of a document. */ 
public void setModificationDate(Pdf pdf, String str) throws CpdfError; 
 
/** Sets the XMP title of a document. */ 
public void setTitleXMP(Pdf pdf, String str) throws CpdfError; 
 
/** Sets the XMP author of a document. */ 
public void setAuthorXMP(Pdf pdf, String str) throws CpdfError; 
 
/** Sets the XMP subject of a document. */ 
public void setSubjectXMP(Pdf pdf, String str) throws CpdfError; 
 
/** Sets the XMP keywords of a document. */ 
public void setKeywordsXMP(Pdf pdf, String str) throws CpdfError; 
 
/** Sets the XMP creator of a document. */ 
public void setCreatorXMP(Pdf pdf, String str) throws CpdfError; 
 
/** Sets the XMP producer of a document. */ 
public void setProducerXMP(Pdf pdf, String str) throws CpdfError; 
 
/** Sets the XMP creation date of a document. */ 
public void setCreationDateXMP(Pdf pdf, String str) throws CpdfError; 
 
/** Sets the XMP modification date of a document. */ 
public void setModificationDateXMP(Pdf pdf, String str) throws CpdfError; 
 
/** Returns the components from a PDF date string in an array of length 8. 
@param datestring date string 
@param r return array */ 
public native void getDateComponents(String datestring, int[] r) 
    throws CpdfError; 
 
/** Builds a PDF date string from individual components. */ 
public native String dateStringOfComponents(int year, int month, int day, 
                                            int hour, int minute, 
                                            int second, int hour_offset, 
                                            int minute_offset) 
    throws CpdfError; 
 
/** Gets the viewing rotation for a given page. */ 
public native int getPageRotation(Pdf pdf, int pagenumber) 
    throws CpdfError; 
 
/** Returns <code>true</code> if the given page has the given box. E.g 
"/CropBox". 
@param pdf PDF document 
@param pagenumber page number 
@param boxname box name, e.g "/CropBox" */ 
public native boolean hasBox(Pdf pdf, int pagenumber, String boxname) 
    throws CpdfError; 
 
/** These functions get a box given the document. The values are returned 
in a given array of length 4: min x, max x, min y, max y in points. Only 
succeeds if such a box exists, as checked by {@link #hasBox(Pdf, int, 
String) hasBox}. */ 
public native void getMediaBox(Pdf pdf, int pagenumber, double[] r) 
    throws CpdfError; 
 
public native void getCropBox(Pdf pdf, int pagenumber, double[] r) 
    throws CpdfError; 
 
public native void getBleedBox(Pdf pdf, int pagenumber, double[] r) 
    throws CpdfError; 
 
public native void getArtBox(Pdf pdf, int pagenumber, double[] r) 
    throws CpdfError; 
 
public native void getTrimBox(Pdf pdf, int pagenumber, double[] r) 
    throws CpdfError; 
 
/** These functions set a box given the document page range, min x, max x, 
min y, max y in points. */ 
public native void setMediabox(Pdf pdf, Range range, double minx, 
                               double maxx, double miny, double maxy) 
    throws CpdfError; 
 
public native void setCropBox(Pdf pdf, Range range, double minx, 
                              double maxx, double miny, double maxy) 
    throws CpdfError; 
 
public native void setTrimBox(Pdf pdf, Range range, double minx, 
                              double maxx, double miny, double maxy) 
    throws CpdfError; 
 
public native void setArtBox(Pdf pdf, Range range, double minx, 
                             double maxx, double miny, double maxy) 
    throws CpdfError; 
 
public native void setBleedBox(Pdf pdf, Range range, double minx, 
                               double maxx, double miny, double maxy) 
    throws CpdfError; 
 
/** Marks a document as trapped. */ 
public native void markTrapped(Pdf pdf) throws CpdfError; 
 
/** Marks a document as untrapped. */ 
public native void markUntrapped(Pdf pdf) throws CpdfError; 
 
/** Marks a document as trapped in XMP metadata. */ 
public native void markTrappedXMP(Pdf pdf) throws CpdfError; 
 
/** Marks a document as untrapped in XMP metadata. */ 
public native void markUntrappedXMP(Pdf pdf) throws CpdfError; 
 
/** Sets the page layout for a document, such as {@link #singlePage 
singlePage} */ 
public native void setPageLayout(Pdf pdf, int layout) throws CpdfError; 
 
/** Sets the page mode for a document, such as {@link #useNone useNone} */ 
public native void setPageMode(Pdf pdf, int mode) throws CpdfError; 
 
/** Sets the hide toolbar flag. */ 
public native void hideToolbar(Pdf pdf, boolean flag) throws CpdfError; 
 
/** Sets the hide menubar flag. */ 
public native void hideMenubar(Pdf pdf, boolean flag) throws CpdfError; 
 
/** Sets the hide window UI flag. */ 
public native void hideWindowUi(Pdf pdf, boolean flag) throws CpdfError; 
 
/** Sets the fit window flag. */ 
public native void fitWindow(Pdf pdf, boolean flag) throws CpdfError; 
 
/** Sets the center window flag. */ 
public native void centerWindow(Pdf pdf, boolean flag) throws CpdfError; 
 
/** Sets the display document title flag. */ 
public native void displayDocTitle(Pdf pdf, boolean flag) throws CpdfError; 
 
/** Sets the PDF to open, possibly with zoom-to-fit, at the given page 
number. 
@param pdf PDF document 
@param fit if <code>true</code> zoom to fit 
@param pagenumber page number */ 
public native void openAtPage(Pdf pdf, boolean fit, int pagenumber) 
    throws CpdfError; 
 
/** Sets the XMP metadata of a document, given a file name. */ 
public void setMetadataFromFile(Pdf pdf, String filename) throws CpdfError; 
 
/** Sets the XMP metadata from an array of bytes. */ 
public native void setMetadataFromByteArray(Pdf pdf, byte[] data) 
    throws CpdfError; 
 
/** Removes the XMP metadata from a document. */ 
public native void removeMetadata(Pdf pdf) throws CpdfError; 
 
/** Returns the XMP metadata from a document. */ 
public native byte[] getMetadata(Pdf pdf) throws CpdfError; 
 
/** Builds fresh XMP metadata as best it can from 
existing metadata in the document. */ 
public native void createMetadata(Pdf pdf) throws CpdfError; 
 
/** Sets the metadata date for a PDF. The date is given in PDF date format. 
Jcpdf will convert it to XMP format. The date "now" means now. */ 
public native void setMetadataDate(Pdf pdf, String date) throws CpdfError; 
 
/** Adds page labels to a document. 
@param pdf PDF document 
@param style label style, such as {@link #decimalArabic decimalArabic} 
@param prefix text for each label 
@param offset can be used to shift the numbering up or down 
@param range page range 
@param progress if <code>true</code>, labels progress */ 
public void addPageLabels(Pdf pdf, int style, String prefix, int offset, 
                          Range range, boolean progress) 
    throws CpdfError 
 
/** Removes the page labels from the document. */ 
public native void removePageLabels(Pdf pdf) throws CpdfError; 
 
/** Calculates the full label string for a given page, and returns it. */ 
public String getPageLabelStringForPage(Pdf pdf, int pagenumber) 
    throws CpdfError 
 
/** Gets page label data. Call {@link #startGetPageLabels(Pdf) 
startGetPageLabels} to find out how many there are, then use these serial 
numbers to get the style, prefix, offset and start value (note not a 
range). Call {@link #endGetPageLabels() endGetPageLabels} to clean up. 
 
<p>For example, a document might have five pages of introduction with roman 
numerals, followed by the rest of the pages in decimal arabic, numbered 
from one: 
 
<p>labelstyle = LowercaseRoman<br/> 
labelprefix = ""<br/> 
startpage = 1<br/> 
startvalue = 1<br/> 
 
<p>labelstyle = DecimalArabic<br/> 
labelprefix = ""<br/> 
startpage = 6<br/> 
startvalue = 1<br> */ 
public native int startGetPageLabels(Pdf pdf) throws CpdfError; 
 
public native void endGetPageLabels() throws CpdfError; 
 
public native int getPageLabelOffset(int n) throws CpdfError; 
 
public native int getPageLabelStyle(int n) throws CpdfError; 
 
public native int getPageLabelRange(int n) throws CpdfError; 
 
public String getPageLabelPrefix(int n) throws CpdfError;