added way to detect comments during parsing

raydac · raydac · commit 21c8b2ab74c7 · 2025-01-10T13:47:12.000+02:00
diff --git a/src/main/java/com/igormaznitsa/prologparser/GenericPrologParser.java b/src/main/java/com/igormaznitsa/prologparser/GenericPrologParser.java
@@ -27,7 +27,8 @@
  * Generic version of prolog parser.
  */
 public class GenericPrologParser extends PrologParser {
-  public GenericPrologParser(final Reader reader, final ParserContext context) {
-    super(reader, context);
+  public GenericPrologParser(final Reader reader, final ParserContext context,
+                             final TokenizedCommentListener... tokenizedCommentListeners) {
+    super(reader, context, tokenizedCommentListeners);
   }
 }
diff --git a/src/main/java/com/igormaznitsa/prologparser/ParserContext.java b/src/main/java/com/igormaznitsa/prologparser/ParserContext.java
@@ -68,6 +68,12 @@ public interface ParserContext {
    * @since 2.0.2
    */
   int FLAG_ZERO_QUOTATION_ALLOWS_WHITESPACE_CHAR = 64;
+  /**
+   * Return commentaries as atoms.
+   *
+   * @since 2.2.0
+   */
+  int FLAG_COMMENTS_AS_ATOMS = 128;
 
   /**
    * Check that the context contains an operator starts with some string.
diff --git a/src/main/java/com/igormaznitsa/prologparser/PrologParser.java b/src/main/java/com/igormaznitsa/prologparser/PrologParser.java
@@ -21,6 +21,7 @@
 
 package com.igormaznitsa.prologparser;
 
+import static com.igormaznitsa.prologparser.ParserContext.FLAG_COMMENTS_AS_ATOMS;
 import static com.igormaznitsa.prologparser.ParserContext.FLAG_DOT2_AS_LIST;
 import static com.igormaznitsa.prologparser.ParserContext.FLAG_NONE;
 import static com.igormaznitsa.prologparser.ParserContext.FLAG_VAR_AS_FUNCTOR;
@@ -102,13 +103,25 @@ public abstract class PrologParser implements Iterable<PrologTerm>, AutoCloseabl
 
   protected final ParserContext context;
   protected final int parserFlags;
+  private final boolean commentsAsAtoms;
   private final Tokenizer tokenizer;
   private boolean autoCloseReaderFlag;
+  private final List<TokenizedCommentListener> commentTokenListeners;
 
-  protected PrologParser(final Reader source, final ParserContext context) {
+  protected PrologParser(
+      final Reader source,
+      final ParserContext context,
+      final TokenizedCommentListener... tokenizedCommentListeners
+  ) {
     this.context = context == null ? DefaultParserContext.of(ParserContext.FLAG_NONE) : context;
     this.parserFlags = context == null ? FLAG_NONE : context.getFlags();
+    this.commentsAsAtoms = (this.parserFlags & FLAG_COMMENTS_AS_ATOMS) != 0;
     this.tokenizer = new Tokenizer(this, META_OP_MAP, requireNonNull(source));
+    if (tokenizedCommentListeners.length == 0) {
+      this.commentTokenListeners = List.of();
+    } else {
+      this.commentTokenListeners = List.of(tokenizedCommentListeners);
+    }
   }
 
   public static Op findBaseMetaOperator(final String text, final OpAssoc type) {
@@ -178,14 +191,36 @@ public boolean hasNext() {
     return this.tokenizer.peek() != null;
   }
 
+  private TokenizerResult readNextTokenCommentAware() {
+    TokenizerResult result;
+    if (this.commentsAsAtoms) {
+      while (true) {
+        result = this.tokenizer.readNextToken();
+        if (result != null
+            && (result.getResult().getQuotation() == Quotation.COMMENT_BLOCK ||
+            result.getResult().getQuotation() == Quotation.COMMENT_LINE)) {
+          for (final TokenizedCommentListener listener : this.commentTokenListeners) {
+            listener.onCommentToken(this, result);
+          }
+        } else {
+          break;
+        }
+      }
+    } else {
+      result = this.tokenizer.readNextToken();
+    }
+    return result;
+  }
+
   public PrologTerm next() {
     final PrologTerm found = readBlock(OPERATORS_PHRASE);
     if (found == null) {
       throw new NoSuchElementException("No terms in source");
     } else {
-      final TokenizerResult endAtom = this.tokenizer.readNextToken();
+      final TokenizerResult endAtom = this.readNextTokenCommentAware();
       if (endAtom == null || !endAtom.getResult().getText().equals(OPERATOR_DOT.getText())) {
-        throw new PrologParserException("End operator is not found", this.tokenizer.getLine(),
+        throw new PrologParserException("End operator is not found",
+            this.tokenizer.getLine(),
             this.tokenizer.getPos());
       }
     }
@@ -203,7 +238,7 @@ private PrologStruct readStruct(final PrologTerm functor) {
         return null;
       }
 
-      final TokenizerResult nextAtom = this.tokenizer.readNextToken();
+      final TokenizerResult nextAtom = this.readNextTokenCommentAware();
       if (nextAtom == null) {
         throw new PrologParserException("Can't read next token in block", this.tokenizer.getLine(),
             this.tokenizer.getPos());
@@ -242,7 +277,7 @@ private PrologTerm readList(final TokenizerResult openingBracket) {
     while (continueReading) {
       final PrologTerm block = readBlock(OPERATORS_INSIDE_LIST);
 
-      final TokenizerResult nextAtom = this.tokenizer.readNextToken();
+      final TokenizerResult nextAtom = this.readNextTokenCommentAware();
       if (nextAtom == null) {
         throw new PrologParserException("Can't read next token in list", this.tokenizer.getLine(),
             this.tokenizer.getPos());
@@ -281,7 +316,7 @@ private PrologTerm readList(final TokenizerResult openingBracket) {
                 tokenizer.getLastTokenPos(), null);
           }
 
-          final TokenizerResult nextAtomTwo = tokenizer.readNextToken();
+          final TokenizerResult nextAtomTwo = this.readNextTokenCommentAware();
           if (nextAtomTwo == null) {
             throw new PrologParserException("Can't find expected token in list",
                 this.tokenizer.getLine(), this.tokenizer.getPos());
@@ -353,7 +388,7 @@ private PrologTerm readBlock(final Koi7CharOpMap endOperators) {
 
     while (true) {
       // read next atom from tokenizer
-      TokenizerResult readAtomContainer = this.tokenizer.readNextToken();
+      TokenizerResult readAtomContainer = this.readNextTokenCommentAware();
 
       if (readAtomContainer == null) {
         if (currentTreeItem == null) {
@@ -470,7 +505,7 @@ private PrologTerm readBlock(final Koi7CharOpMap endOperators) {
                         readAtomContainer.getLine(), readAtomContainer.getPos());
                   }
 
-                  final TokenizerResult token = this.tokenizer.readNextToken();
+                  final TokenizerResult token = this.readNextTokenCommentAware();
 
                   final PrologTerm closingAtom;
                   if (token == null) {
@@ -499,7 +534,7 @@ private PrologTerm readBlock(final Koi7CharOpMap endOperators) {
         }
       } else {
         if (readAtom.getType() != TermType.VAR || (this.parserFlags & FLAG_VAR_AS_FUNCTOR) != 0) {
-          TokenizerResult nextToken = this.tokenizer.readNextToken();
+          TokenizerResult nextToken = this.readNextTokenCommentAware();
 
           if (nextToken == null) {
             throw new PrologParserException("Non-closed clause", this.tokenizer.getLastTokenLine(),
diff --git a/src/main/java/com/igormaznitsa/prologparser/TokenizedCommentListener.java b/src/main/java/com/igormaznitsa/prologparser/TokenizedCommentListener.java
@@ -0,0 +1,20 @@
+package com.igormaznitsa.prologparser;
+
+import com.igormaznitsa.prologparser.tokenizer.TokenizerResult;
+
+/**
+ * Listener gets notifications from parser for met parsed comments if detection flag is on
+ *
+ * @see ParserContext#FLAG_COMMENTS_AS_ATOMS
+ * @since 2.2.0
+ */
+@FunctionalInterface
+public interface TokenizedCommentListener {
+  /**
+   * Notification from parser that either a line comment or a block comment has got as a tokenizer result.
+   *
+   * @param parser  source prolog parser, must not be null
+   * @param comment detected comment token as an atom, must not be null
+   */
+  void onCommentToken(PrologParser parser, TokenizerResult comment);
+}
diff --git a/src/main/java/com/igormaznitsa/prologparser/terms/Quotation.java b/src/main/java/com/igormaznitsa/prologparser/terms/Quotation.java
@@ -47,7 +47,19 @@ public enum Quotation {
    * Term is back tick quotation
    * example: `hello`
    */
-  BACK_TICK("`");
+  BACK_TICK("`"),
+  /**
+   * Special variant shows that content is line comment
+   *
+   * @since 2.2.0
+   */
+  COMMENT_LINE("%"),
+  /**
+   * Special variant shows that content is block comment
+   *
+   * @since 2.2.0
+   */
+  COMMENT_BLOCK("/*");
 
   private final String quotationMark;
   public static final List<Quotation> VALUES = List.of(Quotation.values());
@@ -72,6 +84,13 @@ public String getQuotationMark() {
    * @return quoted string
    */
   public String quoteString(final String str) {
-    return this.quotationMark + escapeString(str == null ? "" : str, this) + this.quotationMark;
+    switch (this) {
+      case COMMENT_LINE:
+        return COMMENT_LINE.quotationMark + str;
+      case COMMENT_BLOCK:
+        return COMMENT_BLOCK.quotationMark + str + "*/";
+      default:
+        return this.quotationMark + escapeString(str == null ? "" : str, this) + this.quotationMark;
+    }
   }
 }
diff --git a/src/main/java/com/igormaznitsa/prologparser/tokenizer/Tokenizer.java b/src/main/java/com/igormaznitsa/prologparser/tokenizer/Tokenizer.java
@@ -22,6 +22,7 @@
 package com.igormaznitsa.prologparser.tokenizer;
 
 import static com.igormaznitsa.prologparser.ParserContext.FLAG_BLOCK_COMMENTS;
+import static com.igormaznitsa.prologparser.ParserContext.FLAG_COMMENTS_AS_ATOMS;
 import static com.igormaznitsa.prologparser.ParserContext.FLAG_ZERO_QUOTATION_ALLOWS_WHITESPACE_CHAR;
 import static com.igormaznitsa.prologparser.ParserContext.FLAG_ZERO_QUOTATION_CHARCODE;
 import static com.igormaznitsa.prologparser.tokenizer.TokenizerState.ATOM;
@@ -58,6 +59,7 @@ public final class Tokenizer {
   private final StringBuilderEx specCharBuf;
   private final StringBuilderEx insideCharBuffer;
   private final boolean blockCommentsAllowed;
+  private final boolean returnCommentsAsToken;
   private final boolean zeroSingleQuotationAllowed;
   private final boolean zeroQuotationAllowsWhitespaceChar;
   private final Reader reader;
@@ -82,6 +84,8 @@ public Tokenizer(final PrologParser parser, final Koi7CharOpMap metaOperators,
 
     final int maxAllowedCharBufferSize = parser.getContext() == null ? Integer.MAX_VALUE :
         parser.getContext().getMaxTokenizerBufferLength();
+    this.returnCommentsAsToken = parser.getContext() != null
+        && ((parser.getContext().getFlags() & FLAG_COMMENTS_AS_ATOMS) != 0);
     this.blockCommentsAllowed = parser.getContext() != null
         && ((parser.getContext().getFlags() & FLAG_BLOCK_COMMENTS) != 0);
     this.zeroSingleQuotationAllowed = parser.getContext() != null
@@ -269,25 +273,47 @@ public void fixPosition() {
     this.lastTokenPos = this.pos - 1;
   }
 
-  private void skipUntilBlockCommentEnd() throws IOException {
+  private String skipTillBlockCommentEnd(final boolean accumulateText) throws IOException {
+    final StringBuilder result = accumulateText ? new StringBuilder() : null;
     boolean starCharDetected = false;
     while (true) {
       final int readChar = this.doReadChar();
-      if (readChar < 0 || (readChar == '/' && starCharDetected)) {
+      if (readChar < 0) {
         break;
+      } else if (readChar == '/') {
+        if (starCharDetected) {
+          if (accumulateText) {
+            result.setLength(result.length() - 1);
+          }
+          break;
+        } else {
+          if (accumulateText) {
+            result.append((char) readChar);
+          }
+        }
       } else {
         starCharDetected = readChar == '*';
+        if (accumulateText) {
+          result.append((char) readChar);
+        }
       }
     }
+    return accumulateText ? result.toString() : null;
   }
 
-  private void skipUntilNextString() throws IOException {
+  private String skipTillNextLine(final boolean accumulateText) throws IOException {
+    final StringBuilder result = accumulateText ? new StringBuilder() : null;
+
     while (true) {
       final int readChar = this.doReadChar();
       if (readChar < 0 || readChar == '\n') {
         break;
       }
+      if (accumulateText) {
+        result.append((char) readChar);
+      }
     }
+    return accumulateText ? result.toString() : null;
   }
 
   public TokenizerResult pop() {
@@ -324,10 +350,10 @@ public TokenizerResult readNextToken() {
     final StringBuilderEx strBuffer = this.strBuf;
     final StringBuilderEx specCharBuffer = this.specCharBuf;
 
-    OpContainer lastFoundFullOperator = null;
+    final boolean commentsAsAtoms = this.returnCommentsAsToken;
 
+    OpContainer lastFoundFullOperator = null;
     boolean letterOrDigitOnly = false;
-
     boolean foundUnderscoreInNumber = false;
 
     try {
@@ -416,18 +442,30 @@ public TokenizerResult readNextToken() {
 
         final char chr = (char) readChar;
 
-        if (state != STRING && this.blockCommentsAllowed && chr == '*'
-            && this.strBuf.isLastChar('/')) {
+        if (state != STRING
+            && this.blockCommentsAllowed
+            && chr == '*'
+            && this.strBuf.isLastChar('/')
+        ) {
           if (this.strBuf.isSingleChar('/')) {
             this.strBuf.pop();
             state = this.strBuf.isEmpty() ? LOOK_FOR : state;
           } else if (state == OPERATOR) {
             throw new PrologParserException("Operator can be mixed with comment block: "
-                + this.strBuf + chr, getLastTokenLine(), getLastTokenPos());
+                + this.strBuf + chr, this.getLastTokenLine(), this.getLastTokenPos());
           }
 
-          skipUntilBlockCommentEnd();
-
+          if (commentsAsAtoms) {
+            final String commentText = this.skipTillBlockCommentEnd(true);
+            return new TokenizerResult(
+                new PrologAtom(commentText, Quotation.COMMENT_BLOCK),
+                state,
+                this.getLastTokenLine(),
+                this.getLastTokenPos()
+            );
+          } else {
+            this.skipTillBlockCommentEnd(false);
+          }
         } else {
           switch (state) {
             case LOOK_FOR: {
@@ -437,7 +475,16 @@ public TokenizerResult readNextToken() {
 
               switch (chr) {
                 case '%': {
-                  skipUntilNextString();
+                  this.fixPosition();
+                  final String text = skipTillNextLine(commentsAsAtoms);
+                  if (commentsAsAtoms) {
+                    return new TokenizerResult(
+                        new PrologAtom(text, Quotation.COMMENT_LINE),
+                        state,
+                        this.getLastTokenLine(),
+                        this.getLastTokenPos()
+                    );
+                  }
                 }
                 break;
                 case '_': {
diff --git a/src/main/java/com/igormaznitsa/prologparser/tokenizer/TokenizerState.java b/src/main/java/com/igormaznitsa/prologparser/tokenizer/TokenizerState.java
@@ -32,5 +32,7 @@ public enum TokenizerState {
   OPERATOR,
   VAR,
   INTEGER,
-  FLOAT
+  FLOAT,
+  LINE_COMMENT,
+  BLOCK_COMMENT
 }
diff --git a/src/test/java/com/igormaznitsa/prologparser/tokenizer/TokenizerTest.java b/src/test/java/com/igormaznitsa/prologparser/tokenizer/TokenizerTest.java

Original file line number	Diff line number	Diff line change
`@@ -27,7 +27,8 @@`
`27`	`27`	`* Generic version of prolog parser.`
`28`	`28`	`*/`
`29`	`29`	`public class GenericPrologParser extends PrologParser {`
`30`		`- public GenericPrologParser(final Reader reader, final ParserContext context) {`
`31`		`- super(reader, context);`
	`30`	`+ public GenericPrologParser(final Reader reader, final ParserContext context,`
	`31`	`+ final TokenizedCommentListener... tokenizedCommentListeners) {`
	`32`	`+ super(reader, context, tokenizedCommentListeners);`
`32`	`33`	`}`
`33`	`34`	`}`
Original file line number	Diff line number	Diff line change
`@@ -32,5 +32,7 @@ public enum TokenizerState {`
`32`	`32`	`OPERATOR,`
`33`	`33`	`VAR,`
`34`	`34`	`INTEGER,`
`35`		`- FLOAT`
	`35`	`+ FLOAT,`
	`36`	`+ LINE_COMMENT,`
	`37`	`+ BLOCK_COMMENT`
`36`	`38`	`}`