agential-ai · alckasoc · Jul 13, 2024 · Jul 12, 2024 · Jul 12, 2024 · Jul 12, 2024
diff --git a/agential/cog/self_refine/factory.py b/agential/cog/self_refine/factory.py
@@ -5,34 +5,60 @@
 from agential.base.factory import BaseFactory
 from agential.cog.constants import BENCHMARK_FEWSHOTS, Benchmarks, FewShotType
 from agential.cog.self_refine.prompts import (
+    AMBIGNQ_CRITIQUE_FEWSHOT_EXAMPLES,
+    AMBIGNQ_REFINE_FEWSHOT_EXAMPLES,
+    FEVER_CRITIQUE_FEWSHOT_EXAMPLES,
+    FEVER_REFINE_FEWSHOT_EXAMPLES,
     GSM8K_CRITIQUE_FEWSHOT_EXAMPLES,
     GSM8K_REFINE_FEWSHOT_EXAMPLES,
+    HOTPOTQA_CRITIQUE_FEWSHOT_EXAMPLES,
+    HOTPOTQA_REFINE_FEWSHOT_EXAMPLES,
+    SELF_REFINE_CRITIQUE_INSTRUCTION_AMBIGNQ,
+    SELF_REFINE_CRITIQUE_INSTRUCTION_FEVER,
     SELF_REFINE_CRITIQUE_INSTRUCTION_GSM8K,
+    SELF_REFINE_CRITIQUE_INSTRUCTION_HOTPOTQA,
     SELF_REFINE_CRITIQUE_INSTRUCTION_SVAMP,
     SELF_REFINE_CRITIQUE_INSTRUCTION_TABMWP,
+    SELF_REFINE_CRITIQUE_INSTRUCTION_TRIVIAQA,
+    SELF_REFINE_INSTRUCTION_AMBIGNQ,
+    SELF_REFINE_INSTRUCTION_FEVER,
     SELF_REFINE_INSTRUCTION_GSM8K,
+    SELF_REFINE_INSTRUCTION_HOTPOTQA,
     SELF_REFINE_INSTRUCTION_SVAMP,
     SELF_REFINE_INSTRUCTION_TABMWP,
+    SELF_REFINE_INSTRUCTION_TRIVIAQA,
+    SELF_REFINE_REFINE_INSTRUCTION_AMBIGNQ,
+    SELF_REFINE_REFINE_INSTRUCTION_FEVER,
     SELF_REFINE_REFINE_INSTRUCTION_GSM8K,
+    SELF_REFINE_REFINE_INSTRUCTION_HOTPOTQA,
     SELF_REFINE_REFINE_INSTRUCTION_SVAMP,
     SELF_REFINE_REFINE_INSTRUCTION_TABMWP,
+    SELF_REFINE_REFINE_INSTRUCTION_TRIVIAQA,
     SVAMP_CRITIQUE_FEWSHOT_EXAMPLES,
     SVAMP_REFINE_FEWSHOT_EXAMPLES,
     TABMWP_CRITIQUE_FEWSHOT_EXAMPLES,
     TABMWP_REFINE_FEWSHOT_EXAMPLES,
+    TRIVIAQA_CRITIQUE_FEWSHOT_EXAMPLES,
+    TRIVIAQA_REFINE_FEWSHOT_EXAMPLES,
 )
 from agential.cog.self_refine.strategies.base import SelfRefineBaseStrategy
 from agential.cog.self_refine.strategies.math import (
     SelfRefineGSM8KStrategy,
     SelfRefineSVAMPStrategy,
     SelfRefineTabMWPStrategy,
 )
+from agential.cog.self_refine.strategies.qa import (
+    SelfRefineAmbigNQStrategy,
+    SelfRefineFEVERStrategy,
+    SelfRefineHotQAStrategy,
+    SelfRefineTriviaQAStrategy,
+)
 
 SELF_REFINE_BENCHMARK_FEWSHOTS = {
-    Benchmarks.HOTPOTQA: [],
-    Benchmarks.FEVER: [],
-    Benchmarks.TRIVIAQA: [],
-    Benchmarks.AMBIGNQ: [],
+    Benchmarks.HOTPOTQA: [FewShotType.COT, FewShotType.DIRECT, FewShotType.REACT],
+    Benchmarks.FEVER: [FewShotType.COT, FewShotType.DIRECT, FewShotType.REACT],
+    Benchmarks.TRIVIAQA: [FewShotType.COT, FewShotType.DIRECT, FewShotType.REACT],
+    Benchmarks.AMBIGNQ: [FewShotType.COT, FewShotType.DIRECT, FewShotType.REACT],
     Benchmarks.GSM8K: [FewShotType.POT],
     Benchmarks.SVAMP: [FewShotType.POT],
     Benchmarks.TABMWP: [FewShotType.POT],
@@ -42,16 +68,24 @@
 
 SELF_REFINE_PROMPTS = {
     Benchmarks.HOTPOTQA: {
-        "prompt": "",
+        "prompt": SELF_REFINE_INSTRUCTION_HOTPOTQA,
+        "critique_prompt": SELF_REFINE_CRITIQUE_INSTRUCTION_HOTPOTQA,
+        "refine_prompt": SELF_REFINE_REFINE_INSTRUCTION_HOTPOTQA,
     },
     Benchmarks.FEVER: {
-        "prompt": "",
+        "prompt": SELF_REFINE_INSTRUCTION_FEVER,
+        "critique_prompt": SELF_REFINE_CRITIQUE_INSTRUCTION_FEVER,
+        "refine_prompt": SELF_REFINE_REFINE_INSTRUCTION_FEVER,
     },
     Benchmarks.TRIVIAQA: {
-        "prompt": "",
+        "prompt": SELF_REFINE_INSTRUCTION_TRIVIAQA,
+        "critique_prompt": SELF_REFINE_CRITIQUE_INSTRUCTION_TRIVIAQA,
+        "refine_prompt": SELF_REFINE_REFINE_INSTRUCTION_TRIVIAQA,
     },
     Benchmarks.AMBIGNQ: {
-        "prompt": "",
+        "prompt": SELF_REFINE_INSTRUCTION_AMBIGNQ,
+        "critique_prompt": SELF_REFINE_CRITIQUE_INSTRUCTION_AMBIGNQ,
+        "refine_prompt": SELF_REFINE_REFINE_INSTRUCTION_AMBIGNQ,
     },
     Benchmarks.GSM8K: {
         "prompt": SELF_REFINE_INSTRUCTION_GSM8K,
@@ -77,10 +111,22 @@
 }
 
 SELF_REFINE_FEWSHOTS: Dict[str, Dict] = {
-    Benchmarks.HOTPOTQA: {},
-    Benchmarks.FEVER: {},
-    Benchmarks.TRIVIAQA: {},
-    Benchmarks.AMBIGNQ: {},
+    Benchmarks.HOTPOTQA: {
+        "critique_examples": HOTPOTQA_CRITIQUE_FEWSHOT_EXAMPLES,
+        "refine_examples": HOTPOTQA_REFINE_FEWSHOT_EXAMPLES,
+    },
+    Benchmarks.FEVER: {
+        "critique_examples": FEVER_CRITIQUE_FEWSHOT_EXAMPLES,
+        "refine_examples": FEVER_REFINE_FEWSHOT_EXAMPLES,
+    },
+    Benchmarks.TRIVIAQA: {
+        "critique_examples": TRIVIAQA_CRITIQUE_FEWSHOT_EXAMPLES,
+        "refine_examples": TRIVIAQA_REFINE_FEWSHOT_EXAMPLES,
+    },
+    Benchmarks.AMBIGNQ: {
+        "critique_examples": AMBIGNQ_CRITIQUE_FEWSHOT_EXAMPLES,
+        "refine_examples": AMBIGNQ_REFINE_FEWSHOT_EXAMPLES,
+    },
     Benchmarks.GSM8K: {
         "critique_examples": GSM8K_CRITIQUE_FEWSHOT_EXAMPLES,
         "refine_examples": GSM8K_REFINE_FEWSHOT_EXAMPLES,
@@ -98,10 +144,10 @@
 }
 
 SELF_REFINE_STRATEGIES = {
-    Benchmarks.HOTPOTQA: None,
-    Benchmarks.FEVER: None,
-    Benchmarks.TRIVIAQA: None,
-    Benchmarks.AMBIGNQ: None,
+    Benchmarks.HOTPOTQA: SelfRefineHotQAStrategy,
+    Benchmarks.FEVER: SelfRefineFEVERStrategy,
+    Benchmarks.TRIVIAQA: SelfRefineTriviaQAStrategy,
+    Benchmarks.AMBIGNQ: SelfRefineAmbigNQStrategy,
     Benchmarks.GSM8K: SelfRefineGSM8KStrategy,
     Benchmarks.SVAMP: SelfRefineSVAMPStrategy,
     Benchmarks.TABMWP: SelfRefineTabMWPStrategy,

diff --git a/agential/cog/self_refine/functional.py b/agential/cog/self_refine/functional.py
@@ -60,13 +60,19 @@ def _prompt_agent(
         prompt=prompt,
         additional_keys=additional_keys,
     )
+    print("<PROMPT AGENT=============================================>")
+    print(prompt)
+    print("<PROMPT AGENT=============================================>")
-    print("<PROMPT AGENT=============================================>")
-    print(prompt)
-    print("<PROMPT AGENT=============================================>")
+    import logging
+    logger = logging.getLogger(__name__)
+    logger.debug("<PROMPT AGENT=============================================>")
+    logger.debug(prompt)
+    logger.debug("<PROMPT AGENT=============================================>")
-    print("<PROMPT AGENT=============================================>")
-    print(prompt)
-    print("<PROMPT AGENT=============================================>")
+    import logging
+    logger = logging.getLogger(__name__)
+    logger.debug("<PROMPT AGENT=============================================>")
+    logger.debug(prompt)
+    logger.debug("<PROMPT AGENT=============================================>")
     out = llm(
         [
             HumanMessage(
                 content=prompt,
             )
         ]
     ).content
+    print("<OUT AGENT=============================================>")
+    print(repr(out))
+    print("<OUT AGENT=============================================>")
-    print("<OUT AGENT=============================================>")
-    print(repr(out))
-    print("<OUT AGENT=============================================>")
+    logger.debug("<OUT AGENT=============================================>")
+    logger.debug(repr(out))
+    logger.debug("<OUT AGENT=============================================>")
-    print("<OUT AGENT=============================================>")
-    print(repr(out))
-    print("<OUT AGENT=============================================>")
+    logger.debug("<OUT AGENT=============================================>")
+    logger.debug(repr(out))
+    logger.debug("<OUT AGENT=============================================>")
     assert isinstance(out, str)
     return out.strip()
 
@@ -133,13 +139,19 @@ def _prompt_critique(
         prompt=prompt,
         additional_keys=additional_keys,
     )
+    print("<PROMPT CRITIQUE=============================================>")
+    print(prompt)
+    print("<PROMPT CRITIQUE=============================================>")
     out = llm(
         [
             HumanMessage(
                 content=prompt,
             )
         ]
     ).content
+    print("<OUT CRITIQUE=============================================>")
+    print(repr(out))
+    print("<OUT CRITIQUE=============================================>")
-    print("<OUT CRITIQUE=============================================>")
-    print(repr(out))
-    print("<OUT CRITIQUE=============================================>")
+    logger.debug("<OUT CRITIQUE=============================================>")
+    logger.debug(repr(out))
+    logger.debug("<OUT CRITIQUE=============================================>")
-    print("<OUT CRITIQUE=============================================>")
-    print(repr(out))
-    print("<OUT CRITIQUE=============================================>")
+    logger.debug("<OUT CRITIQUE=============================================>")
+    logger.debug(repr(out))
+    logger.debug("<OUT CRITIQUE=============================================>")
     assert isinstance(out, str)
     return out.strip()
 
@@ -208,12 +220,18 @@ def _prompt_refine(
         prompt=prompt,
         additional_keys=additional_keys,
     )
+    print("<PROMPT REFINE=============================================>")
+    print(prompt)
+    print("<PROMPT REFINE=============================================>")
-    print("<PROMPT REFINE=============================================>")
-    print(prompt)
-    print("<PROMPT REFINE=============================================>")
+    logger.debug("<PROMPT REFINE=============================================>")
+    logger.debug(prompt)
+    logger.debug("<PROMPT REFINE=============================================>")
-    print("<PROMPT REFINE=============================================>")
-    print(prompt)
-    print("<PROMPT REFINE=============================================>")
+    logger.debug("<PROMPT REFINE=============================================>")
+    logger.debug(prompt)
+    logger.debug("<PROMPT REFINE=============================================>")
     out = llm(
         [
             HumanMessage(
                 content=prompt,
             )
         ]
     ).content
+    print("<OUT REFINE=============================================>")
+    print(repr(out))
+    print("<OUT REFINE=============================================>")
-    print("<OUT REFINE=============================================>")
-    print(repr(out))
-    print("<OUT REFINE=============================================>")
+    logger.debug("<OUT REFINE=============================================>")
+    logger.debug(repr(out))
+    logger.debug("<OUT REFINE=============================================>")
-    print("<OUT REFINE=============================================>")
-    print(repr(out))
-    print("<OUT REFINE=============================================>")
+    logger.debug("<OUT REFINE=============================================>")
+    logger.debug(repr(out))
+    logger.debug("<OUT REFINE=============================================>")
     assert isinstance(out, str)
     return out.strip()