Steven/system-prompts-and-models-of-ai-tools

mirror of https://github.com/x1xhlol/system-prompts-and-models-of-ai-tools.git synced 2025-12-16 13:35:11 +00:00

lermfluix a025453c03 feat(prompts): enhance AI assistant prompts with CoT and optimization tokens

Add detailed Chain-of-Thought reasoning directives and optimization tokens (🔄, ✂, ⚖, ❓) to both Chat and Builder prompts. Include a comprehensive TEST_PLAN.md for experimental validation of the new prompt structure. The changes aim to improve the AI's reasoning transparency, self-optimization capabilities, and overall performance stability.

2025-09-20 22:58:21 -03:00

2.8 KiB

Raw Blame History

Plano de Testes Experimentais para Otimização de TRAE

Este documento descreve o plano para realizar testes experimentais e garantir a estabilidade e o desempenho do agente TRAE após as otimizações de prompt.

1. Testes de Linha de Base (Baseline)

Objetivo: Estabelecer um ponto de referência do desempenho do agente com os prompts originais, antes das modificações.

Procedimento: Executar um conjunto padronizado de tarefas de programação e perguntas com os prompts Builder Prompt.txt e Chat Prompt.txt originais.
Métricas: Registrar a qualidade das respostas, a lógica do raciocínio (se aplicável), a precisão do código gerado e o tempo de resposta.

2. Desenho de Cenários Experimentais

Objetivo: Criar um conjunto diversificado de casos de teste para avaliar o impacto das novas instruções de Chain-of-Thought (CoT) e dos tokens de otimização.

Cenários:

Validação de Chain-of-Thought (CoT):
- Tarefas que exigem um raciocínio complexo e passo a passo. Ex: "Refatore esta função aninhada em múltiplos componentes menores, explicando sua lógica para cada extração."
Validação do Uso de Tokens:
- 🔄 (Auto-Update): "Analise suas últimas três interações e proponha uma melhoria em sua abordagem para a próxima tarefa similar."
- ✂ (Compressão): "Este prompt é muito detalhado. Resuma-o em 50% do tamanho original, mantendo a intenção principal."
- ⚖ (Autocrítica): "O código que você gerou anteriormente contém um erro de lógica. Revise-o, identifique a falha e forneça a correção com uma explicação."
- ❓ (Feedback): "Não tenho certeza sobre a melhor arquitetura para este novo recurso. Faça-me três perguntas para me ajudar a esclarecer os requisitos."
Testes de Estresse e Casos de Borda:
- Tarefas ambíguas, com requisitos conflitantes ou incompletos para avaliar como o agente lida com a incerteza.
Tarefas de Codificação Gerais:
- Um conjunto de tarefas comuns (criar um novo endpoint, escrever testes unitários, depurar um erro) para garantir que as otimizações não prejudicaram o desempenho em tarefas padrão.

3. Execução e Análise

Procedimento: Executar todos os cenários experimentais com os prompts modificados.
Observação: Documentar detalhadamente o comportamento do agente, incluindo a clareza do CoT, o uso correto dos tokens e a qualidade geral da saída.
Análise Comparativa: Comparar os resultados dos testes experimentais com a linha de base para identificar melhorias, regressões ou comportamentos inesperados.

4. Iteração e Refinamento

Com base na análise, os prompts serão refinados para corrigir quaisquer problemas identificados e para capitalizar sobre os sucessos observados. O ciclo de teste será repetido conforme necessário.

2.8 KiB Raw Blame History