review-research
About
This skill provides structured peer review of research documents, evaluating methodology, statistical appropriateness, reproducibility, and bias identification. It's designed for reviewing manuscripts, proposals, protocols, or assessing evidence quality across various research outputs. Developers can integrate it to automate critical research quality assessments and generate constructive feedback.
Quick Install
Claude Code
Recommendednpx skills add pjt222/agent-almanac -a claude-code/plugin add https://github.com/pjt222/agent-almanacgit clone https://github.com/pjt222/agent-almanac.git ~/.claude/skills/review-researchCopy and paste this command in Claude Code to install this skill
Documentation
研究评审
对研究工作进行结构化同行评审,评估方法论、统计选择、可重复性和整体科学严谨性。
适用场景
- 评审论文手稿、预印本或内部研究报告
- 评估研究提案或研究协议
- 评估某项主张或建议背后的证据质量
- 在数据收集前对同事的研究设计提供反馈
- 评审学位论文章节或毕业论文章节
输入
- 必填:研究文档(手稿、报告、提案或协议)
- 必填:领域/学科背景(影响方法论标准)
- 可选:期刊或发表指南(如果是为发表而评审)
- 可选:补充材料(数据、代码、附录)
- 可选:先前评审者的意见(如果是评审修订稿)
步骤
第 1 步:初读——范围与结构
通读整篇文档一遍,以了解:
- 研究问题:是否陈述清晰且具体?
- 贡献声明:什么是新颖或创新之处?
- 整体结构:是否遵循预期格式(IMRaD 或特定场合格式)?
- 范围匹配:研究是否适合目标读者/发表场合?
## 初读评估
- **研究问题**:[清晰 / 模糊 / 缺失]
- **新颖性声明**:[有陈述且有支撑 / 过度夸大 / 不明确]
- **结构**:[完整 / 缺失章节:___]
- **范围适配**:[适当 / 边缘 / 不适当]
- **初读后建议**:[继续评审 / 需提前标注重大问题]
预期结果: 清楚理解论文的论点和贡献。
失败处理: 若通读后研究问题仍不清晰,将其记录为重大问题并继续评审。
第 2 步:评估方法论
对照该领域的标准评估研究设计:
定量研究
- 研究设计与研究问题相适应(实验性、准实验性、观察性、调查性)
- 样本量有理据支撑(功效分析或实际依据)
- 抽样方法已描述且适当(随机、分层、便利)
- 变量定义清晰(自变量、因变量、控制变量、混杂变量)
- 测量工具已验证且报告了信度
- 数据收集程序可从描述中重现
- 伦理问题已处理(伦理审查委员会批准、知情同意)
定性研究
- 方法论明确(扎根理论、现象学、案例研究、民族志)
- 参与者筛选标准和饱和度已讨论
- 数据收集方法已描述(访谈、观察、文献)
- 研究者立场性已承认
- 可信度策略已报告(三角验证、成员核查、审计轨迹)
- 伦理问题已处理
混合方法
- 混合设计的理由已阐述
- 整合策略已描述(会聚式、解释性顺序式、探索性顺序式)
- 定量和定性部分均符合各自标准
预期结果: 方法论清单已完成,每项均有具体观察。
失败处理: 若关键方法论信息缺失,标记为重大问题,而不是假设其存在。
第 3 步:评估统计和分析选择
- 统计方法与数据类型和研究问题相适应
- 统计检验的假设已核查并报告(正态性、方差齐性、独立性)
- 效应量与 p 值一并报告
- 适当情况下提供了置信区间
- 必要时进行了多重比较校正(Bonferroni、FDR 等)
- 缺失数据处理方式已描述且适当
- 对关键假设进行了敏感性分析
- 结果解释与分析一致(未夸大研究发现)
常见统计危险信号:
- p 值操纵迹象(大量比较、选择性报告、"边缘显著")
- 不适当的检验(无理由地对非正态数据使用 t 检验,对顺序数据使用参数检验)
- 混淆统计显著性与实际显著性
- 未报告效应量
- 将事后假设呈现为事先假设
预期结果: 统计选择已评估,具体问题已记录。
失败处理: 若评审者对特定方法缺乏专业知识,应承认这一点并建议请专业评审者。
第 4 步:评估可重复性
- 数据可用性已说明(开放数据、数据库链接、可按需提供)
- 分析代码可用性已说明
- 软件版本和环境已记录
- 随机种子或可重复性机制已描述
- 关键参数和超参数已报告
- 计算环境已描述(硬件、操作系统、依赖项)
可重复性等级:
| 等级 | 描述 | 证据 |
|---|---|---|
| 金级 | 完全可重复 | 开放数据 + 开放代码 + 容器化环境 |
| 银级 | 基本可重复 | 数据可获取,分析描述详细 |
| 铜级 | 潜在可重复 | 方法已描述但无数据/代码共享 |
| 不透明 | 不可重复 | 方法描述不足或数据专有 |
预期结果: 已分配可重复性等级并附有理由。
失败处理: 若数据无法共享(隐私、专有),合成数据或详细伪代码是可接受的替代方案——注意是否已提供。
第 5 步:识别潜在偏倚
- 选择偏倚:参与者是否代表目标人群?
- 测量偏倚:测量过程是否系统性地扭曲了结果?
- 报告偏倚:是否报告了所有结果,包括非显著结果?
- 确认偏倚:作者是否只寻找支持其假设的证据?
- 幸存者偏倚:是否考虑了退出者、被排除的数据或失败的实验?
- 资金偏倚:资金来源是否已披露,是否可能影响研究发现?
- 发表偏倚:这是否是完整的图景,还是可能遗漏了阴性结果?
预期结果: 已识别潜在偏倚,并附有来自手稿的具体示例。
失败处理: 若无法从现有信息评估偏倚,建议作者明确说明。
第 6 步:撰写评审意见
以建设性方式组织评审:
## 摘要
[2-3 句总结论文贡献和整体评估]
## 重大问题
[必须在认定研究成立之前解决的问题]
1. **[问题标题]**:[具体描述,注明章节/页码/图表]
- *建议*:[作者可如何解决此问题]
2. ...
## 次要问题
[提高质量但非根本性问题]
1. **[问题标题]**:[具体描述]
- *建议*:[建议的修改]
## 向作者的提问
[完成评估所需的澄清]
1. ...
## 积极评价
[值得认可的具体优点]
1. ...
## 建议
[接受 / 小幅修改 / 大幅修改 / 拒绝]
[简要说明建议的理由]
预期结果: 评审具体、有建设性,且引用了手稿中的具体位置。
失败处理: 若评审篇幅过长,优先处理重大问题,将次要问题汇总为列表。
验证清单
- 每个重大问题均引用了具体章节、图表或论点
- 反馈具有建设性——问题与建议配对
- 积极方面与问题一并得到认可
- 统计评估与所用分析方法相匹配
- 可重复性已明确评估
- 建议与提出的问题严重程度一致
- 语气专业、尊重且同行友好
常见问题
- 模糊批评:"方法论薄弱"没有帮助。具体说明薄弱之处及原因。
- 要求不同的研究:评审实际完成的研究,而非你本人会做的研究。
- 忽视范围:会议论文与期刊文章的要求不同。
- 人身攻击:评审研究,而非作者。切勿提及作者身份。
- 完美主义:没有完美的研究。关注会改变结论的问题。
相关技能
review-data-analysis— 更深入聚焦数据质量和模型验证format-apa-report— 研究报告的 APA 格式标准generate-statistical-tables— 出版级统计表格validate-statistical-output— 统计输出验证
GitHub Repository
Related Skills
llamaguard
OtherLlamaGuard is Meta's 7-8B parameter model for moderating LLM inputs and outputs across six safety categories like violence and hate speech. It offers 94-95% accuracy and can be deployed using vLLM, Hugging Face, or Amazon SageMaker. Use this skill to easily integrate content filtering and safety guardrails into your AI applications.
cost-optimization
OtherThis Claude Skill helps developers optimize cloud costs through resource rightsizing, tagging strategies, and spending analysis. It provides a framework for reducing cloud expenses and implementing cost governance across AWS, Azure, and GCP. Use it when you need to analyze infrastructure costs, right-size resources, or meet budget constraints.
quantizing-models-bitsandbytes
OtherThis skill quantizes LLMs to 8-bit or 4-bit precision using bitsandbytes, achieving 50-75% memory reduction with minimal accuracy loss. It's ideal for running larger models on limited GPU memory or accelerating inference, supporting formats like INT8, NF4, and FP4. The skill integrates with HuggingFace Transformers and enables QLoRA training and 8-bit optimizers.
dispatching-parallel-agents
OtherThis Claude Skill dispatches multiple agents to investigate and fix 3+ independent problems concurrently. It is designed for scenarios involving unrelated failures that can be resolved without shared state or dependencies. The core capability is parallel problem-solving, assigning one agent per independent problem domain to maximize efficiency.
